从TensorFlow 到 Caffe2:盘点深度学习框架

机器之心报道

本文首先介绍GitHub 中最受欢迎的开源深度学习框架排名,然后再对其进行系统地对比


下图总结了在 GitHub 中最受欢迎的开源深度学习框架排名,该排名是基于各大框架在 GitHub 里的收藏数,这个数据由 Mitch De Felice 在 2017 年 5 月初完成。

从TensorFlow 到 Caffe2:盘点深度学习框架


TensorFlow

地址:https://www.tensorflow.org/

TensorFlow 最开始是由谷歌一个称之为 DistBelief V2 的库发展而来,它是一个公司内部的深度神经网络库,隶属于谷歌大脑项目。有一些人认为 TensorFlow 是由 Theano 彻底重构而来。

谷歌开源 TensorFlow 后,立即吸引了一大批开发爱好者。TensorFlow 可以提供一系列的能力,例如图像识别、手写识别、语音识别、预测以及自然语言处理等。2015 年 11 月 9 号,TensorFlow 在 Apache 2.0 协议下开源发布。

TensorFlow 1.0 版本已于 2017 年 2 月 15 日发布,这个版本是之前 8 个版本的优化改进版,其致力于解决 Tensorflow 之前遇到的一系列问题以及完善一些核心能力。TensorFlow 获得成功的因素有:

TensorFlow 提供了如下工具:

  • TensorBoard:对于网络模型和效果来说是一个设计优良的可视化工具。

  • TensorFlow Serving:可以保持相同的服务器架构和 API,使得部署新算法和实验变得简单。TensorFlow Serving 提供了与 TensorFlow 模型开箱即用的整合,但同时还能很容易扩展到其它类型的模型和数据。

TensorFlow 编程接口支持 Python 和 C++。随着 1.0 版本的公布,Java、Go、R 和 Haskell API 的 alpha 版本也将被支持。此外,TensorFlow 还可在谷歌云和亚马孙云中运行。

随着 0.12 版本的发行,TensorFlow 将支持 Windows 7、 Windows 10 和 Server 2016。由于 TensorFlow 使用 C++ Eigen 库,所以库可在 ARM 架构上编译和优化。这也就意味着你可以在各种服务器和移动设备上部署你的训练模型,而无需执行单独的模型解码器或者加载 Python 解释器。

TensorFlow 支持细粒度的网格层,而且允许用户在无需用低级语言实现的情况下构建新的复杂的层类型。子图执行操作允许你在图的任意边缘引入和检索任意数据的结果。这对调试复杂的计算图模型很有帮助。

分布式 TensorFlow(Distributed TensorFlow)被加进了 0.8 版本,它允许模型并行,这意味着模型的不同部分可在不同的并行设备上被训练。

自 2016 年 3 月,斯坦福大学、伯克利大学、多伦多大学和 Udacity 都将这个框架作为一个免费的大规模在线开放课程进行教授。

TensorFlow 的缺点如下:

  • TensorFlow 的每个计算流都必须构造为一个静态图,且缺乏符号性循环(symbolic loops),这会带来一些计算困难。

  • 没有对视频识别很有用的三维卷积(3-D convolution)。

  • 尽管 TensorFlow 现在比起始版本(v0.5)快了 58 倍,,但在执行性能方面依然落后于竞争对手。


Caffe

地址:http://caffe.berkeleyvision.org/

Caffe 是贾扬清的杰作,目前他在 Facebook AI 平台担任首席工程师。Caffe 可能是自 2013 年底以来第一款主流的工业级深度学习工具包。正因为 Caffe 优秀的卷积模型,它已经成为计算机视觉界最流行的工具包之一,并在 2014 年的 ImageNet 挑战赛中一举夺魁。Caffe 遵循 BSD 2-Clause 协议。

Caffe 的快速使其完美应用于实验研究和商业部署。Caffe 可在英伟达单个 K40 GPU 上每天处理 6000 万张图像。这大概是 1 毫秒预测一张图片,4 毫秒学习一张图片的速度,而且最新的版本处理速度会更快。

Caffe 基于 C++,因此可在多种设备上编译。它跨平台运行,并包含 Windows 端口。Caffe 支持 C++、Matlab 和 Python 编程接口。Caffe 拥有一个庞大的用户社区,人们在其中为被称为「Model Zoo(https://github.com/BVLC/caffe/wiki/Model-Zoo)」的深度网络库做贡献。AlexNet 和 GoogleNet 就是社群用户构建的两个流行网络。

虽然 Caffe 在视频识别领域是一个流行的深度学习网络,但是 Caffe 却不能像 TensorFlow、CNTK 和 Theano 那样支持细粒度网络层。构建复杂的层类型必须以低级语言完成。由于其遗留架构,Caffe 对循环网络和语言建模的支持总体上很薄弱。


Caffe2

地址:https://caffe2.ai/

目前,贾扬清和他在 Facebook 的团队正在开发新一代框架 Caffe2。今年 4 月 18 日,Facebook 开源了 Caffe2。Caffe 2 与 Caffe 的区别是什么?Caffe2 更注重模块化,在移动端、大规模部署上表现卓越。如同 TensorFlow,Caffe2 使用 C++ Eigen 库,支持 ARM 架构。

用一个实用脚本,Caffe 上的模型可轻易地被转变到 Caffe2 上。Caffe 设计的选择使得它处理视觉类型的难题时很完美。Caffe2 延续了它对视觉类问题的支持,且增加了对自然语言处理、手写识别、时序预测有帮助的 RNN 和 LSTM 支持。

期待不久之后能看到 Caffe 2 超越 Caffe,就像它宣称的那样在深度学习社区流行。

在本周三英伟达推出 Volta 架构的第一块加速卡 Tesla V100 后,Caffe 的开发者第一时间展示了 Tesla V100 在 Caffe2 上运行 ResNet-50 的评测。数据显示在新框架和新硬件的配合下,模型每秒钟可以处理 4100 张图片。

从TensorFlow 到 Caffe2:盘点深度学习框架

链接:https://caffe2.ai/blog/2017/05/10/caffe2-adds-FP16-training-support.html


CNTK

链接:https://github.com/Microsoft/CNTK/wiki

微软的 CNTK(Microsoft Cognitive Toolkit)最初是面向语音识别的框架。CNTK 支持 RNN 和 CNN 类型的网络模型,从而在处理图像、手写字体和语音识别问题上,它是很好的选择。使用 Python 或 C++ 编程接口,CNTK 支持 64 位的 Linux 和 Windows 系统,在 MIT 许可证下发布。

与 TensorFlow 和 Theano 同样,CNTK 使用向量运算符的符号图(symbolic graph)网络,支持如矩阵加/乘或卷积等向量操作。此外,像 TensorFlow 和 Theano 一样,CNTK 有丰富的细粒度的网络层构建。构建块(操作)的细粒度使用户不需要使用低层次的语言(如 Caffe)就能创建新的复杂的层类型。

CNTK 也像 Caffe 一样基于 C++ 架构,支持跨平台的 CPU/GPU 部署。CNTK 在 Azure GPU Lab 上显示出最高效的分布式计算性能。目前,CNTK 不支持 ARM 架构,这限制了其在移动设备上的功能。


MXNet

链接:http://mxnet.io/

MXNet(发音为 mix-net)起源于卡内基梅隆大学和华盛顿大学的实验室。MXNet 是一个全功能、可编程和可扩展的深度学习框架,支持最先进的深度学习模型。MXNet 支持混合编程模型(命令式和声明式编程)和多种编程语言的代码(包括 Python、C++、R、Scala、Julia、Matlab 和 JavaScript)。2017 年 1 月 30 日,MXNet 被列入 Apache Incubator 开源项目。

MXNet 支持深度学习架构,如卷积神经网络(CNN)、循环神经网络(RNN)和其包含的长短时间记忆网络(LTSM)。该框架为图像、手写文字和语音的识别和预测以及自然语言处理提供了出色的工具。有些人称 MXNet 是世界上最好的图像分类器。

MXNet 具有可扩展的强大技术能力,如 GPU 并行和内存镜像、快速编程器开发和可移植性。此外,MXNet 与 Apache Hadoop YARN(一种通用分布式应用程序管理框架)集成,使 MXNet 成为 TensorFlow 有力的竞争对手。

MXNet 不仅仅只是深度网络框架,它的区别在于支持生成对抗网络(GAN)模型。该模型启发自实验经济学方法的纳什均衡。


Torch

链接:http://torch.ch/

Torch 由 Facebook 的 Ronan Collobert 和 Soumith Chintala,Twitter 的 Clement Farabet(现任职于英伟达),以及 Google DeepMind 的 Koray Kavukcuoglu 共同开发。很多科技巨头(如 Facebook、Twitter 和英伟达)都使用定制版的 Torch 用于人工智能研究,这大大促进了 Torch 的开发。Torch 是 BSD 3 协议下的开源项目。然而,随着 Facebook 对 Caffe 2 的研究,以及其对移动设备的支持,Caffe 2 正成为主要的深度学习框架。

Torch 的编程语言为 Lua。Lua 不是主流语言,在开发人员没有熟练掌握 Lua 之前,使用 Torch 很难提高开发的整体生产力。

Torch 缺乏 TensorFlow 的分布式应用程序管理框架,也缺乏 MXNet 和 Deeplearning4J 对 YARN 的支持。缺乏多种编程语言的 API 也限制了开发人员。


PyTorch

地址:http://pytorch.org/

PyTorch 由 Adam Paszke、Sam Gross 与 Soumith Chintala 等人牵头开发,其成员来自 Facebook FAIR 和其他多家实验室。它是一种 Python 优先的深度学习框架,在今年 1 月被开源,提供了两种高层面的功能:

使用强大的 GPU 加速的 Tensor 计算(类似 numpy)

构建于基于 tape 的 autograd 系统的深度神经网络

该框架结合了 Torch7 高效灵活的 GPU 加速后端库与直观的 Python 前端,它的特点是快速成形、代码可读和支持最广泛的深度学习模型。如有需要,你可以复用你最喜欢的 Python 软件包(如 numpy、scipy 和 Cython)来扩展 PyTorch。该框架因为其灵活性和速度,在推出以后迅速得到了开发者和研究人员的青睐。随着 GitHub 上越来越多代码的出现,PyTorch 作为新框架缺乏资源的问题已经得以缓解。


Deeplearning4J

地址:https://deeplearning4j.org/

Deeplearning4J(DL4J)是用 Java 和 Scala 编写的 Apache 2.0 协议下的开源、分布式神经网络库。DL4J 最初由 SkyMind 公司的 Adam Gibson 开发,是唯一集成了 Hadoop 和 Spark 的商业级深度学习网络,并通过 Hadoop 和 Spark 协调多个主机线程。DL4J 使用 Map-Reduce 来训练网络,同时依赖其它库来执行大型矩阵操作。

DL4J 框架支持任意芯片数的 GPU 并行运行(对训练过程至关重要),并支持 YARN(Hadoop 的分布式应用程序管理框架)。DL4J 支持多种深度网络架构:RBM、DBN、卷积神经网络(CNN)、循环神经网络(RNN)、RNTN 和长短时间记忆网络(LTSM)。DL4J 还对矢量化库 Canova 提供支持。

DL4J 使用 Java 语言实现,本质上比 Python 快。在用多个 GPU 解决非平凡图像(non-trivial image)识别任务时,它的速度与 Caffe 一样快。该框架在图像识别、欺诈检测和自然语言处理方面的表现出众。


Theano

地址:http://deeplearning.net/software/theano/

Theano 由蒙特利尔大学算法学习人工智能实验室(MILA)维护。以 Theano 的创始人 Yoshua Bengio 为首,该实验室是深度学习研究领域的重要贡献者,拥有约 30 至 40 名学生和教师。Theano 支持快速开发高效的机器学习算法,在 BSD 协议下发布。

Theano 的架构如同一个黑箱;整个代码库和接口使用 Python,其中 C/CUDA 代码被打包成 Python 字符串。这使得开发人员很难导航(navigate)、调试和重构。

Theano 开创了将符号图用于神经网络编程的趋势。Theano 的符号式 API 支持循环控制(即 scan),这使得实现 RNN 容易且高效。

Theano 缺乏分布式应用程序管理框架,只支持一种编程开发语言。Theano 是很好的学术研究工具,在单个 CPU 上运行的效率比 TensorFlow 更有效。然而,在开发和支持大型分布式应用程序时,使用 Theano 可能会遇到挑战。


在了解这些深度学习框架的基本内容后,下面我们可以看看它们之间在库资源、建模能力、速度等度量下的对比情况。

从TensorFlow 到 Caffe2:盘点深度学习框架

这组对比参考了多种公开基准评测,以及我们在图像/语音识别应用时对这些技术的 主观印象。此外,你需要注意:


语言

当你开始一个深度学习项目时,你最好使用一个支持你所会语言的框架。比如 Caffe(C++)和 Torch(Lua)只能支持有限的语言(最近,随着 PyTorch 的出现,情况有所改观)。所以如果你希望选用上述两个框架,我们建议你事先熟悉 C++或 Lua 语言。相比之下,TensorFlow 与 MXNet 具有丰富的多语言支持,即使你对 C++感到陌生也可以使用它们。

从TensorFlow 到 Caffe2:盘点深度学习框架

从TensorFlow 到 Caffe2:盘点深度学习框架


教程和资源

目前,各类深度学习框架的教程与可利用的资源在质量和数量上有着显著的不同。Theano,TensorFlow,Torch 和 MXNet 有着很详尽的文档教程,很容易被初学者理解和实现。与此相比,虽然微软的 CNTK 和英特尔的 Nervana Neon 也是强大的工具,我们却很少能见到有关它们的新手级资料。此外,在研究过程中,我们发现 GitHub 社区的参与度不仅可以用于准确地评价不同工具的开发水平,而且还是在搜索 StackOverflow 或 repo 的 Git Issues 时能否快速解决问题的参考性指标。当然,作为谷歌提供的框架,TensorFlow 理所当然地在教程,资源,开发者和社区贡献者的数量上遥遥领先。

从TensorFlow 到 Caffe2:盘点深度学习框架


CNN 建模能力

卷积神经网络(CNN)经常被用于图像识别、推荐引擎和自然语言识别等方向的应用。CNN 由一组多层的神经网络组成,在运行时会将输入的数据进行预定义分类的评分。CNN 也可用于回归分析,例如构成自动驾驶汽车中有关转向角的模型。在横评中,我们评价一种框架的 CNN 建模能力考虑到以下几个特性:定义模型的机会空间、预构建层的可用性、以及可用于连接这些层的工具和功能。我们发现,Theano,Caffe 和 MXNet 都有很好的 CNN 建模能力。其中,TensorFlow 因为易于建立的 Inception V3 模型,Torch 因为其丰富的 CNN 资源——包括易于使用的时间卷积集使得这两种框架在 CNN 建模能力上脱颖而出。


RNN 建模能力

循环神经网络(RNN)常用于语音识别,时间序列预测,图像字幕和其他需要处理顺序信息的任务。由于预建的 RNN 模型不如 CNN 数量多,因此,如果你已经有一个 RNN 深度学习项目,优先考虑旧 RNN 模型是在哪种框架里实现的最重要。目前,Caffe 上的 RNN 资源最少,而 Microsoft 的 CNTK 和 Torch 有丰富的 RNN 教程和预构建模型。当然,最流行的 TensorFlow 中也有一些 RNN 资源,TFLearn 和 Keras 中更有很多使用 TensorFlow 的 RNN 示例。


架构

为在特定框架中构建和训练新模型,易于使用和模块化的前端是至关重要的。TensorFlow,Torch 和 MXNet 都有直观而模块化的架构,让开发相对变得简单。相比之下,我们在 Caffe 这样的框架上需要进行大量的工作才能创建一个新层。另外我们发现在开发过程中,因为有 TensorBoard web GUI 等应用的存在,TensorFlow 极易在训练中和训练后进行 debug 和监控。


速度

Torch 和 Nervana 具有开源卷积神经网络基准测试的最佳性能:

https://github.com/soumith/convnet-benchmarks/blob/master/README.md

Tensorflow 的性能在大多数测试中是具有竞争力的,而 Caffe 和 Theano 稍稍落后:

https://github.com/tobigithub/tensorflow-deep-learning/wiki/tf-benchmarks

微软声称他们的 CNTK 在一些 RNN 训练任务中有最快的速度。

在另一项对比 Theano、Torch 和 TensorFlow 的 RNN 性能的研究中,Theano 是其中最快的:

https://arxiv.org/abs/1511.06435


多 GPU 支持

大多数深度学习应用都需要用到巨量的浮点运算(FLOP)。例如,百度的 DeepSpeech 识别模型需要 10s ExaFLOPs 用于训练,这是大于 10e18 的计算量:

https://arxiv.org/abs/1512.02595

考虑到目前英伟达 Pascal 架构的 TitanX 等顶级显卡可以每秒执行 10e9 FLOP:

https://www.nvidia.com/en-us/geforce/products/10series/titan-x-pascal/

因此,假如需要在大型数据集上训练一个新模型——用单 GPU 机器的话——可能会需要一个星期之久。为了减少构建模型所需的时间,我们需要使用多 GPU 并联的方式组建自己的机器。幸运的是,上述大部分架构都可以很好地支持多 GPU 运算。其中,据报道 MXNet 有着最好的多 GPU 优化引擎:

http://www.allthingsdistributed.com/2016/11/mxnet-default-framework-deep-learning-aws.html


Keras 兼容性

Keras 是一个用于快速构建深度学习原型的高级库。我们在实践中发现,它是数据科学家应用深度学习的好帮手。Keras 目前支持两种后端框架:TensorFlow 与 Theano,而且 Keras 再过不久就会成为 TensorFlow 的默认 API:

http://www.fast.ai/2017/01/03/keras/

尽管如此,Keras 的作者表示,这一高级库在未来仍会作为支持多种框架的前端存在:

https://github.com/fchollet/keras/issues/5050#issuecomment-272945570


总结

如果你想要开始深度学习,你应该从评估自己的团队技能和业务需求开始。例如,如果一个以 Python 为中心的团队想开发图像识别的应用程序,你应该使用 TensorFlow,因为它有丰富的资源,较好性能和完整的原型工具。如果一个有 Lua 能力的团队希望将 RNN 大规模应用到生产环境中去,他们则会受益于 Torch 的高速和强大的 RNN 建模能力。

未来,我们将继续讨论在更大规模的应用中这些框架的表现。这些挑战包括多机并联时的多 GPU 优化,多种开源库的兼容性,如 CMU Sphinx 和 Kaldi 等,尽请期待。

相关推荐