深度学习利器：TensorFlow系统架构及高性能程序设计

贝师东去

2017-04-24

2015年11月9日谷歌开源了人工智能平台TensorFlow，同时成为2015年最受关注的开源项目之一。经历了从v0.1到v0.12的12个版本迭代后，谷歌于2017年2月15日发布了TensorFlow 1.0 版本，并同时在美国加州山景城举办了首届TensorFlow Dev Summit会议。

TensorFlow 1.0及Dev Summit(2017)回顾

和以往版本相比，TensorFlow 1.0 的特性改进主要体现在以下几个方面：

速度更快：TensorFlow 1.0版本采用了XLA的编译技术，改进了TensorFlow的运行性能及内存利用。从Benchmark问题的测试结果来看，对单机Inception v3模型，实现了在单机8 GPUs上7.3倍的运算加速;对分布式Inception v3模型，实现了在多机64 GPUs上58倍的运算加速。
更加灵活：该版本除了支持tf.layers，tf.metrics及tf.losses模型的High-Level API外，实现了对keras(high-level neural networks library)API的全面兼容。
更产品化：TensorFlow Python API在v1.0版本中趋于稳定，为产品兼容性打下坚实基础。

在TensorFlow 1.0版本发布的当天，谷歌公司还举办了TensorFlow 2017 DEV Summit。该日程主要包括以下几个方面的主题演讲：

Hands-on TensorBoard可视化技术：介绍了如何使用TensorBoard，以及TensorFlow图模型、训练数据的可视化等。
TensorFlow High-Level API：介绍了使用Layers, Estimators, and Canned Estimators High-Level API定义训练模型。
Integrating Keras & TensorFlow: 介绍了如何在TensorFlow中使用Keras API进行模型定义及训练。
TensorFlow at DeepMind：介绍了在DeepMind中使用TensorFlow平台的典型案例，包括AlphaGo等应用。
Skin Cancer Image Classification：介绍了斯坦福医学院使用TensorFlow分类皮肤癌照片，用于医学诊断。
Mobile and Embedded TensorFlow：介绍了如何把TensorFlow模型运行在移动终端、嵌入式设备，包括安卓，iOS等系统。
Distributed TensorFlow：系统性地介绍了分布式TensorFlow的相关技术，以及如何应用于大规模模型训练。
TensorFlow Ecosystem：讲解了TensorFlow的生态系统，包括生成训练数据，分布式运行TensorFlow和serving models的产品化流程。
Serving Models in Production with TensorFlow Serving：系统性讲解了如何在生产环境中应用TensorFlow Serving模型。
ML Toolkit：介绍了TensorFlow的机器学习库，如线性回归，KMeans等算法模型的使用。
Sequence Models and the RNN API：介绍了如何构建高性能的sequence-to-sequence模型，以及相关API。
Wide & Deep Learning: 介绍了如何结合Wide模型和Deep模型构建综合训练模型。
Magenta，Music and Art Generation：使用增强型深度学习模型生成音乐声音和艺术图片。
Case Study，TensorFlow in Medicine – Retinal Imaging：使用TensorFlow机器学习平台对医学视网膜图片进行分类，辅助医学诊断。

TensorFlow系统架构

TensorFlow作为分布式机器学习平台，主要架构如下图所示。RPC和RDMA为网络层，主要负责传递神经网络算法参数。CPU和GPU为设备层，主要负责神经网络算法中具体的运算操作。Kernel为TensorFlow中算法操作的具体实现，如卷积操作，激活操作等。Distributed Master用于构建子图;切割子图为多个分片，不同的子图分片运行在不同的设备上;Master还负责分发子图分片到Executor/Work端。Executor/Work在设备(CPUs，GPUs，etc.)上，调度执行子图操作;并负责向其它Worker发送和接收图操作的运行结果。C API把TensorFlow分割为前端和后端，前端(Python/C++/Java Client)基于C API触发TensorFlow后端程序运行。Training libraries和Inference libs是模型训练和推导的库函数，为用户开发应用模型使用。

深度学习利器：TensorFlow系统架构及高性能程序设计

下图为Client、Master及Worker的内部工作原理。”/job:worker/task:0″ 和 “/job:ps/task:0” 表示worker中的执行服务。”job:ps”表示参数服务器，用于存储及更新模型参数。”job:worker”用于优化模型参数，并发参数发送到参数服务器上。Distributed Master和Worker Service只存在于分布式TensorFlow中。单机版本的TensorFlow实现了Local的Session，通过本地进程的内部通讯实现上述功能。

深度学习利器：TensorFlow系统架构及高性能程序设计

用户编写TensorFlow应用程序生成计算图，Client组件会创建Session，并通过序列化技术，发送图定义到Distributed Master组件。下图中，Client创建了一个 s+=w*x+b的图计算模型。

深度学习利器：TensorFlow系统架构及高性能程序设计

当Client触发Session运算的时候，Maser构建将要运行的子图。并根据设备情况，切割子图为多个分片。下面为Master构建的运行子图：

深度学习利器：TensorFlow系统架构及高性能程序设计

接着切割子图，把模型参数分组在参数服务器上，图计算操作分组在运算Worker上。下图为一种可行的图切割策略：

深度学习利器：TensorFlow系统架构及高性能程序设计

Distributed Master会根据模型参数的分区情况进行切割边，在Task间插入发送和接收Tensor信息的通信节点，如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

接着Distributed Master通过RegisterGraph方法发送子图分片给Task，如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

Master通过RunGraph触发子图运算，Worker会使用GPU/CPU运算设备执行TensorFlow Kernel运算。在本节点的CPU和GPU之间，使用cudaMemcpyAsync传输数据;在本节点GPU和GPU之间，使用peer-to-peer DMA传输数据，避免通过CPU复制数据。TensorFlow使用gRPC(TCP)和RDMA (Converged Ethernet)技术，实现Worker间的数据通信及传输，如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

高性能程序设计

TensorFlow内核采用C/C++开发，并提供了C++，Python，Java，Go语言的Client API。特别是Python API，是目前主流的TensorFlow模型开发接口。但为什么还需要采用C++ API去训练模型呢?本文基于如下两点考虑，首先当我们采用Python API去训练模型的时候，需要不断地用Python API调用C/C++底层接口，重复的接口调用一定程度上影响了程序的执行性能。更为重要的是，在GPU上训练模型的时候需要大量的内存交换;如果采用C++ API去训练模型，可提供更好的运算性能及更好地控制GPU内存的分配。

下图为Python API的运算架构：在模型训练的每次迭代中，程序通过Python API读取Batch Data，然后通过TensorFlow Session Run接口，传递数据给C++，并触发神经网络训练。如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

下图为C++ API的运算架构：在模型训练的每次迭代中，通过C++ API读取Batch Data后，直接触发模型训练。减少了不同语言间API接口的循环调用及数据传输。如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

为了采用C++ API进行模型训练，我们首先需要编写训练模型，这个编写过程可以采用Python语言来完成。我们首先采用Python API编写训练模型，然后把图模型转换为Protobuf的序列化文件。接着通过C++ API加载该模型文件，创建TensorFlow Session，初始化模型变量，以及加载训练数据并执行神经网络训练。程序架构如下图所示：

深度学习利器：TensorFlow系统架构及高性能程序设计

下面为使用Python API定义训练模型的示例：

with tf.Session() as sess:

<ol class="dp-sql">
<li class="alt"><span><span>#定义Placeholder Tensor接入训练数据 </span></span></li>
<li><span>    x = tf.placeholder(tf.float32, [None, 32], <span class="keyword">name</span><span>=</span><span class="string">"x"</span><span>) </span></span></li>
<li class="alt"><span>    y = tf.placeholder(tf.float32, [None, 8], <span class="keyword">name</span><span>=</span><span class="string">"y"</span><span>) </span></span></li>
<li><span> </span></li>
<li class="alt"><span>    #定义训练模型 </span></li>
<li><span>    w1 = tf.Variable(tf.truncated_normal([32, 16], stddev=0.1)) </span></li>
<li class="alt"><span>    b1 = tf.Variable(tf.constant(0.0, shape=[16])) </span></li>
<li><span>    w2 = tf.Variable(tf.truncated_normal([16, 8], stddev=0.1)) </span></li>
<li class="alt"><span>    b2 = tf.Variable(tf.constant(0.0, shape=[8])) </span></li>
<li><span>    a = tf.nn.tanh(tf.nn.bias_add(tf.matmul(x, w1), b1)) </span></li>
<li class="alt"><span>    y_out = tf.nn.tanh(tf.nn.bias_add(tf.matmul(a, w2), b2), <span class="keyword">name</span><span>=</span><span class="string">"y_out"</span><span>) </span></span></li>
<li><span>    cost = tf.reduce_sum(tf.square(y-y_out), <span class="keyword">name</span><span>=</span><span class="string">"cost"</span><span>) </span></span></li>
<li class="alt"><span>    optimizer = tf.train.AdamOptimizer().minimize(cost, <span class="keyword">name</span><span>=</span><span class="string">"train"</span><span>) </span></span></li>
<li><span> </span></li>
<li class="alt"><span>    #定义变量初始化操作 </span></li>
<li><span>    init = tf.initialize_variables(tf.all_variables(), <span class="keyword">name</span><span>=</span><span class="string">'init_all_vars_op'</span><span>) </span></span></li>
<li class="alt"><span> </span></li>
<li><span>    #把图模型转换为Protobuf文件 </span></li>
<li class="alt"><span>tf.train.write_graph(sess.graph_def, <span class="string">'./'</span><span>, </span><span class="string">'mlp.pb'</span><span>, as_text=</span><span class="keyword">False</span><span>) </span></span></li>
</ol>

下面为使用C++ API加载Protobuf图模型，并执行训练的示例：

<ol class="dp-sql">
<li class="alt"><span><span>#include </span><span class="string">"tensorflow/core/public/session.h"</span><span> </span></span></li>
<li><span>#include <span class="string">"tensorflow/core/graph/default_device.h"</span><span> </span></span></li>
<li class="alt"><span>using namespace tensorflow; </span></li>
<li><span> </span></li>
<li class="alt"><span><span class="keyword">int</span><span> main(</span><span class="keyword">int</span><span> argc, </span><span class="keyword">char</span><span>* argv[]) { </span></span></li>
<li><span>    //Protobuf模型文件名 </span></li>
<li class="alt"><span>    std::string graph_definition = <span class="string">"mlp.pb"</span><span>; </span></span></li>
<li><span>    //Tensorflow Sesssion </span></li>
<li class="alt"><span>    Session* session; </span></li>
<li><span> </span></li>
<li class="alt"><span>    //定义图模型对象 </span></li>
<li><span>    GraphDef graph_def; </span></li>
<li class="alt"><span>    SessionOptions opts; </span></li>
<li><span> </span></li>
<li class="alt"><span>    //存储Session会话的运行结果 </span></li>
<li><span>    std::vector<Tensor> outputs;  </span></li>
<li class="alt"><span> </span></li>
<li><span>    #加载Protobuf模型文件到图模型对象中 </span></li>
<li class="alt"><span>    TF_CHECK_OK(ReadBinaryProto(Env::<span class="keyword">Default</span><span>(), graph_definition, &graph_def)); </span></span></li>
<li><span> </span></li>
<li class="alt"><span>    // 默认在gpu 0上执行模型的训练操作 </span></li>
<li><span>    graph::SetDefaultDevice(<span class="string">"/gpu:0"</span><span>, &graph_def); </span></span></li>
<li class="alt"><span> </span></li>
<li><span>    //设定GPU显存使用参数 </span></li>
<li class="alt"><span>    opts.config.mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.5); </span></li>
<li><span>    opts.config.mutable_gpu_options()->set_allow_growth(<span class="keyword">true</span><span>); </span></span></li>
<li class="alt"><span> </span></li>
<li><span>    //创建TensorFlow会话 </span></li>
<li class="alt"><span>    TF_CHECK_OK(NewSession(opts, &session)); </span></li>
<li><span> </span></li>
<li class="alt"><span>    // 加载图对象到会话中 </span></li>
<li><span>    TF_CHECK_OK(session-><span class="keyword">Create</span><span>(graph_def)); </span></span></li>
<li class="alt"><span> </span></li>
<li><span>    // 执行模型参数初始化操作 </span></li>
<li class="alt"><span>    TF_CHECK_OK(session->Run({}, {}, {<span class="string">"init_all_vars_op"</span><span>}, nullptr)); </span></span></li>
<li><span> </span></li>
<li class="alt"><span>    //定义模型输入数据，包括数据类型和维度信息 </span></li>
<li><span>    Tensor x(DT_FLOAT, TensorShape({100, 32})); </span></li>
<li class="alt"><span>    Tensor y(DT_FLOAT, TensorShape({100, 8})); </span></li>
<li><span> </span></li>
<li class="alt"><span>    //把Tensor转换为矩阵，并初始化Tensor数据 </span></li>
<li><span>    auto _XTensor = x.matrix<<span class="keyword">float</span><span>>(); </span></span></li>
<li class="alt"><span>    auto _YTensor = y.matrix<<span class="keyword">float</span><span>>(); </span></span></li>
<li><span>    _XTensor.setRandom(); </span></li>
<li class="alt"><span>    _YTensor.setRandom(); </span></li>
<li><span> </span></li>
<li class="alt"><span>    <span class="keyword">for</span><span> (</span><span class="keyword">int</span><span> i = 0; i < 10; ++i) { </span></span></li>
<li><span>        //执行模型的训练操作，{{<span class="string">"x"</span><span>, x}, {</span><span class="string">"y"</span><span>, y}}表示输入数据Tensor名称和Tensor对象；{</span><span class="string">"cost"</span><span>}表示要获取输出值的操作名称；&outputs表示执行</span><span class="string">"cost"</span><span>操作后返回的Tensor对象 </span></span></li>
<li class="alt"><span>        TF_CHECK_OK(session->Run({{<span class="string">"x"</span><span>, x}, {</span><span class="string">"y"</span><span>, y}}, {</span><span class="string">"cost"</span><span>}, {}, &outputs));  </span></span></li>
<li><span> </span></li>
<li class="alt"><span>        //获取执行“cost“操作后的运算结果 </span></li>
<li><span>        <span class="keyword">float</span><span> cost = outputs[0].scalar<</span><span class="keyword">float</span><span>>()(0); </span></span></li>
<li class="alt"><span>        std::cout << <span class="string">"Cost: "</span><span> << cost << std::endl; </span></span></li>
<li><span> </span></li>
<li class="alt"><span>        //执行<span class="string">"train"</span><span>操作 </span></span></li>
<li><span>        TF_CHECK_OK(session->Run({{<span class="string">"x"</span><span>, x}, {</span><span class="string">"y"</span><span>, y}}, {}, {</span><span class="string">"train"</span><span>}, nullptr)); // Train </span></span></li>
<li class="alt"><span>        outputs.clear(); </span></li>
<li><span>    } </span></li>
<li class="alt"><span> </span></li>
<li><span>    //关闭Session及删除Session对象 </span></li>
<li class="alt"><span>    session-><span class="keyword">Close</span><span>(); </span></span></li>
<li><span>    <span class="keyword">delete</span><span> session; </span></span></li>
<li class="alt"><span>    <span class="keyword">return</span><span> 0; </span></span></li>
<li><span>} </span></li>
</ol>

当C++程序写好后，编译时候需要链接的头文件，开源已经帮我们整理好了，存放于目录/usr/lib/python2.7/site-packages/tensorflow/include下。编译和运行的时候需要链接libtensorflow_cc.so，可以按照下面的方式编译该库文件：bazel build -c opt //tensorflow:libtensorflow_cc.so –copt=-m64 –linkopt=-m64 –spawn_strategy=standalone –genrule_strategy=standalone –verbose_failures。具体可参考TensorFlow源代码的官方编译文档。

总结

本文首先回顾了TensorFlow 1.0主要新特性及TensorFlow 2017 Dev Summit的主要议程。到目前为止TensorFlow的GitHub Star排名为51000+， Fork排名已达24000+，有15000+ commits。并随着TensorFlow新版本的不断发布以及新特性的不断增加，TensorFlow使用更加灵活，运行速度更快，使用方式更产品化，已成为目前主流的深度学习平台之一。

接着介绍了TensorFlow的系统架构，包括Client，Master，Worker，Kernel的相关概念及运行方式，是一种适合大规模分布式训练的机器学习平台。从上述系统架构中可以看到，TensorFlow内核采用C/C++开发，当采用Python API去训练模型的时候，需要不断地用Python调用C/C++底层接口，重复的接口调用一定程度上影响了程序的执行性能。如果有最求高性能运算的朋友，可以尝试用下本文高性能运算章节推荐的方法。

参考文献

http://www.tensorflow.org
深度学习利器：分布式TensorFlow及实例分析
深度学习利器：TensorFlow使用实战

机器学习 tensorflow 深度学习 api

安科网

深度学习利器：TensorFlow系统架构及高性能程序设计

贝师东去

贝师东去

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

自动驾驶汽车深度学习如何应对挑战?

不要上手就学深度学习！超详细的人工智能专家路线图，GitHub数天获2.1k星

DJL 如何正确打开 [ 深度学习 ]

揭开AI、机器学习和深度学习的神秘面纱

用 Java 训练深度学习模型，原来可以这么简单！

面向深度学习的五大神经网络模型及其应用

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

贝师东去