测试很丰满！百度联合Kubernetes改进弹性深度学习

randongjing

2017-12-14

两个开源社区PaddlePaddle（深度学习框架源于百度）和Kubernetes（最著名的容器化应用程序调度器）在PaddlePaddle的新代码Fluid中宣布了弹性深度学习（EDL）功能。Fluid EDL包括一个Kubernetes控制器，PaddlePaddle自动缩放器，根据集群中的空闲硬件资源改变分布式作业的进程数量，以及PaddlePaddle设计文档中描述的新的容错架构。

工业深度学习需要大量的计算能力。研究实验室和公司经常构建由SLURM，MPI或SGE管理的GPU集群。这些集群要么运行一个提交的作业，如果它的需要比闲置的资源要少，或者将作业挂起一段难以预测的时间。这种方法有其缺点：在有99个可用节点和一个需要100个提交作业的例子中，作业必须等待而不使用任何可用节点。Fluid与Kubernetes一起工作，通过帮助尽可能早地揭示潜在的算法问题，为缺乏最佳资源的弹性深度学习工作提供动力。

另一个挑战是，工业用户倾向于将深度学习作业作为完整数据管道的子集，包括Web服务器和日志采集器。这种通用集群需要基于优先级的弹性调度。这使得在Web服务器作业中运行更多的进程成为可能，而在网络流量较高的时间段内深度学习则更少，然后在网络流量较低时优先进行深度学习。Fluid与Kubernetes的API服务器进行对话，以了解全局的情况，并协调与各种工作有关的进程的数量。

在这两种情况下，PaddlePaddle作业都可以承受过程峰值和降低。我们通过新设计来实现了这一点，除了之前的旧PaddlePaddle体系结构之外，还引入了一个主流程。在新的设计中，只要有三个流程留在工作中，就会继续下去。在所有进程都被停止的极端情况下，作业可以恢复。

如图是百度测试了Fluid EDL的两种用例：1）Kubernetes集群只运行PaddlePaddle作业；2）集群运行PaddlePaddle和Nginx作业。

测试很丰满！百度联合Kubernetes改进弹性深度学习

在第一个测试中，我们以10秒的间隔逐一开始了20个PaddlePad工作。每个作业有60个培训人员和10个参数服务器进程，并将持续数小时。我们重复实验20次：关闭Fluid EDL 10次，打开FluidEDL 10次。在图一中，实线对应于前10个实验，其余的是虚线。在图的上半部分，我们看到未处理作业的数量在没有EDL的情况下单调递增。但是，当EDL打开时，资源将平均分配给所有作业。Fluid EDL处理了一些现有的流程，为新的作业腾出空间，并在晚些时候进入作业。在这两种情况下，集群都被平等利用（见图的下半部分）。

测试很丰满！百度联合Kubernetes改进弹性深度学习

在第二个测试中，每个实验都运行了400个Nginx Pod，其优先级高于6个PaddlePaddle作业。最初，每个PaddlePaddle工作有15个培训人员和10个参数服务器。我们每90秒处理100个Nginx pods，直到剩下100个，然后我们开始将Nginx工作的数量每90秒增加100个。图2的上半部分显示了这个过程。图中的中间显示，Fluid EDL通过减少Nginx Pod来自动启动一些PaddlePaddle进程，并在稍后增加Nginx Pod来处理PaddlePaddle进程。结果，该集群维持在90％左右的利用率，如图所示。当Fluid EDL被关闭时，没有PaddlePaddle进程自动增加，并且利用率随着Nginx Pod的数量变化而波动。

kubernetes 深度学习 paddlepaddle 百度学习

安科网

测试很丰满！百度联合Kubernetes改进弹性深度学习

randongjing

randongjing

相关推荐

6张图带你学懂 Kubernetes Ingress

推荐4款超好用本地Kubernetes部署工具

值得推荐的13个 Jenkins 替代方案

2020年非常值得推荐的7种 Kubernetes 日志管理工具

两款超好用的Kubernetes实时日志查看工具

本地环境运行Kubernetes的4种开源工具

五款值得关注的Kubernetes日志监控工具

机器学习任务编排工具比较

使用Ansible的Kubernetes模块实现容器编排自动化

面试问到了K8S原理，花5分钟来总结下，以后再也不怕了

如何降低开发人员的生产力？

Windows环境下，如何在Docker里运行SAP UI5应用

解放开发者！3款工具实现快速K8S开发

什么是CaaS？简化容器管理

Linux基金会开源软件大学技术公开课丨K8s必备技能攻略

Kubernetes上对应用程序进行故障排除的6个技巧

避免云锁定有哪几招？

企业扩大容器和Kubernetes应用的5大现实问题

如何设置一个正经的Kubernetes终端

首次部署 Kubernetes 应用，总会忽略这些事

randongjing