谷歌云的机器学习TPU Pod要商用了，测试版发布，媲美超级计算机

mori

2019-05-08

今天，谷歌宣布用于机器学习的可扩展超级计算机Cloud TPU Pod现已公开发售，谷歌云TPU v2 Pod和TPU v3 Pod首次公开发布测试版。

谷歌表示，为了加速当今部署的最大规模的机器学习应用程序，并实现未来器学习应用的快速开发，Google创建了称为Tensor Processing Units（TPU）的定制硅芯片。当组装成称为Cloud TPU Pods的多机架器学习超级计算机时，这些TPU可以在几分钟或几小时内完成器学习工作负载，而这些工作在以前需要数天或数周才能在其他系统上完成。今天，谷歌云TPU v2 Pod和TPU v3 Pod首次公开发布测试版，以帮助器学习研究人员，工程师和数据科学家更快地迭代并培养更有能力的机器学习模型。

据悉，谷歌云致力于提供全方位的机器学习加速器，包括云GPU和云TPU。云TPU提供极具竞争力的性能和成本，通常可以更快地培训尖端深度学习模型，同时节省大量成本。谷歌表示，如果你的机器学习团队正在构建大型数据集的复杂模型和培训，建议他们需要时评估Cloud TPU。它提供以下商用价值：

更短的见解时间——在训练大型ML模型时速度更快
更高的准确性——使用更大的数据集（数百万个标记的示例；TB或数PB的数据）来获得更准确的模型
频繁的模型更新——随着新数据的进入，每天或每周对模型进行更新
快速原型设计——使用我们在图像分割，对象检测，语言处理和其他主要应用领域中优化的开源参考模型快速启动

虽然一些定制硅芯片只能执行单一功能，但TPU是完全可编程的，这意味着Cloud TPU Pod可以加速各种最先进的ML工作负载，包括许多最流行的深度学习模型。例如，Cloud TPU v3 Pod可以在短短两分钟内在ImageNet数据集上从头开始训练ResNet-50（图像分类），或在短短76分钟内训练BERT（NLP）。

Cloud TPU客户看到了可视化产品搜索，财务建模，能源生产和其他领域的工作量大幅提升。在最近的一项案例研究中，Recursion Pharmaceuticals迭代测试合成分子的活力来治疗罕见疾病。在Cloud TPU Pod上仅用了15分钟就完成了在他们的本地集群上训练需要24小时的时间。

据悉单个Cloud TPU Pod可以包含1000多个单独的TPU芯片，这些芯片通过超快速的二维环形网状网络连接，如下图所示。TPU软件堆栈使用这个网状网络，通过各种灵活的高级API，可以将许多机器机架编程为单个巨型ML超级计算机。

谷歌云的机器学习TPU Pod要商用了，测试版发布，媲美超级计算机

最新一代的Cloud TPU v3 Pod采用液体冷却，可实现最佳性能，每个都可提供超过100 petaFLOP的计算能力。谷歌指出，就每秒原始数学运算而言，Cloud TPU v3 Pod与全球前5大超级计算机相当（尽管它的数值精度较低）。

也可以使用称为“切片”的较小部分的Cloud TPU Pod。我们经常看到ML团队在各个Cloud TPU设备（通常可用）上开发他们的初始模型，然后通过数据并行扩展到逐渐变大的Cloud TPU Pod切片和模型并行性，以实现更高的训练速度和模型规模。

机器学习 tpu 谷歌 pod

安科网

谷歌云的机器学习TPU Pod要商用了，测试版发布，媲美超级计算机

mori

mori

相关推荐

全面解读谷歌云人工智能如何为机器学习提供帮助

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

研究员准备让智能设备用AI来判断你的声音来自哪里

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

mori