AI一步到位，Databricks发布开源机器学习工作流程工具包

wuzhiwuweisun

2018-06-06

Databricks宣布其统一分析平台的新功能旨在帮助降低企业利用人工智能的障碍。本周，该公司在旧金山的Spark + AI峰会上推出了MLflow，ML的Databricks运行时和Databricks Delta。

据该公司介绍，这些新功能旨在简化分布式机器学习和机器学习工作流程，并在规模上增加数据可靠性和性能。

该公司解释说，数据对于机器学习至关重要，但由于开发过程缺乏重现结果，跟踪实验和管理模型的工具，因此在生产中使用机器学习可能很困难。 MLflow是一个用于简化机器学习工作流程的开源工具包，是为了回应这个问题而创建的。

Databricks表示,利用MLflow，企业将能够打包代码以进行可重现的运行，执行和比较数百个并行实验，利用任何硬件或软件平台，以及将模型部署到生产环境。MLflow还集成了Apache Spark，SciKit-Learn，TensorFlow和其他开源机器学习框架。

Databricks的联合创始人兼首席技术专家Matei Zaharia说，“在构建Web或移动应用程序时，企业知道如何做到这一点，因为我们已经构建了工具包，工作流和参考架构。但是没有机器学习的工具包，它迫使企业拼凑解决方案，并确保高度专业化的技能来实现人工智能。MLflow是以可重复的方式开发机器学习应用程序的统一工具包，同时灵活地在多个云环境中可靠地部署生产。”

ML的Databricks Runtime旨在消除深度学习所需的分布式计算的复杂性。该公司还引入了对AWS和微软Azure的GPU支持，以扩展深度学习。Databricks解释说，数据科学家将能够将数据集提供给模型，在一个统一的引擎上评估和部署AI模型。

最后，该公司旨在通过引入数据管理系统Databricks Delta来简化数据工程，以简化大规模数据管理。通过这个解决方案，Databricks表示，企业不会被迫在存储系统属性之间做出权衡或花费资源在系统间移动数据。现在，数百个应用程序能够以大规模和低成本可靠地上载，查询和更新数据。

Databricks的联合创始人兼首席执行官Ali Ghodsi表示，“为了从人工智能中获得价值，企业依赖于他们现有的数据以及在海量数据集上迭代进行机器学习的能力。今天的数据工程师和数据科学家们使用众多断开连接的工具来完成这一任务，包括机器学习框架的集合。企业和技术孤岛造成了摩擦并减缓了项目速度，成为AI项目高度迭代性的障碍。统一分析是增加数据工程师和数据科学家之间的协作，统一数据处理和AI技术的方法。”

机器学习开放源代码人工智能

安科网

AI一步到位，Databricks发布开源机器学习工作流程工具包

wuzhiwuweisun

wuzhiwuweisun

相关推荐

LinkedIn开源Dagli，发布Java机器学习函数库

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

机器学习新风暴：如何用ML模型预测房价？

关于机器学习算法的16个技巧

需要知识的后深度学习时代，如何高效自动构建知识图谱

24个提高知识和技能极限的机器学习项目

wuzhiwuweisun