谷歌可预测哪些机器学习模型将产生最佳结果的人工智能

大枫叶HIT

2019-06-24

点击上方关注，All in AI中国

谷歌的工作人员已经设计出能够预测哪些机器学习模型将产生最佳结果的人工智能。在一篇新发表的论文(《Off-Policy Evaluation via Off-Policy Classification》)和一篇博客文章中，一组谷歌人工智能研究人员提出了他们所谓的"离线分类"，即OPC，它将以一个分类问题来评估人工智能驱动代理的性能。

该团队指出，他们的方法是强化学习的一种变体，利用奖励来推动软件策略朝着目标前进,与图像输入和任务规模(包括基于视觉的机器人抓取)协同工作。谷歌软件工程师Alex Irpan表示，完全脱离策略的强化学习是一种变体，其中agent完全从旧数据中学习，这很有吸引力，因为它支持模型迭代，而不需要物理机器人。使用完全脱离策略的RL，可以在以前代理收集的相同固定数据集上训练多个模型，然后选择最佳模型。

可以到达OPC，是非常具有挑战性的。正如Irpan和其他共同作者所指出的那样，非政策性强化学习支持人工智能模型训练，比如使用机器人，但不支持评估。此外，他们指出，在需要评估大量模型的方法中，基础真实度评估通常效率太低。

他们的解决方案是OPC，它通过假设手头上的任务在状态变化过程中几乎没有随机性，以及假设代理在实验试验结束时成功或失败，来解决这个问题。这两个假设中的第二个的性质允许为每个操作分配两个分类标签（"有效"用于成功或"灾难性"用于失败）。

谷歌可预测哪些机器学习模型将产生最佳结果的人工智能

上图:左边是基线。右边是一个被提议的方法，SoftOPC。

OPC还依赖于所谓的Q函数(通过q学习算法学习)来估计行动未来的总回报。代理选择具有最大预期回报的操作，并且它们的性能是通过所选择的操作有效的频率来度量的(这取决于Q-function如何正确地将操作划分为有效性和灾难性)。分类精度则作为非政策评价分数。

该团队在模拟中训练机器学习策略，使用完全偏离策略的强化学习，然后使用之前真实数据表中的偏离策略得分对其进行评估。在一个机器人抓取任务中，他们报告说OPC的一个变种的'SoftOPC'在预测最终成功率方面表现的最好。给定15个不同鲁棒性的模型(其中7个纯粹是在模拟中训练的)，SoftOPC生成的分数与真正的掌握成功密切相关，比基线方法"显著"更可靠。

在未来的工作中，研究人员打算探索具有"噪音更大"和非二进制动态的任务。Irpan表示，我们认为这些结果很有希望应用于许多可以实现的RL问题。

人工智能机器学习谷歌预测模型机器人

安科网

谷歌可预测哪些机器学习模型将产生最佳结果的人工智能

大枫叶HIT

大枫叶HIT

相关推荐

如何通过7个步骤构建机器学习模型

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

理解AI：为什么要在人工智能系统中寻求可解释性呢？

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

IT自动化和人工智能将在2021年走向何方?

强化学习到底是什么，它如何运作？

数字营销：AI如何“看透”人类行为模式？

谷歌正在测试一个人工智能系统，帮助视障人士参加跑步比赛

当教练、做监工…… 人机协同下的AI更懂你

Facebook借助人工智能对内容审核排序

人脸识别技术发展现状及未来发展趋势

零基础也能看懂的人工智能教程

关于人工智能的解读，看这一篇就够了

大枫叶HIT