DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

wesay

2019-06-03

去年年中，DeepMind 介绍了其在游戏智能体方面的新进展，聚焦于雷神之锤 III 竞技场的夺旗模式。当时，DeepMind 设计的为 FTW 智能，达到了人类水平，能够与其它智能体或人类相互合作。今年，DeepMind 继续发力，提出基于 self-play 的新智能体，该智能体甚至能够超越人类水平。

没有什么游戏的操作原理比夺旗更简单的了（除了抓人或踢罐子游戏）。两队各自在己方的基地中设有标记物，然后争夺对方的标记物并将其安全送回基地。这太简单了！

但是，对于人类很容易就能理解的东西，机器却不能快速掌握。在夺旗游戏中，电脑控制角色通常基于启发式和规则进行编程，在游戏中自由度不高。

不过，AI 和机器学习有望颠覆这种固定的角色设定模式。DeepMind 研究人员在发表于《Nature》的论文（Human-level performance in 3D multiplayer games with population-based reinforcement learning）中介绍了一种系统，这种系统不仅能够在《雷神之锤Ⅲ竞技场》中学习如何夺旗，而且制定了全新的团队游戏策略。

DeepMind 研究科学家 Max Jaderberg 表示：「没有人告诉 AI 如何玩这款游戏——只有在胜利或失败后才知道 AI 是否了解怎么玩游戏。利用 AI 玩游戏的魅力在于你永远不知道智能体会表现出哪些行为」。即，智能体主要依靠自学来打游戏。

他进一步解释道，游戏中起作用的关键技术是强化学习。在 DeepMind 智能体的案例中，它利用奖励机制驱动软件策略实现目标，不管智能体团队是否在游戏中获胜。

论文地址：https://science.sciencemag.org/content/364/6443/859

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

他说道：「从研究视角来看，真正令人兴奋的是算法的新颖之处。我们训练 AI 的特定方式就很好地展示了如何扩展和实施一些经典的演化观念。」

DeepMind 的 For The Win（FTW）智能体借助卷积神经网络直接根据屏幕上像素学习，该卷积神经网络是一组根据视觉皮层模型分层排列的数学函数（神经元）的集合。

输入的数据传递到两个循环的长短期记忆（LSTM）网络或者能够学习长期依赖性的网络。两个网络分别在快和慢时间尺度上运行，并通过一个变分目标进行耦合，这个变分目标是两个递归网络共同用来预测游戏行为并通过模拟游戏控制器输出动作记忆。

FTW 智能体与 30 个玩家进行训练，这为它们提供了足够多的游戏队友和敌人，同时游戏场地也随机选择，防止智能体形成记忆地图。每个智能体学习各自的奖励信号，使它们能够生成相应的内部目标（如夺旗）。此外，研究人员还利用双层流程来优化智能体的内部奖励机制以及施加于这些奖励的强化学习，从而获得取胜之道。

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

FTW 智能体架构示意图。该智能体在快速和慢速时间尺度上的 RNN 网络，包括共享的记忆模块，并学习从游戏点数到内部奖励的转换。

总之，每个智能体各自参与了 45 万场夺旗游戏，这相当于四年左右的游戏经验。

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

DeepMind AI 系统中的激活图示。图源：DeepMind。

DeepMind 研究科学家 Wojciech Marian Czarnecki 表示：「这是一个非常强大的学习范例，你实际上是在提升性能——从这项研究的成功来看，多智能体的方式实际上让我们的生活变得更轻松了。」Wojciech 曾参与 AlphaStar 的研究。

完全训练好的 FTW 智能体运行在商用 PC 硬件上，它采用了能够泛化至地图、队伍名册和团队规模上的策略。它们学会了人类玩家的行为，比如跟随队友、在敌方的基地扎营以及保护自己的基地免受攻击。随着训练的进行，它们舍弃了那些不太有利的行为（比如紧跟队友）。

所以，智能体最终会怎么样？在一场有 40 个人类玩家参与的比赛中，人类玩家和智能体在游戏中随机配对（既有作为队友的，也有作为敌人的），FTW 智能体比基线方法更熟练。实际上，它们的胜率远远超过了人类玩家。与「厉害」人类玩家的 1300 和普通玩家的 1050 相比，智能体的 Elo（获胜概率）为 1600。

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

训练期间智能体（新的 self-play 智能体和 FTW 智能体）的表现。

出人意料的是，智能体的反应时间非常快，这让它们在最初的实验中略占优势。但即使它们的准确率和反应时间因为内置的 1/4 秒（257 毫秒）延迟而有所下降，它们的表现仍然超越了人类玩家。厉害人类玩家和中等水平玩家分别只在 21% 和 12% 的时间里赢过它。

DeepMind游戏AI登上Science:雷神之锤多智能体合作，超越人类玩家

另外，当研究人员在发表论文后将智能体放在《雷神之锤 III 竞技场》同类型游戏中时，智能体开始在测试比赛中挑战人类研究员的技能。当研究人员检查了智能体神经网络的激活模式（即负责定义给定输入数据的输出神经元功能）时，他们发现了代表房间的簇、旗帜状态、队友和敌人的可见性、智能体在或不在敌方基地/己方基地以及游戏中其它「有意义的方面」。

训练好的智能体甚至包含为特殊情况直接编码的神经元，例如当智能体的旗帜被夺走或者其队友夺旗时。「我觉得需要注意的一点是，这些想法、这些多智能体领域非常强大，论文证明了这一点。」Jaderberg 表示：「我觉得这就是我们过去几年里越来越了解的：如何构建强化学习的问题。强化学习在一些新的应用场景中真的很出色。」

DeepMind 科学家和伦敦大学学院计算机科学教授 Thore Graepel 表示，该研究突出了多智能体训练在推动人工智能发展方面的潜力。例如，它可能会为人机交互和（相互补充或协同工作）系统方面的研究提供信息。

「我们的结果显示，多智能体强化学习可以成功地拿下复杂的游戏，甚至让人类玩家觉得智能体比队友更优秀。结果还展示了对智能体训练行为、合作方式、如何表征环境的深入分析。」Thore 表示：「让这些结果看起来非比寻常的一方面是，这些智能体像人类玩家一样，以第一人称视角来感知环境。为了学习如何与队友进行战术配合，这些智能体必须依赖来自游戏结果的反馈——但是没有任何老师教它们怎么做。」

参考内容：https://deepmind.com/blog/capture-the-flag-science/

deepmind 游戏多雷神之锤人工智能

wesay

0 关注 0 粉丝 0 动态

相关推荐

DeepMind揭秘雷神之锤3背后AI真相：碾压人类只是个开始

虽然人类已经无望在电子竞技中打败AI多智能体，但DeepMind的研究仍在继续往前推进。最近他们公布了在强化学习方面的最新进展，并对未来进行了展望。AI智能体的能力还会继续提高吗？DeepMind的科学家也想知道。他们最近更新了博客，以雷神之锤为例，为我们

zourzh 2019-05-31

DeepMind,哈佛造出了 AI「小白鼠」:从觅食,击球窥探神经网络奥秘

在一篇 ICLR 2020 Spotlight 论文中，DeepMind 和哈佛大学的研究者构建了一个基于 AI 的虚拟小鼠，能够执行跑、跳、觅食、击球等多项复杂任务。他们还尝试用神经科学技术来理解这个「人造大脑」如何控制其行为。或许这一成果可以为我们提供

天行九歌 2020-04-29

DeepMind发布神经网络、强化学习库，网友：推动JAX发展

DeepMind今日发布了Haiku和RLax两个库，都是基于JAX。而此次发布的两个库，分别针对神经网络和强化学习，大幅简化了JAX的使用。Haiku是基于JAX的神经网络库，允许用户使用熟悉的面向对象程序设计模型，可完全访问 JAX 的纯函数变换。RL

XuFangfang0 2020-02-21

大脑也在用分布式强化学习？DeepMind新研究登上《Nature》

分布式强化学习是智能体在围棋、星际争霸等游戏中用到的技术，但 DeepMind 的一项研究表明，这种学习方式也为大脑中的奖励机制提供了一种新的解释，即大脑也应用了这种算法。这一发现验证了分布式强化学习的潜力，同时也使得 DeepMind 的研究人员越发坚信

专注坚持 2020-01-16

102页PPT，DeepMind强化学习最新进展，含图文、公式和代码

本文提供涵盖了强化学习RL基础概念、策略梯度、动态规划以及D4PG、R2D3等RL算法的资源。[ 导读 ]在DeepMing任职的Nando de Freitas在KHIPU 2019上做了关于强化学习的教程，102页ppt。在KHIPU 2019上，在D

trillionpower 2019-11-23

Alphabet 的 DeepMind 损失在 2018 年飙升至5.7亿美元

根据英国公司大楼登记处周三提交的文件显示，负责创建人类级人工智能的谷歌人工智能公司 DeepMind 在2018年度过了昂贵的一年。其 2018 年的税前亏损额从 2017 年的 3.41 亿美元和 2016 年的 1.54 亿美元增长至 5.7 亿美元。

芋头 2019-11-03

DeepMind 开源 Spriteworld，灵活，可配置的强化学习环境

Spriteworld是一个基于python的RL环境，由一个可以自由移动的简单形状的二维竞技场组成。该环境是为文章“COBRA：基于数据有效模型的RL通过无监督对象发现和好奇心驱动的探索”中介绍的COBRA代理开发的。环境的动机是为程序生成多对象场景提供

专注坚持 2019-11-03

DeepMind一次性开源3个新框架！深度强化学习应用落地即将迎来春天？

本文转自雷锋网，如需转载请至雷锋网官网申请授权。深度强化学习一直是近年来人工智能的一些重大突破的核心。然而，尽管 DRL 有了很大的进步，但由于缺乏工具和库，DRL 方法在主流解决方案中仍然难以应用。就在最近，DeepMind 发布了一系列新的开源技术，包

luchi00 2019-09-20

DeepMind向星际玩家们下了战书！你的对手可能是AI，而你毫不知情

欧洲的星际争霸玩家们即日将有机会和Deepmind AI打场比赛了！出战的AI是由DeepMind和暴雪联合培养的，经过了“特别的训练方式”，在星际争霸界 II 早有过赫赫战绩，连续在10场比赛中击败了人类职业选手。另外10场比赛，代表人类出战的是职业选手

引力空间万物互联 2019-07-11

这部关于 AI 的纪录片，还是值得一看的

纪录片《 AlphaGo 》，是由 Google 与 DeepMind 团队出品，纪录片导演 Greg Kohs 和团队精心制作完成。讲述了 DeepMind 团队带领 AlphaGo 与人类顶尖棋手展开对决的几场关键性比赛。这部纪录片在去年自各个影展上小

ZLXiong 2019-06-28

Reddit热议！DeepMind最新研究解决灾难性遗忘难题

当遇到序列任务时，神经网络会遭受灾难性遗忘。DeepMind研究人员通过在函数空间中引入贝叶斯推理，使用诱导点稀疏GP方法和优化排练数据点来克服这个问题。今天和大家分享这篇Reddit高赞论文。该方法被称为用于持续学习的函数正则化，通过在底层任务特定功能上

panrenlong 2019-06-23

超越BigGAN，DeepMind提出「史上最强非GAN生成器」VQ-VAE-2

能生成逼真图像的不只有 GAN。去年 9 月，BigGAN 横空出世，被誉为「史上最强 GAN 生成器」，其逼真程度众多研究者高呼「鹅妹子嘤」！相关论文也被 ICLR 2019 接收为 Oral 论文。今年 2 月，BigGAN 的一作又发布了更新版论文，

xmdxcsj 2019-06-05

结合符号主义和DL:DeepMind提出端到端神经网络架构PrediNet

DeepMind 最近的一项研究将符号人工智能和深度学习结合起来，提出了一种新型端到端神经网络架构 PrediNet。符号主义和连接主义是人工智能领域中的两大流派。连接主义，又称为仿生学派或生理学派，其主要原理为神经网络及神经网络间的连接机制与学习

hexianhao 2019-05-29

DeepMind论文：深度压缩感知，新框架提升GAN性能（附链接）

本文介绍一种将压缩感知和GAN联系起来的创新框架。[ 导读 ] DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。压缩感知是一种优雅的框架，用于从压缩信号中恢复稀疏

刀刀鱼 2019-06-01

DeepMind论文：深度压缩感知，新框架提升GAN性能

DeepMind提出一种全新的“深度压缩感知”框架，将压缩感知与深度学习相结合，显著提高了信号恢复的性能和速度，并提出一种改进GAN的新方法。例如，CS可以利用自然图像的结构，仅从少量的随机测量中恢复图像。CS具有灵活性和数据效率高的优点，但由于其稀疏性和

tryhl 2019-05-23

没有地图也能导航？DeepMind用街景来认路

在童年记忆中，你是如何沿着路线去朋友家、学校或者商店的？那时候没有地图，只是简单的记住街景和沿途转向。因此，导航是一种很重要的认知任务，人类或者动物不需要地图就能够在复杂的世界中进行远距离穿越。请注意，这项研究适用于一般导航而不是汽车驾驶，在这里，我们既没

hello小工 2018-04-08

DeepMind科学家：AI对战《星际争霸》胜算几何？

AI科技大本营1月29日消息，在《麻省理工科技评论》与深科技举办的新兴科技峰会上，谷歌DeepMind科学家Oriol Vinyals在会上发表了主题为《AI对战星际争霸胜算几何？》的演讲。在加入谷歌AI团队之后，Oriol Vinyals参与了机器翻译、

yuyin 2018-01-29

学术 | DeepMind最新研究：使用更简单的环境就能检测AI是否安全

随着人工智能系统在现实生活中变得通用和实用，确保系统的安全运行变得越来越重要。迄今为止，大部分技术人工智能安全研究都集中在，对不安全行为的性质和原因的理论学习上。这九个环境被称为gridworlds。每一个都由一个类似棋盘的二维网格组成。除了标准的激励函数

coverse 2017-11-29

城会玩！DeepMind新AI竟然自己学会跑酷了

DeepMind在通用人工智能的道路上越走越远。最近，他们通过电脑动画和生物力学，让人工智能自己学会了如何在动画环境中运动，包括步行、跑动、跳跃、攀爬。另外，为了抗衡Google在通用人工智能方面的影响力，微软研究院在其雷德蒙总部成立了全新的人工智能实验室

脑极体 2017-07-13

神经网络也能解数学题，DeepMind发布千万数学题海数据集

从中学数学到高数微积分，我们需要做大量数学题。知识点看懂了并不算懂，能解题才是王道。那么神经网络是不是也能理解数学题，并解出这些题目呢？因为从数据上来说，数学题也就是一个序列而已，神经网络说不定能将这个序列映射到正确的答案。为了促进这方面的研究，DeepM

yanaoyong 2019-04-04

wesay

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号