没时间搜集?我们为您总结了2018年的AI顶级研究论文!

点击上方关注,All in AI中国

AI研究论文

考虑到行业的快速发展,试图跟上人工智能研究论文的步伐可能给人的感觉会是觉得这样做是徒劳的练习。如果你仍然埋在那些还没来得及阅读的文件中,那么不得不说你很幸运了。

没时间搜集?我们为您总结了2018年的AI顶级研究论文!

为了帮助您赶上时代的潮流,我们把2018年10篇重要的AI研究论文总结了一下,让您对今年的机器学习进展有一个大致的广泛概述。还有更多的突破性论文值得一读,但我们认为这是一个很好的开始。

我们推荐的论文如下:

1.Universal Language Model Fine-tuning for Text Classification

由Jeremy Howard和Sebastian Ruder撰写的通用语言模型文本分类微调(2018)

https://arxiv.org/abs/1801.06146

原始摘要

归纳式迁移学习极大地影响了计算机视觉,但NLP中的现有方法仍需要从头开始进行,并针对NLP任务进行特定的修改和训练。我们提出了通用语言模型微调(ULMFiT),这是一种有效的迁移学习方法,可应用于NLP中的任何任务,并介绍了微调语言模型的关键技术。我们的方法明显优于六个文本分类任务的最新技术,将大多数数据集的误差降低了18-24%。此外,仅使用100个标记示例,它可以从头开始匹配100x以上数据的训练性能。我们开源了预训练模型和代码。

个人总结

Howard和Ruder建议使用预先训练的模型来解决各种NLP问题。使用这种方法,您无需从头开始训练模型,只需对原始模型进行微调。他们称为通用语言模型微调(ULMFiT)的方法优于最先进的结果,将误差降低了18-24%。更重要的是,只要100个标记示例,ULMFiT 就能达到在 10K 个标注样本上训练的模型的效果。

本文的核心思想是什么?

为了解决缺乏标记数据,并使NLP分类更容易且耗时更少,研究人员建议将迁移学习应用于NLP问题。因此,您可以使用另一个经过训练的模型来解决类似问题作为基础,然后微调原始模型以解决您的特定问题,而不是从头开始训练模型。

但是,为了取得成功,这种微调应考虑到以下几个重要因素:

  • 不同的层应该在不同的范围内进行微调,因为它们捕获不同类型的信息。
  • 如果学习速率首先线性增加然后线性衰减,则将模型的参数调整为任务特定的特征将更有效。
  • 一次微调所有层可能会导致灾难性的遗忘;因此,从最后一层开始逐渐解冻模型会更好。

什么是关键成就?

  • 显著优于最先进的技术:将误差降低18-24%。
  • 所需的标记数据要少得多:只有100个标记的示例和50K未标记的数据,ULMFiT与从头开始学习100x以上数据的性能相匹配。

AI社区的想法是什么?

  • 预先训练的ImageNet模型的可用性已经改变了计算机视觉领域。 ULMFiT对于NLP问题可能具有相同的重要性。
  • 此方法可以应用于任何语言的任何NLP任务。这些报告来自世界各地,涉及多种语言的最新进展,包括德语、波兰语、印地语、印度尼西亚语、中文和马来语。

未来的研究领域是什么?

  • 改进语言模型预训练和微调。
  • 将这种新方法应用于新的任务和模型(例如,序列标记、自然语言生成、蕴涵或问答)。

潜在商业应用?

ULMFiT可以更有效地解决各种NLP问题,包括:

  • 识别垃圾邮件、机器人、攻击性评论;
  • 按特定功能对文章进行分组;
  • 对正面和负面评论进行分类;
  • 查找相关文件等

这种方法也可以帮助序列标记和自然语言生成。

2.OBFUSCATED GRADIENTS GIVE A FALSE SENSE OF SECURITY: CIRCUMVENTING DEFENSES TO ADVERSARIAL EXAMPLES

混淆渐变给出了一种虚假的安全感:通过Anish Athalye,Nicholas Carlini,David Wagner(2018)来规避对抗性例子的防御

https://arxiv.org/abs/1802.00420

原始摘要

我们识别出混淆渐变,一种渐变掩蔽,是一种在防御对抗样本时导致虚假的安全感的现象。虽然导致混淆渐变的防御似乎会破坏基于迭代优化的攻击,但我们发现可以规避依赖此效果的防御措施。我们描述了展示效果的防御的特征行为,并且对于我们发现的三种类型的混淆梯度中的每一种,我们都开发了对应的攻击技术来克服它。在一个案例研究中,在ICLR 2018上检查未经认证的白盒安全防御,我们发现混淆的梯度是常见的,9个防御中的7个依赖于混淆的梯度。在每篇论文所考虑的原始威胁模型中,我们的新攻击成功完全绕过了6个防御,部分避开1种防御。

我们的总结

研究人员发现,针对对抗性示例的防御通常使用混淆的渐变,这会产生虚假的安全感,因为它们很容易被绕过。该研究描述了三种对抗混淆梯度的方式,并说明哪种技术可以规避防御。这些发现可以帮助那些依靠混淆渐变来使用防御的组织来强化他们当前的防御体系。

没时间搜集?我们为您总结了2018年的AI顶级研究论文!

本文的核心思想是什么?

对抗混淆梯度有三种常见方式:

  • 破坏的梯度是不存在的或由防御引起的不正确的梯度(无论是通过不可微分的操作)还是无意的(通过数值不稳定);
  • 随机梯度是由随机防御引起的;
  • 消失/爆炸梯度是由极深的神经网络评估引起的。

有许多线索表明梯度有问题,包括:

  • 一步攻击比迭代攻击表现更好;
  • 黑盒攻击比白盒攻击效果更好;
  • 无限制的攻击没有达到100%的成功;
  • 随机抽样发现对抗性的例子;
  • 增加失真限制不会导致成功增加。

什么是关键成就?

证明这些天使用的大多数防御技术都容易受到攻击,即:

  • ICLR 2018接受的9种防御技术中有7种会导致混淆梯度;
  • 研究人员开发的新攻击技术能够成功完全规避 6 种防御方法,部分规避 1 种防御方法。

AI社区的想法是什么?

  • 该论文获得了ICML 2018年度最佳论文奖,这是重要的机器学习会议之一。
  • 本文强调了当前技术的优势和劣势。

未来的研究领域是什么?

通过仔细和彻底的评估来构建防御,这样他们不仅可以防御现有攻击,还可以防御未来可能发生的攻击。

潜在的商业应用?

通过使用研究论文中提供的指导,组织可以确定他们的防御是否依赖于混淆梯度并转向更鲁棒的防御方法。

3.Deep contextualized word representations

Gardner,Christopher Clark,Kenton Lee,Luke Zettlemoyer(2018)的深层语境化表达。

https://arxiv.org/abs/1802.05365

原始摘要

我们引入了一种新的深层语境化词表示,它模拟了(1)词使用的复杂特征(例如,语法和语义),以及(2)这些用途如何在语言上下文中变化(即,模型多义词)。我们的单词向量是深度双向语言模型(biLM)的内部状态的学习函数,它是在大型文本语料库上预先训练的。我们表明,这些表示可以很容易地添加到现有模型中,并显著改善六个具有挑战性的NLP问题的技术发展水平,包括问答、文本蕴涵和情感分析。我们还提供了一个分析,表明暴露预训练网络的深层内部是至关重要的,允许下游模型混合不同类型的半监督信号。

我们的总结

艾伦人工智能研究所的团队引入了一种新型的深层语境化词汇表示 - 从语言模型中得到的特征向量(ELMo)。在ELMO增强模型中,每个单词都是根据使用它的整个上下文进行矢量化的。将ELMo添加到现有NLP系统导致1)相对误差减少6-20%,2)训练模型所需的时间显著降低的和3)达到基线性能所需的训练数据量显著减少。

本文的核心思想是什么?

  • 生成单词嵌入作为深度双向语言模型(biLM)的内部状态的加权和,在大型文本语料库上进行预训练。
  • 包括来自biLM的所有层的表示,因为不同的层表示不同类型的信息。
  • 基于字符构建 ELMo 的词向量表示,以便网络可以使用形态线索来“理解”在训练中未出现的词条。

什么是关键成就?

  • 将ELMo添加到模型中可以获得新的最新结果,在诸如问答、文本蕴涵、语义角色标记、共指解析、命名实体提取和情感分析等NLP任务中相对误差降低6-20%。
  • 使用ELMo增强模型可以显著降低达到最新性能所需的更新次数。因此,具有ELMo的语义角色标签(SRL)模型仅需要10个时期以超过在486个训练时期之后达到的基线最大值。
  • 将ELMo引入模型还可以显著减少实现相同性能水平所需的训练数据量。例如,对于SRL任务,ELMo增强模型仅需要训练集的1%即可获得与具有10%训练数据的基线模型相同的性能。

AI社区的想法是什么?

  • 该论文被NAACL评为优秀论文,NAACL是世界上最具影响力的NLP会议之一。
  • 本文介绍的ELMo方法被认为是2018年最大的突破之一,也是NLP未来几年的主要产品。

未来的研究领域是什么?

  • 通过将ELMos与不依赖于上下文的单词嵌入连接起来,将此方法合并到特定任务中。
  • 尝试将ELMos与输出连接起来。

潜在商业应用?

ELMo显著提高了现有NLP系统的性能:

  • 聊天机器人的表现可以更好地理解人类和回答问题;
  • 对客户的正面和负面评论进行分类;
  • 查找相关信息和文件等

4. An Empirical Evaluation of Generic Convolutional and Recurrent Networks for Sequence Modeling (2018)

用于序列建模的通用卷积和递归网络的实证评估,Shaojie Bai,J。Zico Kolter,Vladlen Koltun(2018)

原始摘要

对于大多数深度学习从业者而言,序列建模与循环网络同义。然而,最近的结果表明,卷积架构在音频合成和机器翻译等任务上可以胜过递归网络。给定一个新的序列建模任务或数据集,应该使用哪种架构?我们对序列建模的通用卷积和循环架构进行了系统评估。这些模型通过广泛的标准任务进行评估,这些任务通常用于对经常性网络进行基准测试。我们的结果表明,简单的卷积体系结构优于规范的循环网络,例如跨越各种任务和数据集的LSTM,同时展示了更长的有效内存。我们得出结论,应重新考虑序列建模和循环网络之间的共同关联,并应将卷积网络视为序列建模任务的自然起点。为了协助相关工作,我们在http://github.com/locuslab/TCN上提供了相关代码。

我们的总结

本文的作者质疑了常见的假设,即循环网络结构应该是序列建模任务的默认起点。他们的研究结果表明,通用时间卷积网络(TCN)在广泛的序列建模任务中令人信服地胜过规范的循环网络结构,如长短时记忆网络(LSTM)和门控循环单位网络(GRU)。

本文的核心思想是什么?

使用最近引入的最佳实践(例如扩张卷积和残余连接)设计的时间卷积网络(TCN)在一系列全面的序列建模任务中明显优于通用的递归架构。

TCN表现出比递归架构更大的内存,因此更适合于需要长期历史记录的任务。

什么是关键成就?

  • 在序列建模任务上提供卷积和循环体系结构的广泛系统比较。
  • 设计卷积体系结构,可以作为序列建模任务的方便且强大的起点。

AI社区的想法是什么?

“在到达RNN之前,始终先从CNN开始。你会对你能走多远感到惊讶。“ - 特斯拉人工智能总监Andrej Karpathy。

未来的研究领域是什么?

需要进一步的架构和算法阐述,以提高TCN在不同序列建模任务中的性能。

潜在的商业应用?

引入TCN可以提高依赖于循环架构进行序列建模的AI系统的性能。其中包括以下任务:

  • 机器翻译;
  • 语音识别;
  • 音乐和语音生成。

5.Delayed Impact of Fair Machine Learning

合理机器学习的延迟影响,由Lydia T. Liu,Sarah Dean,Esther Rolf,Max Simchowitz,Moritz Hardt著(2018)

https://arxiv.org/abs/1803.04383

原始摘要

机器学习的公平性主要在静态分类设置中进行研究,而不关心决策如何随着时间的推移改变基础人口。传统观点认为,公平标准可以促进他们旨在保护的群体的长期福祉。

我们研究静态合理标准如何与幸福的时间指标相互作用,例如利益变量长期改善、停滞和衰退。我们证明,即使在一步反馈模型中,共同的公平标准通常也不会促进随着时间的推移而改善,并且实际上可能在无约束的目标不会导致损害的情况下造成伤害。我们完整的描述了三个标准规则的延迟影响,对比了这些标准表现出在质量上不同的行为。此外,我们发现,自然形式的测量误差扩大了公平标准有利地发挥作用的范围。

我们的结果强调了测量和时间建模在评估公平标准中的重要性,提出了一系列新的挑战和权衡取舍。

我们的总结

目标是在使用基于分数的机器学习算法来决定谁获得机会(例如,贷款、奖学金、工作)以及谁没有机会时,确保跨不同人口群体的公平待遇。伯克利人工智能研究实验室的研究人员表明,由于某些延迟的结果,使用共同的公平标准实际上可能会损害代表性不足或处于不利地位的群体。因此,他们鼓励在设计“公平”机器学习系统时考虑长期成果。

本文的核心思想是什么?

考虑到实施公平标准的延迟结果表明,这些标准可能对他们旨在保护的群体的长期福祉产生不利影响(例如,借款人的信用评分恶化,无法偿还贷款在无约束的环境中不会被授予)。

由于公平标准可能会主动伤害弱势群体,因此解决方案可以是使用涉及结果的明确最大化的决策规则或结果模型。

什么是关键成就?

提出诸如人口均等和机会均等之类的公平标准会导致弱势群体的任何可能结果,包括改善、停滞和衰退,同时遵循该机构的最优无约束选择政策(例如,利润最大化)将永远不会导致下降(弱势群体)。

通过FICO信用评分数据的实验支持理论预测,考虑硬公平约束的替代方案。

AI社区的想法是什么?

  • 该论文获得了ICML 2018年度最佳论文奖,这是重要的机器学习会议之一。
  • 该研究表明,积极的歧视有时会适得其反。

未来的研究领域是什么?

考虑超出人口平均变化的影响的其他特征(例如,方差、个体水平结果)。

研究结果优化对建模和测量误差的稳健性。

潜在的商业应用?

通过从公平标准强加的约束转向结果建模,公司可能会开发出更有利可图也更“公平”的贷款或招聘ML系统。

6.World Models

世界模型,David Ha和Jurgen Schmidhuber(2018年)

https://arxiv.org/abs/1803.10122

原始摘要

我们探索建立流行的强化学习环境的生成神经网络模型。我们的世界模型可以以无人监督的方式快速训练,以学习环境的压缩空间和时间表示。通过使用从世界模型中提取的特征作为代理的输入,我们可以训练一个非常紧凑和简单的策略,可以解决所需的任务。我们甚至可以完全根据其世界模型产生的幻觉梦想训练我们的代理人,并将此政策转回实际环境。

本文的交互式版本可在https://worldmodels.github.io上找到。

我们的总结

Ha和Schmidhuber开发了一种世界模型,可以以无人监督的方式快速训练,以学习环境的空间和时间表示。该代理成功地在赛车任务中驾驶赛道,可以躲避VizDom实验中怪物射击的火球。这些任务对以前的方法来说太具有挑战性。

本文的核心思想是什么?

该解决方案由三个不同的部分组成:

  • 变分自动编码器(VAE),负责捕获视觉信息。它将RGB输入图像压缩成遵循高斯分布的32维隐向量。因此,代理可以使用更小的环境表示,也因此可以更高效地学习。
  • 负责前瞻性思维的递归神经网络(RNN)。这是一个记忆组件,它根据前面的图片和之前的动作预测由可视化组件捕获的下一幅图片。
  • 负责选择操作的控制器。这是一个简单的神经网络,它连接VAE的输出和RNN的隐藏状态,并选择好的动作。

什么是关键成就?

  • 这是第一个解决流行的“赛车”强化学习环境的代理商。
  • 研究证明了在模拟的隐空间内训练代理执行任务的可能性。

AI社区的想法是什么?

这篇论文在人工智能界被广泛讨论,作为在他们自己的“幻觉”世界中使用神经网络进行强化学习和训练代理的一项很好的工作。

未来的研究领域是什么?

通过用更高容量的型号替换小型RNN或合并外部存储器模块,使代理能够探索更复杂的世界。

尝试更一般的方法,允许分层计划,而不是这里提出的“时间序列”方法。

潜在商业应用?

当运行计算密集型游戏引擎时,现在可以在其模拟环境中根据需要多次训练代理,而不是浪费大量计算资源来训练实际环境中的代理。

7.TASKONOMY: DISENTANGLING TASK TRANSFER LEARNING

任务:理解任务转移学习,由Amir R. Zamir,Alexander Sax,William Shen,Leonidas J. Guibas,Jitendra Malik和Silvio Savarese著(2018)

https://arxiv.org/abs/1804.08328

原始摘要

视觉任务之间是否有关系,或者它们是否无关?例如,表面法线可以简化估算图像的深度吗?直觉回答了这些问题,暗示了视觉任务中存在结构。了解这种结构具有显著的价值;它是传递学习的基本概念,并提供了一种原则性的方法来识别任务之间的冗余,例如,无缝地重用相关任务之间的监督或在一个系统中解决许多任务而不会增加复杂性。

我们提出了一种完全计算的方法来建模视觉任务的空间结构。这是通过在隐空间中的二十六个2D,2.5D,3D和语义任务的字典中查找(一阶和更高阶)传递学习依赖性来完成的。该产品是用于任务迁移学习的计算分类地图。我们研究了这种结构的后果,例如:非平凡的关系,并利用它们来减少对标签数据的需求。例如,我们表明,解决一组10个任务所需的标记数据点总数可以减少大约2/3(与独立训练相比),同时保持性能几乎相同。我们提供了一套用于计算和探测这种分类结构的工具,包括用户可以用来为其用例设计有效监督策略。

我们的总结

自从现代计算机科学的早期以来,许多研究人员认为在视觉任务中存在一种结构关系。现在Amir Zamir和他的团队试图找到这种结构。他们使用完全计算方法对其进行建模,并在不同的视觉任务(包括非平凡的任务)之间发现许多有用的关系。他们还表明,通过利用这些相互依赖性,可以实现相同的模型性能,标记数据要求大约减少⅔。

没时间搜集?我们为您总结了2018年的AI顶级研究论文!

本文的核心思想是什么?

了解不同视觉任务之间关系的模型需要较少的监督,使用较少的计算,并以更可预测的方式行事。

发现视觉任务之间关系的完全计算方法是优选的,因为它避免强加先前的,可能是不正确的假设:先验来源于人类的直觉或分析知识,而神经网络可能在不同的原则上运作。

什么是关键成就?

  • 识别26种常见视觉任务之间的关系,例如目标识别、深度估计、边缘检测和姿态估计。
  • 展示这种结构如何帮助发现对每个视觉任务最有效的转移学习类型。

AI社区的想法是什么?

该论文获得了2018年CVPR的最佳论文奖,这是计算机视觉和模式识别的重要会议。

结果非常重要,因为对于大多数实际任务,大规模标记数据集不可用。

未来的研究领域是什么?

摆脱完全由人类定义的视觉任务模型,并尝试将人类定义的视觉任务视为由计算发现的潜在子任务组成的观察样本的方法。

探索将结果转移到不完全视觉任务的可能性,例如机器人操纵。

潜在的商业应用?

本文中发现的关系可用于构建更有效的视觉系统,这些系统需要较少的标记数据和较低的计算成本。

8.KNOW WHAT YOU DON’T KNOW: UNANSWERABLE QUESTIONS FOR SQUAD

知道你不知道的事:无法回答问题数据集 由SQuAD,Pranav Rajpurkar,Robin Jia和Percy Liang著(2018)

https://arxiv.org/abs/1806.03822

原始摘要

提取阅读理解系统通常可以在上下文文档中找到问题的正确答案,但是它们也倾向于对在上下文中没有陈述正确答案的问题做出不可靠的猜测。现有数据集或者专注于可回答的问题,或者使用易于识别的自动生成的无法回答的问题。为了解决这些弱点,我们提供了SQuAD 2.0,这是斯坦福问答数据集(SQuAD)的最新版本。 SQuAD 2.0将现有的SQuAD数据与群众工作者反对写的50,000多个无法回答的问题结合起来,看起来类似于可回答的问题。为了在SQuAD 2.0上做得好,系统不仅需要尽可能回答问题,还要确定段落何时不支持答案并且不回答问题。对于现有模型,SQuAD 2.0是一项具有挑战性的自然语言理解任务:在SQUAD 1.1上获得86%F1的强大神经系统在SQuAD 2.0上仅获得66%的F1。

我们的总结

斯坦福大学的一个研究小组扩展了著名的斯坦福问答数据集(SQUAD),提出了超过50,000个难以回答的问题。这些问题的答案在辅助段落中找不到,但这些问题与可回答的问题非常相似。更重要的是,支持段落包含对这些问题的合理(但不正确)答案。这使得新的SQuAD 2.0对现有的最先进模型极具挑战性:在引入无法回答的问题之后,一个强大的神经系统在之前版本的SQuAD上达到86%的准确率只有66%。

本文的核心思想是什么?

当前的自然语言理解(NLU)系统远非真正的语言理解,其中一个根本原因是现有的Q&A数据集关注的是在上下文文档中保证正确答案存在的问题。

要真正具有挑战性,应该创建无法回答的问题,以便:

  • 它们与相关段落有关;
  • 该段包含一个似是而非的答案,其中包含与问题要求相同类型的信息,但是是不正确的。

什么是关键成就?

通过53,777个新的无法回答的问题扩展SQuAD,从而构建具有挑战性的大规模数据集,迫使NLU系统了解何时无法根据上下文回答问题。

通过显示现有模型(具有66%的准确性)更接近始终弃权(48.9%)而非人类准确性(89.5%)的基线,为NLU系统创建新挑战。

貌似合理的答案确实可以作为NLU系统的有效干扰源。

AI社区的想法是什么?

该论文被2018年计算语言学协会(ACL)公布为最佳短篇论文。

新的数据集增加了NLU领域的复杂性,实际上可以为这个研究领域产生了巨大的影响和作用力。

未来的研究领域是什么?

开发“了解他们不知道的东西”的新模型,从而更好地理解自然语言。

潜在的商业应用?

在这个新数据集上训练阅读理解模型应该可以改善他们在现实情况下的表现,而这些情景的答案往往无法直接获得。

9.LARGE SCALE GAN TRAINING FOR HIGH FIDELITY NATURAL IMAGE SYNTHESIS

高保真自然图像合成的大规模GAN训练,Andrew Brock,Jeff Donahue和Karen Simonyan(2018)

https://arxiv.org/abs/1809.11096

原始摘要

尽管最近在生成图像建模方面取得了进展,但是从像ImageNet这样的复杂数据集中成功生成高分辨率,多样化的样本仍然是一个难以实现的目标。为此,我们以最大规模训练了生成性对抗网络,并研究了这种规模所特有的不稳定性。我们发现将正交正则化应用于生成器使得它适合于简单的“截断技巧”,允许通过截断潜在空间来精确控制样本保真度和多样性之间的权衡。我们的修改导致模型在类条件图像合成中达到了新的技术水平。当我们在ImageNet上以128×128分辨率进行训练时,我们的模型(BigGAN)的初始得分(IS)为166.3,Frechet初始距离(FID)为9.6,比之前的最优IS为52.52,FID为18.65有了显著的提升。

我们的总结

DeepMind团队发现,当前的技术足以从可用数据集(如ImageNet和JFT-300M)合成高分辨率,多样化的图像。特别地,它们表明,如果生成对抗网络(GAN)以非常大的规模进行训练,即使用两倍到四倍的参数和八倍于先前实验的批量大小,它们可以生成看起来非常逼真的图像。这些大规模GAN(即BigGAN)是类条件图像合成中最先进的新技术。

没时间搜集?我们为您总结了2018年的AI顶级研究论文!

本文的核心思想是什么?

随着批量大小和参数数量的增加,GAN的性能会更好。

将正交正则化应用于生成器使得模型响应于特定技术(“截断技巧”),其提供对样本保真度和变化之间的权衡的控制。

什么是关键成就?

证明GAN可以从缩放中获益。

构建模型,允许对样本种类和保真度之间的权衡进行明确,细粒度的控制。

发现大规模GAN的不稳定性并根据经验进行表征。

在ImageNet上以128×128分辨率训练的BigGAN实现:

  • 初始得分(IS)为166.3,之前的最佳IS为52.52;
  • Frechet初始距离(FID)为9.6,之前的最佳FID为18.65。

AI社区的想法是什么?

  • 该论文投稿至ICLR2019
  • 在Big Hub上发现BigGAN发生器之后,来自世界各地的AI研究人员用BigGANs来生成狗、手表、比基尼图像、蒙娜丽莎、海滨以及更多主题。

未来的研究领域是什么?

  • 迁移到更大的数据集以缓解GAN稳定性问题。
  • 探索减少GAN产生的奇怪样本数量的可能性。

潜在的商业应用?

取代广告和电子商务中昂贵的手工媒体创作。

10.BERT: PRE-TRAINING OF DEEP BIDIRECTIONAL TRANSFORMERS FOR LANGUAGE UNDERSTANDING

BERT:用于语言理解的深度双向变换器的预训练,由Jacob Devlin,Ming-Wei Chang,Kenton Lee和Kristina Toutanova著(2018)

原始摘要

我们引入了一种名为BERT的新语言表示模型,它代表转换器的双向编码器表示。与最近的语言表示模型不同,BERT旨在通过联合调节所有层中的左右上下文来预先训练深度双向表示。因此,预训练的BERT表示可以通过一个额外的输出层进行微调,以创建适用于广泛任务的最先进模型,例如问答和语言推断,而无需对特定任务的体系结构进行大量修改。

BERT在概念上简单且经验丰富。它获得了11项自然语言处理任务的最新成果,包括将GLUE基准推至80.4%(绝对改进率7.6%),MultiNLI准确度达到86.7(绝对改进率5.6%)和SQuAD v1.1问题回答测试F1到93.2(绝对改进1.5%),超过了人类表现2.0%。

我们的总结

谷歌 AI 团队提出了一个新的前沿自然语言处理模型 BERT。它的设计允许模型从每个单词的左侧和右侧考虑上下文。在概念上简单,BERT在11个NLP任务上获得了新的最先进的结果,包括问题回答,命名实体识别和与一般语言理解相关的其他任务。

本文的核心思想是什么?

通过随机屏蔽一定比例的输入令牌来训练深度双向模型,从而避免词语间接“看到自己”的周期。

还通过构建简单的二进制分类任务来预训练句子关系模型,以预测句子B是否紧跟在句子A之后,从而允许BERT更好地理解句子之间的关系。

训练一个非常大的模型(24个Transformer块,1024个隐藏,340M参数)和大量数据(33亿语料库)。

什么是关键成就?

推进11项NLP任务的最新技术,包括:

  • 获得80.4%的GLUE分数,这是之前最佳成绩绝对改善的7.6%;
  • 在SQuAD 1.1上达到93.2%的准确率,并且在人类表现上超过2%。
  • 提出预先训练的模型,它不需要任何实质的架构修改来应用于特定的NLP任务。

AI社区的想法是什么?

BERT模型标志着NLP的新时代。

简而言之,两个 无监督任务一起训练(“填空”和“句子 B 是不是紧接句子 A”)对于很多 NLP 任务都取得了很好的结果。

语言模型的预训练成为一种新标准。

未来的研究领域是什么?

  • 在更广泛的任务上测试方法。
  • 调查BERT可能捕获或不捕获的语言现象。

潜在的商业应用?

BERT可以帮助企业解决各种NLP问题,包括:

  • 聊天机器人提供更好的客户体验;
  • 客户评论分析;
  • 搜索相关信息等

相关推荐