Reddit热门话题：你是否也对NLP的现状感到失望？

乖兔子

2017-11-14

选自Reddit

机器之心编译

参与：李泽南、黄小天、刘晓坤

众所周知，自然语言处理（NLP）与计算机视觉（CV）是人工智能的两大热门领域。近年来，随着深度学习等技术的发展，计算机视觉领域发展很快，越来越多的应用开始落地。与之相比，NLP 领域目前的进展如何？昨天，有人在 Reddit 上发出了疑问：是否我们和 NLP 的突破之间还有很长一段距离？这个问题引发了人们的热烈讨论。

问题

Reddit热门话题：你是否也对NLP的现状感到失望？

我现在对于自然语言处理（NLP）领域的进展稍感失望。

在 2014 年-2015 年期间，NLP 上有许多有趣的发展方向：外部存储器（external memory）、推理、无监督/半监督学习、聊天机器人、问答系统、为图像生成文字描述……然而在今天，其中的很多似乎没有多少进展，而人们研究的热点纷纷转向了 GAN 和强化学习。

你觉得是这样吗？谈论 NLP 领域的突破是否为时尚早？

Reddit热门话题：你是否也对NLP的现状感到失望？

回答与讨论

Jean-Porte：当前最优结果正稳步增长。一些结果令人印象深刻，比如在 SNLI 上表现超越人类的最佳方法，尽管我不认为这是人类的真实水平。无监督学习在 NLP 中获得成功（如下所示为两篇介绍无监督机器学习的 ICLR 论文），虽然机器学习会议（ICLR）中的 NLP 论文相当少。很多高效方法也已在开发之中（比如 fasttext）。我认为 2014-2015 期间有很多新的有趣且艰难的问题已解决，并取得了相当好的结果。这一领域在这些问题方面越发成熟，相比以往突破性不大，但肯定有进步。

https://arxiv.org/pdf/1711.00043.pdf
https://arxiv.org/pdf/1710.11041.pdf

hapliniste：我认为真正好的 NLP 要远比我们想的更艰难，也许等到我们实现了通用人工智能（AGI）才会到来（正如语言来自现实世界，不了解这个世界肯定行不通）。

adammathias：你是对的，NLP 非常难。不仅仅是任务难（当然这样也要看我们选择的任务），分析和表征结果更难。很多图像任务中间层的输出的可视化可以获得任何研究委员会、工程经理甚至是纽约时报读者的肯定，就像认可一些计算机艺术一样。

但是作为两个句子的平均的一个句子呢？或者生成自向量空间的一个点？并且这假设训练数据是英文。结果就是一切难上加难。进入门槛越高，即刻的奖励越低。因此很多研究者改变了研究领域，渐渐变的妥协。

作为一个具体实例，向世界顶级研究与工程组织的非常有才华、善意且做事高效的同僚解释为什么Блацк Форест或者тхроугх是不可接受的输出并且是彻底的失败，是一场艰苦异常的战斗。因此，五年之后，这依然存在。并且这是一个很简单的问题，更像是一个数据通道 bug，实际上非常好解决。

hapliniste：没错，我也认为语言处理是一个大难题。假如可以制造一个「hyppocampus」控制网络中的信息路由选择，就能拥有一个开发强大 NLP 的坚实基础，但目前看来还远远无法实现。

我目前对于如何实现「AGI」和 NLP 的观点如下：

需要一种系统，其拥有两种基本结构：函数和表示（类型）。函数就是模型，表示是函数作用的对象（且只能使用一种表示），然后尽可能分解函数，并在其它函数中复用；
需要一种系统，以找到函数的能给出基于输入的正确的输出的路由。它需要在初始表示（比如一张图像）之间找到最好或最短的路由并发送到所要求的表示上（比如文本描述）。所用的表示或类型必须强制网络只使用合理的路径；
可以使用由「hyppocampus」生成的路径，并将其转换为文本描述。这样就能实现一种强大的 NLP 了。

不过也请别太较真，这些都还是未被证明过的观点。

请注意我谈到了「AGI」，但似乎很多人都把 AGI 当做一种进化过程的结果，并且是有生命的。但用我的方法不太可能会实现这种 AGI。它可能更像一个 app 商城，其中人类设计的模型以一种监督方式解决任务（这就是为什么我会称它为「AGI」，而不是 AGI）。

adammathias：至于 2017 年第 4 季度，我们甚至没有尝试。任何真实任务，比如 Nice truck attack、Pope's Baby Steps on Gays、Loving PR 或者省略语言中的一半语句 (今天的实例)，没有额外语境的帮助无法完成。但是绝大多数基准不包含语境。即使我们有一些超级神经网络，并在训练和测试中输入这般的字符串，我们也无法期望该网络会工作。某种意义上在给定输入的情况下，今天的机器学习的性能已几近最优。

为了兑现承诺，Google Now 及其他类似应用确实使用了语境，并且 Manning 的斯坦福实验室已经关注首语重复法研究。制作语境数据集也面临挑战，它们必须足够大，但是迁移可能不太好。一旦有了这样的数据集，会涌现出更多有关自然语言的 AGI 研究。

automated_reckoning：这些是绝佳的实例！如此容易地在你心中转变意思非常有趣，这很好地证明了语境的重要性，以及自然语言是多么微妙。

adammathias：实例 The Pope's Baby Steps 来自 Chris Manning：The Future of AI – June 23, 2016 - https://vimeo.com/173057086。

关于神经图片标注：其实那个东西不是 NLP。

关于机器翻译：我们现在只看到谷歌、IBM 微软等公司展示的对话到对话 demo，而其中最引人关注的点是语音识别技术，这意味着它并不全是 NLP。现在湾区的公司有多少真正需要机器翻译的？NMT 真正的用户群是那些不会说英语，但却在工作和生活上需要用到英语的人群。

mljoe：我认为除了计算机视觉中存在的典型堆栈和池化方法以外，我们还需要其他一些东西。上述方法可以抓取物理世界结构的本质（引自 Henry W. Lin 等人的论文《Why does deep and cheap learning work so well?》）。但我认为在自然语言中它们不起作用。我认为 Geoffrey Hinton 的 Capsule 理念或许可以为 NLP 带来新的希望。

Syphon8：让我进一步来说说自然语言处理的本质吧，它和你如何看待一个人有关，这其实和通用人工智能是同一个问题。

或许这只是 Sapir–Whorf 假说的一次复现，但我认为它的可能性很大（Sapir–Whorf 假说：一个关于人类语言的假说，由语言学家兼人类学家 Edward Sapir 及其学生 Benjamin Whorf 所提出，是一个心理学及语言学假说。它认为，人类的思考模式受到其使用语言的影响，因而面对同一事物时可能会有不同的看法）。

任何可以像人类一样处理自然语言的机器都可以拥有相应的观点，同时可以完成其语言中所描述的任务。

同样，任何真正的人工智能都需要有某种程度的处理语言的能力，这样才能与其他智能体进行交互。

torvoraptor：看看最近的论文吧，已经出现无监督神经机器翻译了，我根本不认为 NLP 领域停滞了（《Word Translation Without Parallel Data》：https://arxiv.org/abs/1710.04087）

eMPiko：我不觉得这令人失望，更愿意当作一种警醒。总会有一些人一旦有什么有趣的新发现，就大肆宣扬在什么 20 年内获得通用人工智能。深度 NLP 已经取得很大进步，它使用的是相当通用的和可复用的架构，可以在每一种虚拟的 NLP 任务中达到当前最佳结果。我们在短短几年内就（在某些案例中）超越了过去几十年的研究成果。例如，所有在 2015 年之前使用统计机器翻译的研究进展现在实际上都变得无关紧要了，因为我们已经开始使用数据驱动的编码器—解码器（encoder-decoder）。

Phylliida：我很喜欢那篇论文。可惜的是据我所知，和常规的机器翻译不一样，它不能转移到聊天机器人上。

evc123：NLP 将继续保持颓势，直到情境语言学习（Situated Language Learning）得到应用：https://arxiv.org/abs/1610.03585。

disappointedwithnlp：我并不认为这是当前困境的解决办法。

由于不可能学到比智能体知道的更多的东西，任何从其它智能体学习的智能体都有所局限。任何学习人类的智能体在学习其它东西的时候都必须非常高效地使用样本（sample efficient）。因此，我们首先需要更好的无监督学习获得高效使用样本的能力。

你对 NLP 目前的发展有何看法？欢迎留言进行讨论。

乖兔子

0 关注 0 粉丝 0 动态

相关推荐

使用NLP创建摘要

你有没有读过很多的报告，而你只想对每个报告做一个快速的总结摘要?你是否曾经遇到过这样的情况?摘要已成为21世纪解决数据问题的一种非常有帮助的方法。在本篇文章中，我将向你展示如何使用Python中的自然语言处理创建个人文本摘要生成器。基本上，在保持关键信息的

csdnfelix 2020-11-12

为什么企业应该了解聊天机器人中的自然语言处理？

自然语言处理使聊天机器人能够理解我们的会话信息并相应地作出响应。企业应该对聊天机器人中的自然语言处理有所了解，因为它可以确定用户意图，评估其情绪并了解其行为。聊天机器人已经成为企业在当今竞争激烈的市场中获得认可的当务之急。利用聊天机器人提供的前所未有的客户

saluzirobot 2020-11-05

本周六锁定成都！解析百度文心（ERNIE）如何助力快速定制企业级NLP模型

继去年巡回公开课后，百度AI快车道将再次锁定天府之国成都！小伙伴们，这周六莫吃火锅喽，一哈去快车道嘛！本周六，百度NLP资深研发工程师将为成都地区的开发者们带来满满的NLP技术干货分享。从文心技术解析到EasyDL实战演练，为你解析如何定制企业高精度NLP

yyhhlancelot 2020-11-04

在预训练NLP模型上测量性别相关性

在过去的几年中，自然语言处理取得了长足的进步，诸如BERT，ALBERT，ELECTRA和XLNet等预训练语言模型在各种任务中均取得较高的准确性。鉴于这样的预训练表示在不同NLP任务中得到广泛采用，作为从业者，我们需要了解预训练模型如何对信息编码以及学习

mxs 2020-10-26

NLP：不要重新造轮子

自然语言处理是一个令人生畏的领域名称。从非结构化文本中生成有用的结论是很困难的，而且有无数的技术和算法，每一种都有自己的用例和复杂性。作为一个接触NLP最少的开发人员，很难知道要使用哪些方法以及如何实现它们。本文的目标读者是希望将自然语言处理快速集成到他们

熊Ok 2020-10-26

NLP/CV模型跨界，视觉Transformer赶超CNN?

在计算机视觉领域中，卷积神经网络一直占据主流地位。不过，不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究，有的还实现了相当不错的结果。近日，一篇匿名的 ICLR 2021 投稿论文将标准 Transformer 直接应用于图像，提出

cswingman 2020-10-05

人工智能的研究热点:自然语言处理

人工智能作为新一轮科技革命和产业变革的重要驱动力量，正在深刻地影响世界、改变世界。而自然语言处理已成为AI领域的研究热点，它推动着语言智能的持续发展和突破，并越来越多地应用于各个行业。正如国际知名学者周海中先生曾经所言：“自然语言处理是极有吸引力的研究领域

hxq 2020-09-23

性能媲美BERT，参数量仅为1/300，谷歌最新的NLP模型

在最新的博客文章中，谷歌公布了一个新的 NLP 模型，在文本分类任务上可以达到 BERT 级别的性能，但参数量仅为 BERT 的 1/300。在过去的十年中，深度神经网络从根本上变革了自然语言处理领域的发展，但移动端有限的内存和处理能力对模型提出了更高的要

熊Ok 2020-09-22

自然语言处理必读：5本平衡理论与实践的书籍

当谈到学习方法时，我们常常会提到教程、博客文章、在线课程等等，书本总是会被忽略掉。即使是在找一本关于某个主题的书，也会很快发现这样的书太多了，无法快速判断哪一本最适合自己。它也称为NLTK书籍，应用Python进行自然语言处理在整个过程中都很大程度上依赖于

MakeRoomFor 2020-08-30

谷歌开源NLP模型可视化工具LIT，模型训练不再「黑箱」

深度学习模型的训练就像是「黑箱操作」，知道输入是什么、输出是什么，但中间过程就像个黑匣子，这使得研究人员可能花费大量时间找出模型运行不正常的原因。假如有一款可视化的工具，能够帮助研究人员更好地理解模型行为，这应该是件非常棒的事。近日，Google 研究人员

yyhhlancelot 2020-08-26

百度语言与知识技术峰会召开王海峰揭秘NLP技术演进路径

AI正在向更深层次进化，语言与知识技术的重要性愈加凸显。在演讲中，王海峰表示，“在百度语言与知识技术的布局和发展中，我们始终在注意把握两个趋势，即技术发展趋势和产业发展趋势，并力争引领趋势。”

龙心尘 2020-08-25

无需「域外」文本，微软：NLP就应该针对性预训练

在生物医学这样的专业领域训练NLP模型，除了特定数据集，「域外」文本也被认为是有用的。但最近，微软的研究人员「大呼」：我不这么觉得！这是一个拷问人工智能「门外汉」的灵魂问题。但研究人员将这部分归因于数据中的噪声。

mxs 2020-08-10

NLP小白入门篇：莫愁前路，一文读懂语料预处理

自然语言处理是 AI 皇冠上的明珠，而语料预处理是自然语言处理的基础。如今，NLP 技术可以充当人类和机器之间沟通的桥梁。环顾周围的生活，我们随时可以享受到 NLP 技术带来的便利，语音识别、机器翻译、问答系统等等。现在你可以跟随本文，初探 NLP 技术的

天才幻想家 2020-08-03

EasyDL全新升级，文心（ERNIE）3项能力助力快速定制企业级NLP模型

近日，百度文心重磅发布三项功能，新增定制多标签文本分类、情感倾向分析模型等功能，同时数据管理能力也进一步增强，更好地满足自然语言处理领域开发者需求，开发者可通过百度AI开发平台EasyDL进行使用。在2020世界人工智能大会，百度文心荣获最高奖项SAIL奖

PaddlePaddle 2020-07-30

这款NLP神器火了！关键词提取、结果可视化，从小白进阶大神

如何快速优雅地处理你的NLP数据集？试试这款号称「从小白到大神」的Texthero的工具包。不仅编写界面友好美观，而且功能全面，预处理、表征、可视化样样精通，在Reddit上17个小时内就获得了近1.1k的热度。事实上，Texthero的优雅绝不仅仅在于界

yyhhlancelot 2020-07-06

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 2020-06-30

NLP中的标识化

从零开始掌握一门新的语言令人望而生畏。如果你曾经学过一种不是你母语的语言，你就会理解！有太多的层次需要考虑，例如语法需要考虑。这是一个相当大的挑战。这就是自然语言处理中标识化的概念。简单地说，标识化对于处理文本数据十分重要。标识化是一种将文本分割成称为标识

NgCafai 2020-06-28

基于OpenSeq2Seq的NLP与语音识别混合精度训练

Mixed Precision Training for NLP and Speech Recognition with OpenSeq2Seq. 迄今为止，神经网络的成功建立在更大的数据集、更好的理论模型和缩短的训练时间上。为此，我们创建了OpenSeq

bensonrachel 2020-06-21

腾讯AI又创新纪录：ACL 2020入选27篇论文

近日，国际计算语言学协会年会在官网公布了ACL 2020的论文收录名单，共计收录779篇论文。据不完全统计，此次腾讯共有27篇论文入选，投中论文总数刷新国内记录，领跑国内业界AI研究第一梯队。此次ACL 2020的审稿周期相比以往几乎增加了一倍的时间，据最

dynalidan 2020-05-22

一口气发布1008种机器翻译模型，GitHub最火NLP项目大更新：涵盖140种语言组合

现在，你可以用 GitHub 上最火的 NLP 项目做机器翻译了。没错，就是 Hugging Face （抱抱脸）标星26.9k的 Transformer 项目。在最新更新的版本里，抱抱脸发布了 1008 种模型，正式涉足机器翻译领域。模型涵盖 140 种

BigDataDigest 2020-05-19

乖兔子

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号