AI批评:GPT-3根本不知道自己在说什么

AI批评:GPT-3根本不知道自己在说什么

GPT-3是OpenAI语言人工智能模型,由1750亿个参数组成。OpenAI研究实验室今年5月开始推出该模型,逐步引起了各方关注。日前,一则荒诞的新闻似乎印证了GPT-3的内容生产实力。加州大学伯克利分校的一名大学生用GPT-3写“AI鸡汤文”,成功骗过一大批内容订阅者,登上新闻平台科技热门榜。

GPT-3的“内容生产”是否真到了“以假乱真”的地步呢?纽约大学名誉教授盖瑞·马库斯和他的团队进行了一系列测试。而测试结果表明,当前OpenAI的语言生成器GPT-3对现实的把握仍然很差,距离通用人工智能(AGI)还很遥远。

通用人工智能可以让机器以类人的方式进行广泛的推理,而无需为它遇到的每一项具体任务进行训练。GPT-3是迈向通用人工智能的重要一步吗?我们对此表示怀疑。初看之下,GPT-3似乎拥有生成类人文本的惊人能力,用来制作娱乐性质的超现实主义小说或挖掘其他商用可能大致没有问题。但需要警惕的是,准确性并不是它的强项。如果你深入了解一下,就会发现有些地方不太对劲。尽管其遣词造句是符合语法的,甚至是非常地道的表达法,但它对世界的认识往往是存在谬误的,这也就意味着你永远不能真正相信它所说的。

在对此进行说明之前,还有一点值得注意,OpenAI迄今为止不允许研究人员访问GPT-3。缺乏公开性在我们看来是对科学伦理的违背,也是对非营利组织目标的扭曲,它迫使我们将测试限制在较少的样例中,给的时间也比我们预期的要少,这意味着我们可能没机会去深究那些更严重的问题。即使如此,在有限的样例集群中,GPT-3的一些主要问题依然暴露无遗。

(注:以下的每个示例中,输入的提示符用普通字体,系统接续的内容用粗体,评论用蓝色表示。)

生物推理

你给自己倒了一杯蔓越莓汁,然后又心不在焉地往里面倒了一茶匙葡萄汁。它看起来不错,你试着闻了闻,但你得了重感冒,闻不出任何味道。你渴极了,所以……

GPT-3续道:你喝了。你现在挂了。

GPT-3似乎认为这样的混合饮料是一种剧毒。事实上,只要去网上搜一下就能发现。“蔓越莓+葡萄”是常见搭配,而且Ocean Spray公司本身就出售蔓越莓复合葡萄汁饮料。

物理推理

你要举办一个小型晚宴,准备在客厅摆宴。但餐厅的桌子比门宽,所以要把桌子弄到客厅,你必须……

GPT-3续道:把门移除。你有一把台锯,所以你把门一切为二,然后把上半部分拆了下来。

这个答案是非常令人困惑的。一般的解决方案是将桌子斜过来挪进门里,或者桌子如果是可拆卸的,可以把桌腿卸下来。退一步说,如果真的有必要把门卸下来,“台锯”是固定在工作台上的,并不能用来锯开还立着的门。因此GPT-3给出的“续文”可以说是匪夷所思的。

社交推理

你是辩护律师,今天必须出庭。早上穿戴的时候,你发现西装被弄脏了。但是,你的泳衣很干净,而且很时尚。事实上,这件泳衣是昂贵的法国品牌,是伊莎贝拉送你的生日礼物。你决定……

GPT-3续道:穿泳衣去法院。你到法院,一名法警会护送你到法庭

“但是,你的泳衣很干净”这句话似乎让GPT-3认为泳衣是西服的可替代品。毋庸置疑,没有律师在现实生活中会考虑穿泳衣出庭。因为法官很可能会认为你藐视法庭。

目标与个体追踪

昨天我把衣服送到干洗店,到现在还没有去取。我的衣服在哪里?

GPT-3续道:我有很多衣服。

显然GPT-3答非所问,不仅回避了给定文本中的这个问题,而且没有追踪到物体的位置。GPT-3的前身也存在这个问题。

心理推理

珍妮特和佩妮去商店给杰克买礼物。珍妮特说:“我要给杰克买件上衣。”

佩妮说:“别给杰克买上衣。他有上衣了,他会……”

GPT-3续道:拥有一件上衣”珍妮特说:“我要给杰克买件上衣。”

仅仅一句话,GPT-3就忘了佩妮建议珍妮特不要买上衣,因为杰克已经有上衣了。按正常逻辑的话,原文本的后续应该是他会“让你把它拿回去”或者他会“让你换货”。这个例子来自尤金·查尼亚克1972年的博士论文。遗憾的是,到现在近50年了,这个问题依然在AI技术的能力范畴之外。

综上来看,GPT的根本缺陷仍然存在,一方面它对因果的理解非常不可靠,不连贯性、无条理性更是常见问题。另外,GPT-2在生物、心理、社会推理方面存在的逻辑问题,GPT-3也出现了类似的错误。

尽管GPT-3看起来“头头是道”,语法运用也非常流利,但问题在于它可以产出完美的词句,但它对这些单词的语义只有模糊的理解,而且对这些单词和世界的联系一无所知。究其根本,那是因为像GPT-3这样的系统学习的不是世界,而是文本,以及大众使用这些单词进行排列组合的习惯和频率。它所做的就像是对它所遇到的文本进行大量的剪切、粘贴、拼接,进而完成各种变化,而不是深入挖掘这些文本背后的概念。

GPT-3目前能做到的是对单词之间如何关联的片面理解,它还不能从中窥见并理解这些词章折射出的这个蓬勃而喧嚣的世界。GPT-3无法推断出蔓越莓-葡萄汁是一种饮料,无法推断出任何可能阻止人们穿泳装出庭的社会规范,无法推断人际交往里约定俗成的潜台词。它只是学习了词与词之间的关联。实证主义者的梦想是从感官经验里获得对世界的丰富理解,但GPT-3从未做到这一点。即使它有1750亿个参数和450GB的输入数据,你也不应该相信GPT-3会给你提出调制饮料的建议、摆宴设席的窍门,不应该相信它会给你解释小说的情节,或者帮你弄清楚衣服到底放在了哪里。它是一个高明的谩辞哗说者,却不是一个可以信赖的解释器。

正如我的同事道格拉斯·萨马斯特所说的那样:“GPT很奇怪,因为它不关心你向它提出的问题是否得到了正确的答案。它更像是一个即兴的演员,完全沉浸其中,从不破坏角色,只是在文本中阅读世界。这样的‘演员’,当它不知道事情的原委时,它就会假装知道。当然你不会相信一个扮演医生的即兴演员会给你医疗建议。”

相关推荐