seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

ACL 2018 Long Papers

Sequence-to-Sequence强化学习中Human Bandit反馈的可靠性和可学习性

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning

海德堡大学

Heidelberg University

本文是德国海德堡大学发表于 ACL 2018 的工作,文章以bandit神经机器翻译(NMT)的任务为例,提出了一种基于Human Bandit反馈的Sequence-to-Sequence(seq2seq)的强化学习(RL),研究了human bandit反馈的可靠性,分析了可靠性对reward估计量学习能力的影响,以及reward估计质量对整个RL任务的影响,证明了其可用性以及在更大规模应用中的潜力。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

引言

最近的研究成功地将强化学习(RL)扩展到大规模动作空间游戏中,达到人类水平甚至是超人的表现,受到了高度关注。RL在监督学习中可以绕过数据注释瓶颈,这使得人们重新关注RL在指数输出空间上的seq2seq学习问题。一种典型的方法是将强化与基于深度seq2seq学习的策略相结合,例如在机器翻译、语义解析或文本摘要中。这些RL方法的重点是通过模拟reward信号,通过评估指标如BLEU、F1-score或ROUGE,来提高自动评估的性能。尽管RL来自不同的应用领域,但在游戏和seq2seq学习中,RL首先共享一个明确规定的reward函数的存在,例如,通过赢或输游戏来定义,或者通过计算一个自动的序列级评价指标来定义。第二,两个RL应用程序都依赖于对动作空间的充分探索,例如,通过对相同游戏状态下的多个游戏移动进行评估,或者对相同输入进行不同的序列预测。

本文的目标是推进seq2seq的RL的发展,以神经机器翻译的bandit学习为例。我们的目的是证明从模拟bandit反馈中成功的学习,实际上可以从实际的human bandit反馈中学习。bandit NMT的承诺是,翻译质量的人工反馈比人工参考更容易获得,从而通过其数量补偿信号的较弱性质。然而,人为因素与上述所描绘的RL模拟场景存在一些差异。首先,人类的reward不是明确的功能,而是复杂和不一致的信号。例如,一般来说,每一个输入句都有许多正确的翻译,根据很多语境和个人因素,每一种翻译都可能有不同的判断。第二,在现实场景中,对可能的翻译空间的探索受到限制,在这种场景中,用户判断一个显示的翻译,但不能期望对另一个翻译进行评分,更不用说对大量的备选翻译进行评分。

本文证明了尽管人类反馈在本质上是模糊和片面的,但从人类强化学习成功的催化剂是反馈信号的可靠性。Bandit NMT在电子商务翻译场景中的首次部署推测,由于缺乏用户判断的可靠性,当从148K个用户那里学习时,结果令人失望,因为大约有70K个产品标题翻译获得了5星级评分。因此,我们提出了这样一个问题:如何以最可靠的方式收集人的反馈,以及可靠性在下游任务中将产生什么影响。为了回答这些问题,我们测量了Bandit NMT的两个反馈任务的注释内和注释间一致性,分别使用16个和14个人工评分者进行的800个翻译的基数反馈(5分制)和顺序反馈(成对偏好)。或许令人惊讶的是,虽然人们通常认为相对反馈更容易提供,但我们的调查表明,对于这两项任务,内部和内部评分机构协议的α-可靠性是相似的,标准化5点评分的内部评分机构可靠性最高。

在下一步中,我们将讨论人类reward的机器可学习性问题。我们使用深度学习模型,通过回归和序数反馈拟合Bradley-Terry模型来训练reward估计量。可学习性被理解为机器学习概念中可学习性的一种轻微误用,它的问题是,对reward的估计能在多大程度上近似于人类的reward。我们的实验表明,对于接受标准化基数reward训练的回归模型,与接受配对偏好训练的Bradley-Terry模型相比,reward估计与人类参考的等级相关性更高。这强调了人的反馈信号的可靠性对从中学习到的reward估计质量的影响。

最后,我们研究了整个NMT任务的机器可学习性,Green等人提出了一个问题,即在后期编辑时如何调整一个MT系统。我们使用RL方法进行调优,在调优中,我们的工作与之前的RL在人类reward的关键区别在于,我们的RL场景不是交互式的,而是在离线日志中收集reward。然后,RL可以通过使用记录的单次人工reward进行离线学习,也可以通过使用估计的reward进行学习。然后,RL可以通过直接使用记录的single-shot人类reward进行离线学习,或者使用估计的reward进行学习。估计reward的一个预期优势是,首先解决一个简单的问题——学习reward estimator而不是完整的RL任务来改进NMT——然后从离线RL的reward estimator中部署无限反馈。我们的结果表明,通过从估计的和记录的人类reward中训练NMT,可以实现显著的改进,并且将基于回归的reward estimator集成到RL中的效果最好。这就完成了高可靠性影响reward估计质量的论证,进而影响了整个NMT任务的质量。由于我们的训练数据的大小在机器翻译比例上很小,这一结果表明,从人的反馈来看,RL在更大规模的应用方面具有巨大的潜力。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

人工MT评分任务

我们用一个通用域和一个适应域的NMT模型来翻译TED语料库的一个子集,然后对翻译进行后处理(替换特殊字符,恢复大写),并过滤出域外和域内的完全相同的翻译。为了组成一个均匀的数据集,我们首先选择长度为20到40的翻译,然后根据字符n-gram F-score(chrF,β=3)和长度的差异对翻译对进行排序,挑选出chrf差异最大,长度差异最小的前400对翻译。这就产生了长度相似但质量不同的翻译对。

这些对被视为800个独立的翻译,进行5点评分。从最初的400个翻译对中,随机选择100对(或200个独立翻译)进行重复。这一共产生了1000个独立的翻译,其中600个发生一次,200个发生两次。翻译被分为五个部分,每部分200个翻译,其中120个来自未重复的库,80个来自重复的库,确保每个部分不会出现一次以上的翻译。对于成对的任务,从原来的400对翻译对中重复同样的100对。这总共产生了500对翻译对。翻译也被分为五个部分,每个部分有100个翻译对,其中60个来自未重复库的翻译对,40个来自重复库的翻译对。每一组都没有重复。

我们招募了14名参与者参与配对评分任务,16名参与者参与5点评分任务。参与者是具有流利或母语德语和英语能力的大学生。评分界面如下图所示。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

请注意,由于目标是为bandit学习模拟现实场景,因此没有提供参考翻译。

如下表所示,评分者间的可靠性指标在5点和成对任务之间存在细微差别。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

5点任务(α=0.2308)的评分者间可靠性与配对任务(α=0.2385)的评分者间可靠性大致相同。然而,每名参与者的评分标准化(通过标准化到z分),显示出5分任务(α=0.2820)的总体评分者间可靠性显著提高。这些分数表明,无论参与者是否被要求提供cardinal或顺序评分,人类评分之间的总体一致性大致相同。通过参与者级别的标准化提高了评分者的可靠性,这表明参与者可能确实对5点等级的某些区域存在个体偏见,标准化过程纠正了这种偏见。

在评分者内部的可靠性方面,配对任务(α=0.5085)的参与者与5点任务(α=0.4014)的参与者之间观察到更好的平均值。这表明,平均而言,人工评分者在比较两个翻译与单独对单个翻译进行评分时,会提供更为一致的评分。然而,在当前样本量下,5点和成对评分内部可靠性之间的Welch双样本t测试显示两个任务之间没有显著差异(t(26.92)=1.4362,p=0.1625)。因此,很难推断一项任务在获得更一致的响应方面是否明显优于另一项任务。

接下来的分析基于两个假设:第一,人工评分者的差异在于他们对翻译质量的判断不尽相同;第二,评分项目的差异在于某些翻译可能比其他翻译更难判断。这允许通过消融分析来研究评估者差异和项目差异对评估者之间的可靠性的影响,在消融分析中,低质量的判断和困难的翻译被过滤掉。

下图显示了一个过滤过程,在分析过程中,α分数低于移动阈值的人被从分析中删除。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

当可靠性阈值从0增加到1时,测量整个评分者之间的可靠性。

下图显示了使用翻译分数中的方差实现的类似过滤过程。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

项目差异按从0到1的比例进行规格化,从1减去以生成项目差异阈值。

完成评分任务后,我们要求参与者主观判断难度,从1分(非常困难)到10分(非常容易)。他们还必须说明他们觉得困难的任务的哪些方面:对5分的评分来说,最大的挑战似乎是对不同错误类型的权衡,以及对很少但有必要错误的长句子的评分。

比较不同评分者之间的高一致性和低一致性,可以得出关于客观难度的结论。我们假设高评分者间一致性表示容易判断,而低一致性表示难以判断。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

从MT评分中学习reward estimator

与用于标准NMT培训的数以百万计的句子相比,在合理的时间内直接从人类评分员处获得的评分数量非常少。通过学习一个关于人类评分集合的reward estimator,我们试图归纳出一些不可见的翻译。

从cardinal反馈中学习。reward估计模型的输入是源x及其翻译y。给定这些输入的cardinal判断,对参数ψ的回归模型进行训练,使一组n个预测rewardr^和判断r的均方误差(MSE)最小化:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

从配对偏好反馈中学习。当给出成对偏好而不是cardinal判断时,Bradley-Terry 模型允许我们训练r的估计量。

根据Christiano等人,令

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

为reward estimator对任意翻译y1优先于任何其他翻译y2的概率:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

是黄金标准下,翻译y1比翻译y2更受欢迎的概率。例如,人工评分与参考翻译比较:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

对于模拟实验——我们缺乏对偏好的真正监督,我们计算Q比较两种翻译的sBLEU分数,即翻译偏好根据其在sBLEU中的差异进行建模:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

我们为reward estimation选择以下神经结构:输入是填充的源和目标子词嵌入,每个都用 biLSTM处理。它的优点是不需要任何特征提取,但仍然在抽象层次上对n-gram特征建模。

评估方法:reward estimation模型的质量通过测量Spearman的具有ter的ρ来测试的,该测试集由1314个翻译组成,遵循SQE评估中的标准。超参数在另外的1200个TED翻译中被调优。

结果:下表报告了对模拟和人类reward进行培训的reward estimation的结果。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

当从cardinalreward中训练时,模拟分数模型的表现略好于人类评分模型。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

MT中Direct和Estimated Rewards的强化学习

监督学习:最常见的是,在源序列和目标序列的平行语料库上使用最大似然估计(MLE)对NMT模型进行训练

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

从estimated或simulated direct rewards加强学习。在强化学习场景中部署NMT,目标是最大化对所有源和目标序列的rewardr的期望,从而实现以下强化目标:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

rewardR可以来自reward estimation模型(estimated reward),也可以根据模拟设置(模拟direct reward)中的参考来计算。

Direct Rewards中的离线学习。当不能从学习系统中获得样本的reward,而是为静态确定性系统(例如在生产环境中)收集时,我们处于离线学习场景中。挑战是要改进机器翻译系统,使其从reward翻译的日志

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

开始。遵循Lawrence等,我们定义了以下离线学习(opl)目标,以从记录的奖励中学习:

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

评估方法:对训练后的BLEU、METEOR模型进行评估,使用MULTEVAL和BEER覆盖一套不同的翻译质量自动测量方法。我们用近似随机法检验统计显著性。

域外模型在WMT中用MLE训练。下表比较了域外基线与以完全监督方式在TED上进一步培训的域适应性模型。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

模拟reward的RL结果。首先,我们通过将示例翻译与使用GLEU表示RL的参考文献进行比较,以及使用smooth的sBLEU表示估计reward和OPL,来模拟“完全的”和确定性的reward。下表列出了第2-5行中的模拟实验结果。

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

seq2seq强化学习中Human Bandit反馈的可靠性和可学习性

总结

在这项工作中,我们试图解释cardinal反馈和ordinal反馈在NMT的RL训练的可靠性、可学习性和有效性方面有何不同,目的是通过human bandit来改善NMT。我们的评分研究,通过比较5点评分和偏好评分,发现它们的可靠性是可以比较的,而cardinal评分更容易学习和归纳,也更适合本文实验中的RL。

本文工作报告了NMT的改进,利用了RL的实际human bandit反馈。实验表明,通过从一个比例很小的机器翻译数据集学习,可以实现超过1个BLEU的改进。由于这种反馈与post-edits和references相比,从非专业人士那里得到的更快速且廉价,因此我们的结果在未来大规模应用中具有巨大的潜力。

论文下载链接:

http://aclweb.org/anthology/P18-1165

相关推荐