监督强化学习两不误：Facebook让聊天机器人学会谈判

监督强化学习两不误：Facebook让聊天机器人学会谈判雷锋网(公众号：雷锋网)AI 科技评论按：目前人们对聊天机器人的认识还在调戏微软小冰的阶段，可以明显感觉到小冰不是很关心上下文之间的关联。而且在我们的观念里，聊天机器人也没办法真的理解人类所说的话，没办法跟人类讨论事情、明确地达到什么共同目标。

不过，Facebook的人工智能研究机构FAIR刚刚开源并公开发表的聊天机器人就开始拥有了跟人类进行协商谈判、进行讨价还价的能力。通过监督学习+强化学习，这个聊天机器人不仅能理解字词和语义的对应关系，还能针对自己的目标制定策略，跟别人进行协商讨论达成一致。

以下为雷锋网 AI 科技评论根据FAIR文章进行的详细介绍。

监督学习×强化学习，Facebook让聊天机器人学会谈判

生活的每一天里，我们一睁眼就要不停地跟别人协商事情。要么是讨论看哪个电视台，要么是说服家里小孩吃蔬菜，或者买东西的时候讨价还价。这几件事的共同点是，都需要复杂的交流和讲理能力，而这些能力很难在计算机里见到。

发展到现在，聊天机器人方面的研究已经可以形成聊天系统，它能进行简短对话，能完成订餐馆这样的简单任务。但是让机器人跟人进行有意义的对话还是很难的，因为这需要机器人把它对对话的理解和它对世界的知识进行组合，然后再生成一句能帮它达到自己的目标的句子。

今天，Facebook FAIR的研究员们开源并公开发表的聊天机器人有了一项新能力，这个新能力就是协商。

有着不同目标的人类之间会产生冲突，然后通过协商达成一种大家共同认可的妥协，现在研究员们证明了聊天机器人也可以做到这些。具有不同目标的聊天机器人（具体实现是端到端训练的神经网络）在一段从头到尾的协商中，可以跟其它聊天机器人或者人类一起做出共同的决定或者达到共同的目标。

任务：多种类讨价还价

FAIR的研究员们研究了一种多种类讨价还价任务下的协商任务。给两个智能体展示同一组物体（比如2本书，1个帽子，3个篮球），为了能把东西分给它们，就需要教它们协商自己分到的数目。

监督学习×强化学习，Facebook让聊天机器人学会谈判

每个智能体都有自己的价值函数，它代表了智能体对每种物体的关心程度如何（比如在智能体1看来每个篮球值3分）。然后，就像生活中一样，每个智能体都没法确切知道别的智能体的价值函数，只能从对话中进行推测（如果对方说他想要篮球，那在他看来篮球的分值肯定比较高）。

FAIR的研究员们设计了很多类似这样需要协商的情境，而且始终不会让两个智能体同时达成自己最满意的分法。以及，如果拒绝协商（或者如果10轮对话以后还没达成一致），那么两个智能体都会得0分。简单说，进行协商是关键，如果还协商到了一个好的结果那就得分更高。

对话推演（Dialog Rollouts）

协商是一个语言性和讲理性的综合问题，其中的参与者要先形成自己的意图，还要能用语言表达出来。合作和对抗的元素都会出现在这些对话中，这就需要智能体们理解并形成长期计划，然后据此进行表达以便达到自己的目标。

为了建立这种有长期计划能力的对话智能体，FAIR研究员们有一个核心的技术创新，他们把这个点子叫做“对话推演”（dialog rollouts）。

如果聊天机器人可以建立对谈者的虚拟模型然后“提前考虑”，或者预感到未来对话的可能方向，它们就可以选择避开没有信息量的、引发困惑的或者糟糕的来回讨论，转而向着成功一些的方向去。

具体来说，FAIR开发出了对话推演这样的新颖技术，一个使用这种技术的智能体可以一直模拟未来的对话到结尾，这样它就可以选出可以在未来带来最高收益的话语。

监督学习×强化学习，Facebook让聊天机器人学会谈判

类似的方法已经在游戏环境中得到过应用，但是用来解决语言问题还是第一次，因为可选择的行动数目要多多了。为了提高效率，研究员们首先生成了一组数量不多的话语可供选择，然后为了估计这些话语是否成功，他们对其中的每一条都反复模拟完整的后续对话。这个模型的预测准确率足够高，也要归功于这项技术从以下几个方面显著提升了协商水平：

协商时候更努力：这些新的智能体能跟人类进行更长的对话，代价是对价码的接受会慢一点。相比人类有时候不达成一致就走掉了，这个实验中的模型会一直协商到取得成功的结果为止。
智能化的应对：有时候会出现这样的状况，智能体一开始会假装对没什么价值的东西感兴趣，就为了后来可以放弃它们来表现出自己在“妥协”，这确实是一个人类经常使用的谈判技巧。这种行为可不是研究员们设计给它们的，而是智能体在想办法达成目标的过程中自己发现的谈判方法。
产生新颖的句子：尽管神经网络模型可以很轻松地从训练数据中重复一些句子，这项研究也展示出在有必要的时候模型也能自己生成一些句子。

建立及评价一个协商数据集

为了能够训练协商智能体以及做大规模量化评估，FAIR团队用众包的方法建立了一个人和人之间协商对话的数据集。其中参与的人看到了一组东西和每个东西的价值，然后要商量他们之间怎么分这些东西。然后研究员们就用这些对话训练出了一个能模仿人类行为进行协商的循环神经网络（RNN）。在对话中的任何时刻，这个模型都会猜测人类在这种状况下会说什么。

在以前目标导向的对话研究中，模型都是完全由人类的语言和决定进行“端到端”训练得到的，这意味着这种方法可以方便地用在其它任务中。

为了让模型不仅仅停留在对人类的模仿，FAIR的研究员们接下来让模型转而向完成协商的目标发展。为了让模型达到目标，研究员们让模型自己跟自己进行了上千轮协商，并且用到了强化学习在得到好的结果的时候奖励模型。为了避免让算法生成自己的一套语言，模型同时也要训练生成类人的语言。

为了评价这些协商智能体，FAIR让它们上网跟人类聊天。之前的大多数研究都在避免跟真人聊天，或者研究的是难度更低的领域，这都是因为对各种各种的人类语言进行回答需要训练复杂的模型。

有意思的是，在FAIR的实验中，多数人都没发现跟他们聊天的不是真人，而是机器人，说明机器人已经学会如何在这个领域流畅地用英文进行对话了。FAIR最优秀的协商机器人就运用了强化学习和对话推演，它的表现已经可以跟人类谈判员相提并论。它达成的交易里，较好一些的和糟糕一些的差不多多，这也说明了FAIR的聊天机器人不仅会说英语，而且还能智能地考虑应该说什么。

用于聊天机器人的强化学习

监督学习可以模仿人类用户的动作，但是它没法具体表现出达成目标的意志。FAIR团队选了另一种方法，他们先用监督学习进行预训练，然后用强化学习的方法结合评价指标对模型进行微调。以结果来说，他们用监督学习学到了如何把语言文字和意思相对应，然后用强化学习帮助判断说什么语句。

在增强学习中，智能体会试着根据自己与另一个智能体之间的对话优化自己的参数。不过同时这另一个智能体也可以是一个人，所以FAIR就用了一个训练过的监督学习模型来模仿人类。这个模仿人类的模型是固定不变的，因为研究者们发现如果两个模型的参数都可以优化的话，它们之间的对话就会偏离人类的语言，演化出一种它们自己的谈判语言。在每一场对话结束以后，智能体都会根据自己谈成的结果得到奖励。这种奖励是用智能体整个过程里的所有语言输出运用策略梯度进行反向传播得到的，目的是为了让智能体有更高的可能性选择会有更高奖励的动作。

期待更高发展

对Facebook来说这是一项突破性的研究，对整个研究领域和机器人开发者来说，这是建立能讲道理、交谈、协商的机器人的重大进展，而这几项都是建立个性化数字助理的重要组成部分。

对FAIR的研究人员而言，他们也希望与其它的研究人员继续共同讨论研究成果、共同分析想要解决的问题。他们也期待更多有才干的人投入想法和精力，推动这个领域进一步发展。

免责声明：本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿，凡在本网站出现的信息，均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性，但不保证有关资料的准确性及可靠性，读者在使用前请进一步核实，并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时，应及时向本网站提出书面权利通知或不实情况说明，并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后，将会依法尽快联系相关文章源头核实，沟通删除相关内容或断开相关链接。

监督强化学习两不误：Facebook让聊天机器人学会谈判

任务：多种类讨价还价

对话推演（Dialog Rollouts）

建立及评价一个协商数据集

用于聊天机器人的强化学习

期待更高发展

下一篇