知行编程网 2022-01-24 19:30 知行编程网 | 隐藏边栏 | 抢沙发 | 63 0

文章评分 0 次，平均分 0.0 ：

背景

三个多月前，OpenAI的GPT-3在NLP界掀起轩然大波。就在上周，视金钱如粪土的OpenAI团队又在文本摘要方面推出了最新力作，全方位超越人类表现。其亮点在于：以人类偏好替代自动化评测方法（如ROUGE、BLUE）为训练目标，用人类反馈作为奖励进行强化学习，性能表现十分惊艳。

对于较为复杂的NLP任务，如何进行评测、如何构造精准的损失函数已困扰了NLP researchers多年。以文本摘要为例，若采用自动化指标，模型的生成结果将逐渐逼近数据集内人工手写的摘要。但这种评价方式其实并不符合我们真正的训练目标。我们希望生成的并非“与数据集相近的摘要”，而是一篇“好的摘要”——它应该精简、准确、概括性强、语言连贯流畅。用BLUE和ROUGE显然评测不了这些维度。

此外，过度模仿数据集内容还存在很多更深层的隐患。大量数据集，比如本工作采用的TL;DR数据集，都是直接从网络上爬取下来的。其内容是由成千上万、形形色色的互联网用户上传。其质量良莠不齐是一方面，更严重的是其中不乏一些危险暴力、真实性存疑的言论。这些互联网的暗面是我们不希望AI学到的。

用人类反馈指导AI的学习过程，不仅仅是用更精准的评测方式提高性能、刷新SOTA，也是在AI safety方面的一点推进。

论文题目：
《Learning to Summarize with Human Feedback》

论文链接:
https://arxiv.org/pdf/2009.01325.pdf

开源代码:
https://github.com/openai/summarize-from-feedback

Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【0914】下载论文PDF~

方法

整体流程可归纳为以下4步，后文将依次展开：

训练初始摘要模型Supervised Baseline
构建人类反馈数据集，不断人工比较两篇摘要优劣
用上述“人类反馈数据集”训练一个Reward Model，模仿人类偏好对摘要打分
用强化学习的方法继续训练Supervised Baseline，每一步的奖励由上述Reward Model给出，从而学习符合人类偏好的摘要生成策略

下图展示了2-4步的实现细节：

1. 训练初始摘要模型

模型采用GPT-3风格的Transformer decoder。作者总共训了两个不同size的baseline。当然参数规模还没有真的GPT-3那么丧心病狂——也就一个13亿，一个67亿吧：）（Bert-large的4倍和20倍）。

训练方法，pretrain+fine-tune两步走。先在大量语料上进行预训练得到Pretrained Model。然后再用摘要数据集TL;DR中质量较高的部分，对模型进行fine-tune，得到Supervised Baseline。为保证baseline足够强大，可堪一战，作者用baseline跑了一下CNN/DM——一个baseline在预训练和fine-tune时都没见过的另一个摘要数据集。其性能表现可超越2019年5月时的SOTA。

2. 构建人类反馈数据集

构建过程就是不断给标注者同一文章的2篇摘要，要求选出其较为偏好的的一篇。最终数据集总共包含6.48w次比较。

值得一提的是作者团队为保证标注质量做出的努力。大概翻译一下作者原话：

“在之前的工作中，我们发现标注者经常给我们觉得很一般的文章也打高分。所以这次，我们斥巨资保证标注质量。为提高与标注者的交流效率，我们拒绝采用第三方标注平台，直接雇佣80名标注者到身边......对标注者每小时的标注量不做要求（如果标得太快会在一开始就被辞掉）。我们也不按标注数目发工资，而是按工作时长，15刀/时。”

3. 训练Reward Model

光靠人工标注的6.48w条比较数据，仍然还不足以调教一个规模庞大的摘要模型。于是，作者以人类标注数据为基础，训练了一个Reward Model，模仿人类喜好对摘要进行打分。

模型结构，就是第1步中Supervised Baseline上再叠一个线性层。训练的时候，给标注者已经比较过的摘要,摘要，让Reward Model分别打分（, ）。假设标注结果是比好，则损失函数为：

4. 学习符合人类偏好的摘要生成策略

万事俱备后，作者用强化学习的方法继续训练Supervised Baseline，以符合人类偏好为目标调整生成策略。仔细读paper细节的话，会发现每一步的奖励其实并不只Reward Model的打分，而是由两部分构成的：

（向右滑动查看完整公式）

即Reward Model的给分。后面又减去了一项，是初始Supervised Model与当前模型的相对熵。也就是说，既希望新的模型能够在Reward Model这里得高分，又不允许它离初始模型偏离得太远。因为相应实验表明（如下图所示），当模型与初始状态相对熵变大的时候，Reward Model可能会对模型打高分（图中虚线），但实际人类喜好程度（图中实线）反而会不断降低。

这样的差异说明Reward Model对于人类偏好的模仿能力仍然十分有限。论文附录部分也列举了一些模型overfit后的结果，如下图所示。可以看到，当模型overfit后，似乎可以学习到某种固定的pattern骗取Reward Model的高分。

实验

论文实验部分持续弥漫金钱的味道。所有实验都采用人工评测的方式，以保证最大程度的准确性。

1. TL;DR实验结果： TL;DR是模型做fine-tune的数据集，作者在其测试集上进行评测，实验结果见下图。共比较了4种摘要生成结果：

数据集中人工写的reference summaries
用人类反馈强化学习过的最终模型
未经强化学习的Supervised Baseline
未在摘要任务上fine-tune过的预训练模型

左图是多维度的人工评测打分（coverage,coherence,accuracy）。右图中，纵轴是人类偏好比例，横轴为模型规模。结论：经人类反馈强化学习后，全方位超越人类表现。

2.迁移实验结果： 尽管模型从未学习过新闻领域的摘要生成，模型依然在新闻类数据集CNN/DM上取得了很好的表现。如下图所示，在模型规模相等的情况下，TL;DR上强化学习后的模型（Human feedback transfer）与直接在CNN/DM上fine-tune过的模型（Supervised CNN/DM）相比，评测结果相差无几。

感想与小结

尽管提升效果显著，本工作还是存在很多局限性。一个是钱的问题。此外，直接用人类反馈指导模型学习的可操作性、可普适性仍然存疑。我们也看到，在进行强化学习时的奖励并非直接由reward model给出，还需要加一个相对熵限制项。并且从实验中的分析结果来看，模型训练似乎非常容易过拟合。可以想见整个调参过程应该是非常复杂的。

其实，用人类的行为模式指导AI的思想已不是首次出现。例如OpenAI去年就有用人类偏好精调GPT-2的工作。又如发表于今年ACL上的一篇工作，比较了人类与RNN的attention模式差异。在此之前，也有用人类偏好指导语义解析和翻译任务的工作。当然，高质量、大规模地标注人类反馈需要雄厚的财力。也是因为这个原因，其他工作多不能做到OpenAI的规模。

无论如何，人肉炼丹所得到的提升效果肉眼可见。相关工作也已在今年工作中陆续涌现。是否会成为NLP界的下一个热点，也尚未可知。

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

背景

方法

1. 训练初始摘要模型

2. 构建人类反馈数据集

3. 训练Reward Model

4. 学习符合人类偏好的摘要生成策略

实验

感想与小结

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

有钱可以多任性？OpenAI提出人肉模型训练，文本摘要全面超越人类表现！

背景

方法

1. 训练初始摘要模型

2. 构建人类反馈数据集

3. 训练Reward Model

4. 学习符合人类偏好的摘要生成策略

实验

感想与小结

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利