知行编程网 2022-01-22 14:35 知行编程网 | 隐藏边栏 | 抢沙发 | 8 0

文章评分 0 次，平均分 0.0 ：

机器阅读理解任务，相比不少读者都有所了解了，简单来说就是从给定篇章中寻找给定问题的答案，即“篇章 + 问题 → 答案”这样的流程，笔者之前也写过一些关于阅读理解的文章，比如《基于CNN的阅读理解式问答模型：DGCNN》^[1]等。至于问答对构建，则相当于是阅读理解的反任务，即“篇章 → 答案 + 问题”的流程，学术上一般直接叫“问题生成（Question Generation）”，因为大多数情况下，答案的构造相对容易，直接从文中利用规则随机选取即可（虽然这样会产生很多实际不可提问的假答案），所以很多文章都只关心“篇章 + 答案 → 问题”这一步。

本文将带来一次全端到端的“篇章 → 答案 + 问题”实践，包括模型介绍以及基于bert4keras^[2]的实现代码，欢迎读者尝试。

效果

输入篇章：世界第二高山峰是乔戈里峰,位于中国境内。
生成问答：世界第二高山峰叫什么名字?   乔戈里峰
        乔戈利峰是世界第几高峰     第二

输入篇章：7月28日，泰国将迎来十世王玛哈·哇集拉隆功国王的68岁诞辰。
生成问答：泰国的十世王是谁玛哈·哇集拉隆功国王
泰国的十世王玛哈·哇集拉隆多少岁？ 68岁
泰国的玛哈·哇集拉隆功国王的生日是哪一天？ 7月28日
玛哈·哇集拉隆功国王是哪个国家的泰国

输入篇章：泼水节，亦称宋干节，已有700年的历史，是傣族(中国)、德昂族最盛大的传统节日。
生成问答：泼水节又称为什么宋干节
泼水节是我国哪一民族一年中最盛大的节日？傣族
泼水节有多少年历史了？ 700年

思路分析

本文的目标是完全端到端地实现“篇章 → 答案 + 问题”，包括答案的选取也是由模型自动完成，不需要人工规则。其实说起来也很简单，就是用“BERT + UniLM”的方式来构建一个Seq2Seq模型（UniLM的Attention Mask，加上BERT的预训练权重），如果读者还不了解UniLM，欢迎先阅读《从语言模型到Seq2Seq：Transformer如戏，全靠Mask》^[3]。

笔者之前在文章《万能的seq2seq：基于seq2seq的阅读理解问答》^[4]中也给出过通过Seq2Seq模型来做阅读理解的实现，即直接用Seq2Seq模型来构建p(答案∣篇章,问题)，图示如下：

学会提问的BERT：端到端地从篇章中构建问答对 — ▲用Seq2Seq的思路做阅读理解

事实上，在上述模型的基础上稍微改动一下，将问题也列入生成的目标之中，就可以实现问答对生成了，即模型变为p(问题,答案∣篇章)，如下图：

但是，直觉上不难想到“篇章 → 答案”、“篇章 + 答案 → 问题”的难度应该是低于“篇章 + 问题 → 答案”的，所以我们将问题和答案的生成顺序调换一下，变为p(答案,问题∣篇章)，最终的效果会更好：

实现分析

模型就介绍到这里了，其实也没什么好说的，就是确定好哪些是输入、哪些是输出，然后“BERT + UniLM”套上去就行了。下面是笔者的参考实现^[5]：

task_question_answer_generation_by_seq2seq.py

这里值得讨论的是解码的思路。一般的Seq2Seq模型，解码到一个[SEP]就结束了，而本文的模型需要解码到两个[SEP]才能结束，截止到第一个[SEP]的是答案，而两个[SEP]之间的则是问题。理论上来说，从给定篇章中我们可以构建很多问答对，换句话说目标不是唯一的，所以我们不能用Beam Search之类的确定性解码算法，而是要用随机解码算法（相关概念可以参考《如何应对Seq2Seq中的“根本停不下来”问题？》^[6]中的“解码算法”一节）。

但问题是，如果完全使用随机解码算法，那么生成的问题会过于“天马行空”，也就是可能会出现一些跟篇章无关的内容，比如篇章是“我国火星探测器天问一号发射成功”，生成的问题可能是“我国第一颗人造卫星是什么”，虽然相关，但是过于发散了。所以，这里建议使用一个折中的策略：用随机解码来生成答案，然后用确定性解码来生成问题，这样能尽量保证问题的可靠性。当然，如果读者更关心生成问题的多样性，那么全部使用随机解码也行，反正就自己调试啦。

读者还需要注意的是，上述参考脚本中并没有对答案进行约束，那么生成的答案可能并不是篇章中的片段。毕竟这只是个参考实现，离实用还有一定距离，请有兴趣的读者根据自己的需求自行理解和修改代码。此外，由于问答对构建已经完全变成了一个Seq2Seq问题，所以用来提升Seq2Seq性能的技巧都可以用来提高问答对的生成质量，比如之前讨论过的《Seq2Seq中Exposure Bias现象的浅析与对策》^[7]，这些都交给读者自己尝试了。

文章小结

本文是一次端到端的问答对生成实践，主要是基于“BERT + UniLM”的Seq2Seq模型来直接根据篇章生成答案和问题，并讨论了关于解码的策略。总的来讲，本文的模型没有什么特殊之处，但是因为借助了BERT的预训练权重，最终生成的问答对质量颇有可圈可点之处。

参考文献

[1] 基于CNN的阅读理解式问答模型：
DGCNN: https://spaces.ac.cn/archives/5409

[2] bert4keras:
https://github.com/bojone/bert4keras

[3] 从语言模型到Seq2Seq：Transformer如戏，全靠Mask:
https://spaces.ac.cn/archives/6933

[4] 万能的seq2seq：基于seq2seq的阅读理解问答:
https://spaces.ac.cn/archives/7115

[5] task_question_answer_generation_by_seq2seq:
https://github.com/bojone/bert4keras/blob/master/examples/task_question_answer_generation_by_seq2seq.py

[6] 如何应对Seq2Seq中的“根本停不下来”问题？:
https://spaces.ac.cn/archives/7500#%E8%A7%A3%E7%A0%81%E7%AE%97%E6%B3%95

[7] Seq2Seq中Exposure Bias现象的浅析与对策:
https://spaces.ac.cn/archives/7259

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

效果

思路分析

实现分析

文章小结

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

学会提问的BERT：端到端地从篇章中构建问答对

效果

思路分析

实现分析

文章小结

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利