ICLR2020 NLP优秀论文分享（附源码）

知行编程网 2022-06-05 17:00 知行编程网 | 隐藏边栏 | 抢沙发 | 6 0

文章评分 0 次，平均分 0.0 ：

来自 | 知乎作者 | 清华阿罗

地址 | https://zhuanlan.zhihu.com/p/139069973

编辑 | 深度学习这件小事

本文仅作学术分享，若侵权，请联系后台删文处理

1.REFORMER：THE EFFICIENT TRANSFORMER^[1]

论文小结：作者提出了一种新的转换器模型，对体系架构进行了两项重大改进：1）使用可逆层以防止需要存储所有层的激活来进行反向传播；2）使用局部敏感哈希来估算耗时间的softmax计算。该Reformer的性能与SOTA Transformer模型相当，但内存效率更高，长序列的速度更快。

代码地址:

https://github.com/google/trax/tree/master/trax/models/reformer

2.ALBERT: A Lite BERT for Self-Supervised Learning of Language Representations^[2]

论文小结：ALBERT是BERT的扩展，它试图回答一个问题，即较大的模型是否可以解决NLP任务？Albert通过跨层参数共享获得SOTA结果。通过共享参数，ALBERT可以变小并具有相似的性能。采用更多参数，ALBERT的表现更好，但其训练速度仍比BERT快。当训练时间相同，ALBERT的表现要好于BERT。这些结果表明单纯构建更复杂、更大、更深的模型并不总是提高模型性能的最佳方法。

代码地址：https://github.com/google-research/ALBERT

3.ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators^[3]

论文小结：预训练语言模型的常见操作是mask输入，并让模型预测被mask的内容。本文介绍了一种称为令牌检测的新的预训练方法。在新方法中，作者从生成器中采样来替代某些令牌，然后训练一个鉴别器来预测生成器是否替换了输入中的每个令牌。论文操作方法的数据效率更高，比以往方法提高了约15％。它表明在如何训练语言模型方面还有更多的创造空间。

代码地址：https://github.com/google-research/electra

4.Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue^[4]

论文小结：本文提出了一种用于开放域对话知识选择的新方法，称为序列隐模型，该模型将知识历史表示为某种隐表示。这样做是因为跟踪知识历史记录可减少因会话的知识选择差异而引起的歧义，但也可以帮助更好地使用信息反馈。这项工作表明，改进知识选择可以大大提高响应生成质量。这对构建更强大的对话应用程序产生影响。

代码地址：https://github.com/bckim92/sequential-knowledge-transformer

5.A Probabilistic Formulation of Unsupervised Text Style Transfer^[5]

论文小结：作者提出一种无监督文本样式转换的概率模型。该方法大致想法是通过使用来自两个域的非并行数据作为部分观察到的并行语料库。作者提出的模型可以学习将序列从一个域转换为另一域。通过生成并行隐序列，模型能以无监督的方式学习该序列。文章表明在无监督的情感转换、作者模仿和机器翻译等领域取得效果。本文介绍的方法不需要成对的训练数据，这使得数据收集更加容易。

代码地址：https://github.com/cindyxinyiwang/deep-latent-sequence-model

6.The Curious Case of Neural Text Degeneration^[6]

论文小结：论文作者提出了一种新的解码策略，即核心采样、同时截去尾部概率分布，从包含绝大多数概率质量的令牌动态核中采样。与直觉相反的经验观察结果是，即使针对多样语言理解任务，使用似然作为训练目标能提供高模型质量，但作为解码目标，似然会导致文本理解乏味且重复。论文表明即使在最新的语言模型中，文本退化也是一个问题。对于各种NLP任务，解码策略对于类人的文本生成很重要。去掉beam search之类的贪婪算法将有助于执行下游任务。

代码地址：https://github.com/ari-holtzman/degen

7.What Can Neural Networks Reason About^[7]

论文小结：本文介绍了一种称为算法alignment的框架，用于评估神经网络在推理任务上的表现。与已知算法解决方案作align的神经网络能够更好地学习这些解决方案。该框架大致认为，要使模型能够学习并成功地概括推理任务，它需要简单学习（近似）推理任务的步骤。作者提出图神经网络非常适合，因此可以学习解决动态编程问题。这是一篇晦涩的理论论文，解释了人们一直在凭直觉做出的架构选择，并为以后研究并探索新架构来更好地适应机器学习任务奠定基础。

代码地址：https://github.com/NNReasoning/What-Can-Neural-Networks-Reason-About

参考链接

^https://arxiv.org/pdf/2001.04451.pdf
^https://arxiv.org/pdf/1909.11942.pdf
^https://arxiv.org/pdf/2003.10555.pdf
^https://arxiv.org/pdf/2002.07510.pdf
^https://arxiv.org/pdf/2002.03912.pdf
^https://arxiv.org/pdf/1904.09751.pdf
^https://arxiv.org/pdf/1905.13211.pdf

<pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><p style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;line-height: 1.75em;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></p><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section><p style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">IoU、GIoU、DIoU、CIoU损失函数的那点事儿</p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">GitHub重大更新：在线开发上线，是时候卸载IDE了</span></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color: rgb(87, 107, 149);-webkit-tap-highlight-color: rgba(0, 0, 0, 0);cursor: pointer;max-width: 100%;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;">史上最烂的项目：苦撑12年，600多万行代码...</span></p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">数据分析入门常用的23个牛逼Pandas代码</p><p style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">知乎高赞：985计算机视觉毕业后找不到工作怎么办？<br  /></p></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

参考链接

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

ICLR2020 NLP优秀论文分享（附源码）

参考链接

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利