Longformer:超越RoBERTa,为长文档而生的预训练模型

Longformer:超越RoBERTa,为长文档而生的预训练模型 10

知行编程网 人工智能前沿 2年前 (2022-01-20) 184 0

前言 今天要与大家分享的是AllenAI今年发表的最新工作,Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码,大家可快速复现,直接用于自己的任务。 传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个token都要与其他所有token进行交互。其attention复...

超一流 | 从XLNet的多流机制看最新预训练模型的研究进展

超一流 | 从XLNet的多流机制看最新预训练模型的研究进展 12

知行编程网 人工智能前沿 2年前 (2022-01-19) 37 0

导读 作为 NLP 近两年来的当红炸子鸡,以 ELMo/BERT 为代表的语言预训练技术相信大家已经很熟悉了。简单回顾下 18 年以来几个预训练的重要工作: ELMo, GPT and BERT ELMo 首先提出了基于语言模型的预训练技术,成功验证了在大规模语料上基于语言模型进行文本自监督学习的有效性。 GPT 提出了 NLP 预训练技术使用时应该像 CV 预训练技术一样,在下游任务中通过 fi...

ACL20 | 让笨重的BERT问答匹配模型变快!

ACL20 | 让笨重的BERT问答匹配模型变快! 10

知行编程网 人工智能前沿 2年前 (2022-01-18) 33 0

一只小狐狸带你解锁炼丹术&NLP秘籍 背景 BERT、XLNet、RoBERTa等基于Transformer[1]的预训练模型推出后,自然语言理解任务都获得了大幅提升。问答任务(Question Answering,QA)[2]也同样取得了很大的进步。 用BERT类模型来做问答或阅读理解任务,通常需要将问题和问题相关文档拼接一起作为输入文本,然后用自注意力机制对输入文本进行多层交互编码,之...

NLP中的少样本困境问题探究

NLP中的少样本困境问题探究 25

知行编程网 人工智能前沿 2年前 (2022-01-18) 9 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 在医疗、金融、法律等领域,高质量的标注数据十分稀缺、昂贵,我们通常面临少样本低资源问题。本文从「文本增强」和「半监督学习」这两个角度出发,谈一谈如何解决少样本困境。 正式介绍之前,我们首先需要思考什么才是一种好的解决少样本困境的方案?本文尝试给出了三个层次的评价策略,我们希望采取相关数据增强或弱监督技术后: 在少样本场景下,比起同等标注量的无...

GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹!

GPT-3诞生,Finetune也不再必要了!NLP领域又一核弹! 5

知行编程网 人工智能前沿 2年前 (2022-01-17) 27 0

一只小狐狸带你解锁炼丹术&NLP秘籍 2018年10月推出的BERT一直有着划NLP时代的意义,然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT(Generative Pre-Training)在以它的方式坚持着,向更通用的终极目标进发。 最初的GPT只是一个12层单向的Transformer,通过预训练+精调的方式进行训练,BERT一出来就被比下去了。之后2019年初的GP...

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码) 14

知行编程网 人工智能前沿 2年前 (2022-01-16) 137 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候,如果sequence length开满512,那么batch size仅仅开到8(有时候能到10)就把这寥寥32G的显存打满...

Google | 突破瓶颈,打造更强大的Transformer

Google | 突破瓶颈,打造更强大的Transformer 4

知行编程网 人工智能前沿 2年前 (2022-01-16) 18 0

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 《Attention is All You Need》一文发布后,基于Multi-Head Attention的Transformer模型开始流行起来,而去年发布的BERT模型更是将Transformer模型的热度推上了又一个高峰。当然,技术的探索是无止境的,改进的工作也相继涌现:有改进预训练任务的,比如XLNET的PLM、ALBERT的SOP等...

中文分词的古今中外,你想知道的都在这里

中文分词的古今中外,你想知道的都在这里 30

知行编程网 人工智能前沿 2年前 (2022-01-15) 16 0

一只小狐狸带你解锁NLP/ML/DL秘籍 前言 分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。 虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"yo...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人... 11

知行编程网 人工智能前沿 2年前 (2022-01-15) 90 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]: 才第五吗?没事,期望越大,失望越大 谷歌在github放出的预训练模型效果是这样的: 燃!鹅!在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子...

论文写作葵花宝典

论文写作葵花宝典 2

知行编程网 人工智能前沿 2年前 (2022-01-14) 3 0

一只小狐狸带你解锁NLP/DL/ML秘籍 论文写作套路 老板说:写论文是有套路的 老板说:introduction写好了,论文就成功了一半 老板说:你的motivation是什么,contribution又是啥?   小夕说:写论文的301天,每日三省吾身 我的motivation是什么?我的contribution是什么?在introduction中表述清楚我的motivation和contri...

扫一扫二维码分享