Longformer:超越RoBERTa,为长文档而生的预训练模型

Longformer:超越RoBERTa,为长文档而生的预训练模型 10

知行编程网 人工智能前沿 2年前 (2022-01-20) 184 0

前言 今天要与大家分享的是AllenAI今年发表的最新工作,Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码,大家可快速复现,直接用于自己的任务。 传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个token都要与其他所有token进行交互。其attention复...

扫一扫二维码分享