Longformer:超越RoBERTa,为长文档而生的预训练模型

Longformer:超越RoBERTa,为长文档而生的预训练模型 10

知行编程网 人工智能前沿 2年前 (2022-01-20) 184 0

前言 今天要与大家分享的是AllenAI今年发表的最新工作,Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码,大家可快速复现,直接用于自己的任务。 传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制,即每一个token都要与其他所有token进行交互。其attention复...

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ...

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ... 12

知行编程网 人工智能前沿 2年前 (2022-02-15) 59 0

随着大模型的发展,NLP领域的榜单可说是内卷到了无以复加,现在去浏览各大公开榜单,以至于各个比赛,随处可见BERT、RoBERTa的身影,甚至榜单中见到各大large模型的集成版也并非偶然。在发论文的时候,又要不断地去内卷SOTA,今天的SOTA在明天就有可能被打败,成为了过眼云烟。极端情况下,某一篇论文正在撰写,ArXiv上就突然刷新了SOTA,又足以让研究者们头疼应该怎样应对。 同时,参数规模...

45个小众而实用的NLP开源字典和工具

45个小众而实用的NLP开源字典和工具 3

知行编程网 人工智能前沿 2年前 (2022-01-14) 42 0

一只小狐狸带你解锁NLP/ML/DL秘籍   前言 随着BERT、ERNIE、XLNet等预训练模型的流行,解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。 众所周知,无论训练还是推理,预训练模型都会消耗大量的算力,且高度依赖GPU计算资源。然而,有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用,那么这时候强行上笨重的模型无异于高射炮打蚊子,性价比是非常低的。 于...

开源词法分析工具LAC重大升级!打造属于自己的个性化分词器!

开源词法分析工具LAC重大升级!打造属于自己的个性化分词器! 3

知行编程网 人工智能前沿 2年前 (2022-01-21) 48 0

本文将为大家介绍如何使用百度开源的词法分析工具LAC实现个性化分词(附代码),并展示LAC在各数据集上惊艳的性能表现。 背景介绍 分词是中文自然语言处理基础且重要的任务。词是表意的完整单位。“张三”这个词中,“张”其实既可以是姓也可以表“张开”之意,而“三”则常被表示为数字。但“张三”作为一个词出现在一起时,大家明确知道这表示的是个人名,故而句子经过分词后可降低理解的难度。 分词也是文本检索、知识...

学完文本知识,我就直接看懂图片了!

学完文本知识,我就直接看懂图片了! 18

知行编程网 人工智能前沿 2年前 (2022-02-16) 51 0

2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世,震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时,想必对GPT-3中的Prompt方法印象深刻。简单来说,(GPT-3中的)Prompt就是为输入的数据提供模板(例如对于翻译任务 Translate English to Chinese:...

中文分词的古今中外,你想知道的都在这里

中文分词的古今中外,你想知道的都在这里 30

知行编程网 人工智能前沿 2年前 (2022-01-15) 16 0

一只小狐狸带你解锁NLP/ML/DL秘籍 前言 分词(word tokenization),也叫切词,即通过某种方式将句子中的各个词语识别并分离开来,使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文,对于英文、日文、韩文等语言也同样适用。 虽然英文中有天然的单词分隔符(空格),但是常有单词与其他标点黏滞的情况,比如"Hey, how are you."中的"Hey"和"yo...

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA!

打破BERT天花板:11种花式炼丹术刷爆NLP分类SOTA! 8

知行编程网 人工智能前沿 2年前 (2022-01-22) 14 0

在2020这个时间节点,对于NLP分类任务,我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样,我们更应该关注如何利用机器学习思想,更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。 本文以QA形式探讨了以下问题: NLP分类任务我们每个NLPer都异常熟悉了,其在整个NLP业务中占据着举足轻重的地位,更多领域...

谷歌:一篇论文,让研究者吃我三份安利

谷歌:一篇论文,让研究者吃我三份安利 18

知行编程网 人工智能前沿 2年前 (2022-02-16) 11 0

前言 计算机视觉、机器学习,这两个词会让你想到什么? 相信绝大多数人第一反应都是CNN,而持续关注这些领域发展的人,则会进一步联想到近几年大火的Transformer,它不仅在自然语言相关任务上表现优秀,在图像领域同样取得了相当不错的效果。去年10月份Google推出的Vision Transformer (ViT),就在图像识别任务上用更高的学习效率,达到了不亚于ResNet的精度。当一个模型性...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人...

吊打BERT Large的小型预训练模型ELECTRA终于开源!真相却让人... 11

知行编程网 人工智能前沿 2年前 (2022-01-15) 90 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情,在我等到都快复工的时候,终于看到了它的身影和源码[1]: 才第五吗?没事,期望越大,失望越大 谷歌在github放出的预训练模型效果是这样的: 燃!鹅!在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大,他们测试了很多随机种子...

什么?!“路由器”也会做信息抽取了?

什么?!“路由器”也会做信息抽取了? 2

知行编程网 人工智能前沿 2年前 (2022-01-26) 2 0

前几周,一个“撞脸”路由器的联合抽取模型TPLinker横空出世,将NYT数据集的分数直接刷上了90,提高了2个百分点。卖萌屋邀请到作者雨城,来聊一聊他们在关系抽取上的工作。目前,该工作已经被COLING 2020接收。 背景 关系抽取 是从非结构化文本中抽取实体和关系的文本处理技术,属于自然语言处理中的常见任务。它是自然语言理解的基础,在智能问答、信息检索等领域有重要应用。简单来说就是给定一段文...

扫一扫二维码分享