NLP

Longformer：超越RoBERTa，为长文档而生的预训练模型 10

知行编程网人工智能前沿 2年前 (2022-01-20) 184 0

前言今天要与大家分享的是AllenAI今年发表的最新工作，Longformer——一种可高效处理长文本的升级版Transformer。作者团队提供了开源代码，大家可快速复现，直接用于自己的任务。传统Tranformer-based模型在处理长文本时有着天然的劣势。因为传统模型采用的是“全连接”型的attention机制，即每一个token都要与其他所有token进行交互。其attention复...

发现一篇专门吐槽 NLP 内卷现状的 ACL 论文 ... 12

知行编程网人工智能前沿 2年前 (2022-02-15) 59 0

随着大模型的发展，NLP领域的榜单可说是内卷到了无以复加，现在去浏览各大公开榜单，以至于各个比赛，随处可见BERT、RoBERTa的身影，甚至榜单中见到各大large模型的集成版也并非偶然。在发论文的时候，又要不断地去内卷SOTA，今天的SOTA在明天就有可能被打败，成为了过眼云烟。极端情况下，某一篇论文正在撰写，ArXiv上就突然刷新了SOTA，又足以让研究者们头疼应该怎样应对。同时，参数规模...

45个小众而实用的NLP开源字典和工具 3

知行编程网人工智能前沿 2年前 (2022-01-14) 42 0

一只小狐狸带你解锁NLP/ML/DL秘籍前言随着BERT、ERNIE、XLNet等预训练模型的流行，解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。众所周知，无论训练还是推理，预训练模型都会消耗大量的算力，且高度依赖GPU计算资源。然而，有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用，那么这时候强行上笨重的模型无异于高射炮打蚊子，性价比是非常低的。于...

开源词法分析工具LAC重大升级！打造属于自己的个性化分词器！ 3

知行编程网人工智能前沿 2年前 (2022-01-21) 48 0

本文将为大家介绍如何使用百度开源的词法分析工具LAC实现个性化分词（附代码），并展示LAC在各数据集上惊艳的性能表现。背景介绍分词是中文自然语言处理基础且重要的任务。词是表意的完整单位。“张三”这个词中，“张”其实既可以是姓也可以表“张开”之意，而“三”则常被表示为数字。但“张三”作为一个词出现在一起时，大家明确知道这表示的是个人名，故而句子经过分词后可降低理解的难度。分词也是文本检索、知识...

学完文本知识，我就直接看懂图片了！ 18

知行编程网人工智能前沿 2年前 (2022-02-16) 51 0

2020年, OpenAI的大作GPT-3 (Language Models are few shot learners) 横空出世，震惊整个NLP/AI圈。大家在惊叹于GPT-3 1750B参数的壕无人性同时，想必对GPT-3中的Prompt方法印象深刻。简单来说，(GPT-3中的)Prompt就是为输入的数据提供模板（例如对于翻译任务 Translate English to Chinese:...

中文分词的古今中外，你想知道的都在这里 30

知行编程网人工智能前沿 2年前 (2022-01-15) 16 0

一只小狐狸带你解锁NLP/ML/DL秘籍前言分词（word tokenization），也叫切词，即通过某种方式将句子中的各个词语识别并分离开来，使得文本从“字序列”的表示升级为“词序列”表示。分词技术不仅仅适用于中文，对于英文、日文、韩文等语言也同样适用。虽然英文中有天然的单词分隔符（空格），但是常有单词与其他标点黏滞的情况，比如"Hey, how are you."中的"Hey"和"yo...

打破BERT天花板：11种花式炼丹术刷爆NLP分类SOTA！ 8

知行编程网人工智能前沿 2年前 (2022-01-22) 14 0

在2020这个时间节点，对于NLP分类任务，我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样，我们更应该关注如何利用机器学习思想，更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。本文以QA形式探讨了以下问题： NLP分类任务我们每个NLPer都异常熟悉了，其在整个NLP业务中占据着举足轻重的地位，更多领域...

谷歌：一篇论文，让研究者吃我三份安利 18

知行编程网人工智能前沿 2年前 (2022-02-16) 11 0

前言计算机视觉、机器学习，这两个词会让你想到什么？相信绝大多数人第一反应都是CNN，而持续关注这些领域发展的人，则会进一步联想到近几年大火的Transformer，它不仅在自然语言相关任务上表现优秀，在图像领域同样取得了相当不错的效果。去年10月份Google推出的Vision Transformer (ViT)，就在图像识别任务上用更高的学习效率，达到了不亚于ResNet的精度。当一个模型性...

吊打BERT Large的小型预训练模型ELECTRA终于开源！真相却让人... 11

知行编程网人工智能前沿 2年前 (2022-01-15) 90 0

一只小狐狸带你解锁炼丹术&NLP 秘籍还记得去年写下《ELECTRA: 超越BERT, 19年最佳NLP预训练模型》时兴奋的心情，在我等到都快复工的时候，终于看到了它的身影和源码[1]：才第五吗？没事，期望越大，失望越大谷歌在github放出的预训练模型效果是这样的：燃！鹅！在论文中声称的效果却是这样的 Github repo中官方的解释是精调的震荡比较大，他们测试了很多随机种子...

什么？！“路由器”也会做信息抽取了？ 2

知行编程网人工智能前沿 2年前 (2022-01-26) 2 0

前几周，一个“撞脸”路由器的联合抽取模型TPLinker横空出世，将NYT数据集的分数直接刷上了90，提高了2个百分点。卖萌屋邀请到作者雨城，来聊一聊他们在关系抽取上的工作。目前，该工作已经被COLING 2020接收。背景关系抽取是从非结构化文本中抽取实体和关系的文本处理技术，属于自然语言处理中的常见任务。它是自然语言理解的基础，在智能问答、信息检索等领域有重要应用。简单来说就是给定一段文...