NLP

ACL20 | 让笨重的BERT问答匹配模型变快！ 10

知行编程网人工智能前沿 2年前 (2022-01-18) 33 0

一只小狐狸带你解锁炼丹术&NLP秘籍背景 BERT、XLNet、RoBERTa等基于Transformer[1]的预训练模型推出后，自然语言理解任务都获得了大幅提升。问答任务（Question Answering，QA）[2]也同样取得了很大的进步。用BERT类模型来做问答或阅读理解任务，通常需要将问题和问题相关文档拼接一起作为输入文本，然后用自注意力机制对输入文本进行多层交互编码，之...

开源词法分析工具LAC重大升级！打造属于自己的个性化分词器！ 3

知行编程网人工智能前沿 2年前 (2022-01-21) 48 0

本文将为大家介绍如何使用百度开源的词法分析工具LAC实现个性化分词（附代码），并展示LAC在各数据集上惊艳的性能表现。背景介绍分词是中文自然语言处理基础且重要的任务。词是表意的完整单位。“张三”这个词中，“张”其实既可以是姓也可以表“张开”之意，而“三”则常被表示为数字。但“张三”作为一个词出现在一起时，大家明确知道这表示的是个人名，故而句子经过分词后可降低理解的难度。分词也是文本检索、知识...

打破BERT天花板：11种花式炼丹术刷爆NLP分类SOTA！ 8

知行编程网人工智能前沿 2年前 (2022-01-22) 14 0

在2020这个时间节点，对于NLP分类任务，我们的关注重点早已不再是如何构造模型、拘泥于分类模型长什么样子了。如同CV领域当前的重点一样，我们更应该关注如何利用机器学习思想，更好地去解决NLP分类任务中的低耗时、小样本、鲁棒性、不平衡、测试检验、增量学习、长文本等问题。本文以QA形式探讨了以下问题： NLP分类任务我们每个NLPer都异常熟悉了，其在整个NLP业务中占据着举足轻重的地位，更多领域...

NLP太卷，我去研究蛋白质了~ 16

知行编程网人工智能前沿 2年前 (2022-01-26) 7 0

为什么“单词”被省略了：单词的本质是含义简单且可以高频重复的信息，句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看，大的片段相当于句子，对这些片段再分段起单词作用，密码子（每三个核苷酸）对应一个氨基酸，本质上还是字母。从蛋白质角度来看，二级结构中由氢键造成的较为规律的折叠、螺旋可以视作单词，能实现特定功能的蛋白质才称得上句子。参考文献理论基础，思想很重要，但论证得并不好...

GPT-3诞生，Finetune也不再必要了！NLP领域又一核弹！ 5

知行编程网人工智能前沿 2年前 (2022-01-17) 27 0

一只小狐狸带你解锁炼丹术&NLP秘籍 2018年10月推出的BERT一直有着划NLP时代的意义，然而还有一个让人不能忽略的全程陪跑模型——OpenAI GPT（Generative Pre-Training）在以它的方式坚持着，向更通用的终极目标进发。最初的GPT只是一个12层单向的Transformer，通过预训练+精调的方式进行训练，BERT一出来就被比下去了。之后2019年初的GP...

工业界求解NER问题的12条黄金法则

知行编程网人工智能前沿 2年前 (2022-01-20) 222 0

众所周知，命名实体识别（Named Entity Recognition，NER）是一项基础而又重要的NLP词法分析任务，也往往作为信息抽取、问答系统、机器翻译等方向的或显式或隐式的基础任务。在很多人眼里，NER似乎只是一个书本概念，跟句法分析一样存在感不强。一方面是因为深度学习在NLP领域遍地开花，使得智能问答等曾经复杂的NLP任务，变得可以端到端学习，于是分词、词性分析、NER、句法分析等曾经...

NLP未来，路在何方？12位巨佬联名指路！ 7

知行编程网人工智能前沿 2年前 (2022-01-27) 8 0

CMU、华盛顿大学、南加州大学、MIT、MILA、密歇根大学、爱丁堡大学、DeepMind、伯克利、Apple…如果我说来自这些地方的dalao共同发表了一篇文章，你相信么？但别惊讶，在即将召开的EMNLP'20的长文列表里，我们就真找到了这样一篇“奇文”。一篇论文引得众星云集，那解决的必然不是小问题。这不，作者也很贴心地把他们所希望解决的问题斜体独行地放在了论文的首栏里—— Where is N...

如何打造高质量的NLP数据集

知行编程网人工智能前沿 2年前 (2022-01-07) 16 0

无论是做研究还是解决业务问题，做数据集都是绕不开的问题。很多刚入行的同学觉得发布一个数据集是最容易灌水的了，燃鹅如果你真的做过就会发现，随意产生一个数据集很容易，但是若以解决实际问题或让大家能在上面磕盐玩耍为目的，来产生一个能用的、质量高的、难度适中的数据集一点都不容易，超级费时费脑子甚至费钱好不好(╯°□°）╯︵┻━┻ 虽然并没有刻意的研究数据集该怎么做，不过因为项目或研究需要，已经被赶鸭子上架...

一句话超短摘要，速览752篇EMNLP论文 2

知行编程网人工智能前沿 2年前 (2022-01-26) 46 0

今年的EMNLP今天开始召开啦，不知道大家的论文列表都刷完没有呀~ 什么？论文太多，看不过来，怎么办？看了论文题目还是不知道讲的是什么，怎么办？别担心，今天阿花给大家带来一个刷论EMNLP论文列表的利器，帮助大家划重点啦！那就是Paper Digest团队给大家提供的 “One sentence highlight for every EMNLP-2020 Paper”。 Paper Diges...

45个小众而实用的NLP开源字典和工具 3

知行编程网人工智能前沿 2年前 (2022-01-14) 42 0

一只小狐狸带你解锁NLP/ML/DL秘籍前言随着BERT、ERNIE、XLNet等预训练模型的流行，解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。众所周知，无论训练还是推理，预训练模型都会消耗大量的算力，且高度依赖GPU计算资源。然而，有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用，那么这时候强行上笨重的模型无异于高射炮打蚊子，性价比是非常低的。于...