陈丹琦“简单到令人沮丧”的屠榜之作:关系抽取新SOTA! 5
大家好,我是卖萌屋的JayJay,好久不见啦~ 最近在「夕小瑶@知识图谱与信息抽取」群里和群友交流时,JayJay发现了来自陈丹琦大佬(女神)的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》,光看题目就让人眼前一亮:是啥子简单方法,让实体关系的联合抽取方法“沮丧”了? 仔细阅...
大家好,我是卖萌屋的JayJay,好久不见啦~ 最近在「夕小瑶@知识图谱与信息抽取」群里和群友交流时,JayJay发现了来自陈丹琦大佬(女神)的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》,光看题目就让人眼前一亮:是啥子简单方法,让实体关系的联合抽取方法“沮丧”了? 仔细阅...
为什么“单词”被省略了:单词的本质是含义简单且可以高频重复的信息,句子的本质是经过多个单词不断消歧最终包含指向性含义的信息。从基因角度来看,大的片段相当于句子,对这些片段再分段起单词作用,密码子(每三个核苷酸)对应一个氨基酸,本质上还是字母。从蛋白质角度来看,二级结构中由氢键造成的较为规律的折叠、螺旋可以视作单词,能实现特定功能的蛋白质才称得上句子。 参考文献 理论基础,思想很重要,但论证得并不好...
背景 当前,大部分中文预训练模型都是以字为基本单位的,也就是说中文语句会被拆分为一个个字。中文也有一些多粒度的语言模型,比如创新工场的ZEN和字节跳动的AMBERT,但这类模型的基本单位还是字,只不过想办法融合了词信息。目前以词为单位的中文预训练模型很少,据笔者所了解到就只有腾讯UER开源了一个以词为颗粒度的BERT模型,但实测效果并不好。 那么,纯粹以词为单位的中文预训练模型效果究竟如何呢?有没...
近年来,引入词汇信息逐渐成为提升中文NER指标的重要手段。ACL2020中一篇来自复旦大学邱锡鹏老师团队的 FLAT: Chinese NER Using Flat-Lattice Transformer 刷新了中文NER任务的新SOTA。 如上图所示,在MSRA-NER任务中,FLAT+BERT登顶榜首;而单独的FLAT(1层TransFormer)也超越了预训练模型ERNIE。相比于之前引入词...
导读:今天分享一下 Facebook 发表在 KDD2020 的一篇关于社交网络搜索中的 embedding 检索问题的工作,干货很多,推荐一读。 论文题目: Embedding-based Retrieval in Facebook Search 论文链接: https://arxiv.org/abs/2006.11632 Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【...
本文整理了斯坦福大学 CS 520 知识图谱研讨会课程的第 10 集的内容,主要是关于知识图谱未来的研究方向,推荐给研究知识图谱的同学们~ 1 使用强化学习进行多跳知识图谱推理 第一位演讲者:Richard Sochar Richard 认为知识图谱未来的一个重要研究方向是使用强化学习进行多跳知识图谱推理。 知识图谱的缺陷之一是不完整性,即知识图谱能存储的事实是有限的。对于知识图谱的重要应用——聊...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 文本生成目前的一大瓶颈是如何客观,准确的评价机器生成文本的质量。一个好的评价指标(或者设置合理的损失函数)不仅能够高效的指导模型拟合数据分布,还能够客观的让人评估文本生成模型的质量,从而进一步推动text generation 商业化能力。 然而由于语言天生的复杂性和目前技术限制,我们目前还没有一个完美的评价指标。 本文就三方面对文本生成的评...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 背景 搜索和推荐经常会被放在一起对比,其中最突出的区别就是搜索中存在query,需要充分考虑召回内容和query之间的相关性,而如果内容是搜索广告,则对内容有更高的要求,相关性过低的内容被展示会让用户有很差的体验。 相关性在一定程度上可以被抽象成doc和query之间的语义相似度问题,其实当前语义相似度的研究已经非常成熟,在sigir2018中有人...
一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 自然语言处理是人工智能领域的掌上明珠,而人机对话则是自然语言处理领域的最终极一环。 以BERT为代表的预训练模型为自然语言处理领域带来了新的春天,在人机对话问题上也不例外。检索式多轮对话任务中,最有名的对话数据集就是Ubuntu Dialogue Corpus了,ACL2018提出的DAM是76.7%的,然而基于BERT来做却直接刷到了85....
一只小狐狸带你解锁NLP/ML/DL秘籍 老板老板,听说BERT是个瞎子 此话怎讲? 它能理解语言,但是理解不了小夕的自拍! video-BERT了解一下 喵喵喵? AI的三大核心板块(CV/Speech/NLP)近几年都相继取得了非常大的发展和进步。但是正所谓成也萧何,败也萧何,深度学习一直在能力泛化和鲁棒性问题上饱受诟病,通用AI之路遥遥无期。 不过,近期得益于预训练模型的成功,似乎跨模态问题...
推广返利