最新的自然语言理解领域分类的无超参数连续学习

最新的自然语言理解领域分类的无超参数连续学习 2

橙子 每日Arxiv 2年前 (2022-01-07) 9 0

Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding 今天,橙子姐姐带大家了解下NLP相关知识,我们一起来看一下吧~ 领域分类是自然语言理解 (NLU) 的基本任务,它通常需要快速适应新兴领域。这种约束使得不可能重新训练所有以前的域,即使它们可以被新模型...

文本分类问题不需要ResNet?小夕解析DPCNN设计原理(下)

文本分类问题不需要ResNet?小夕解析DPCNN设计原理(下) 12

知行编程网 人工智能前沿 2年前 (2022-01-04) 71 0

哎呀呀,说好的不拖稿的又拖了两天T_T,小夕过一阵子分享给你们这两天的开心事哦。后台催稿调参系列的小伙伴们不要急,下一篇就是第二篇调参文啦。 好啦,接着上一篇文章,直接搬来DPCNN、ShallowCNN、ResNet的对比图。 从图中的a和c的对比可以看出,DPCNN与ResNet差异还是蛮大的。同时DPCNN的底层貌似保持了跟TextCNN一样的结构,这里作者将TextCNN的包含多尺寸卷积滤...

最新颖的动态场景去模糊方法

最新颖的动态场景去模糊方法

橙子 每日Arxiv 2年前 (2022-01-05) 16 0

今天橙子姐姐带大家了解一种最新颖的动态场景去模糊方法,做去模糊的小伙伴不要错过啊! 本文解决了动态场景去模糊的问题。尽管端到端完全卷积设计最近在非均匀运动去模糊方面取得了最新进展,但它们的性能-复杂性权衡仍然不是最佳的。现有方法通过简单地增加通用卷积层的数量、内核大小来实现大的感受野,这伴随着模型大小和推理速度增加的负担。在这项工作中,本文提出了一种有效的像素自适应和特征细心的设计,用于处理不同图...

动手做个DialoGPT:生成式多轮对话模型

动手做个DialoGPT:生成式多轮对话模型 3

知行编程网 人工智能前沿 2年前 (2022-01-24) 36 0

前段时间刷Arixv的时候,发现清华大学开源了一个大规模的中文闲聊语料库LCCC,从开源的文件上来看,这可能是目前开源的数量最大、质量最好的闲聊语料库了,而且还包含了部分多轮对话聊天,总的来说可玩性还是蛮强的。笔者也被它吸引到了,尝试着用它来训练了一个闲聊对话模型,结果看上去还是不错的,在此分享一下自己的经验。 论文名称: 《A Large-Scale Chinese Short-Text Con...

这篇论文提出了一个文本<->知识图谱的格式转换器...

这篇论文提出了一个文本<->知识图谱的格式转换器... 21

知行编程网 人工智能前沿 2年前 (2022-02-06) 67 0

Hello, 大家好,我是小花。今天给大家介绍一篇有野心的paper。为何如此说呢?因为该工作提出了一个知识的格式转换器,用于转换 无结构化的纯文本(Text)和结构化的知识图谱(KG) 。换句话说,给模型一打句子,它能够将其转换为一个图。图中的节点是句子中的关键信息,边表示不同节点的关系。反过来,给模型一个图,它能将其格式化为流畅的自然语言。 举个例子,就是实现下面句子和图之间的格式转换: Th...

搜索引擎核心技术与算法 —— 倒排索引初体验

搜索引擎核心技术与算法 —— 倒排索引初体验 6

知行编程网 人工智能前沿 2年前 (2022-01-11) 48 0

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术,希望能和大家一同学习与进步,冲鸭!! 这里首先区分两个概念:搜索和检索 检索:数据库时代的概念,及将数据存入数据库,有需要的时候进行查取。对结果的要求绝对精确;比如我要在图书馆里找到所有出现“白马”字样的图书,这里用到的就是检索。 搜索:互联网时代的概念,人们将信息资源放在网上,第三方将互联网的...

谈谈工业界落地能力最强的机器学习算法

谈谈工业界落地能力最强的机器学习算法

知行编程网 人工智能前沿 2年前 (2022-01-28) 35 0

尽管BERT为代表的预训练模型大肆流行,但是身处工业界才会知道它落地有多难,尤其是QPS动辄几百的在线推荐、搜索系统,哪怕在大厂也很难在线上系统见到它们。 今天就想反其道而行之,谈谈工业界搜索、推荐、广告这类核心场景中落地能力最强的算法(之一):因子分解机(FM)。我不敢说它是最简单的(FM的确很简单),但是作为一个推荐算法调参工程师,掌握FM一定是性价比最高的。我推崇FM算法的原因,有以下三点:...

恕我直言,你的实验结论可能严重依赖随机数种子!

恕我直言,你的实验结论可能严重依赖随机数种子! 17

知行编程网 人工智能前沿 2年前 (2022-02-15) 60 0

God does not play dice with the universe ...... But BERT Does ! 包括BERT在内的预训练模型已经是现今NLP工作的标配。但你有没有考虑过,这些工作的实验结论可能都是虚假的?在 Bertology 中,大家从 huggingface 上下载 Google 训好的模型,在精调中结合改进,并应用于下游任务。所有的工作都是基于一组特定的初始化...

从点到线:逻辑回归到条件随机场

从点到线:逻辑回归到条件随机场 9

知行编程网 人工智能前沿 2年前 (2022-01-02) 4 0

开篇高能预警!本文前置知识: 1、理解特征函数/能量函数、配分函数的概念及其无向图表示,见《逻辑回归到受限玻尔兹曼机》和《解开玻尔兹曼机的封印》; 2、理解特征函数形式的逻辑回归模型,见《逻辑回归到最大熵模型》。 从逻辑回归出发,我们已经经过了朴素贝叶斯、浅层神经网络、最大熵等分类模型。显然,分类模型是不考虑时间的,仅仅计算当前的一堆特征对应的类别。因此,分类模型是“点状”的模型。 想一下,如果我...

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练?

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练? 5

知行编程网 人工智能前沿 2年前 (2022-01-18) 41 0

一只小狐狸带你解锁 炼丹术&NLP 秘籍 前言 需要许多时间步计算的循环神经网络,如LSTM、GRU,往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域,这是由于时间步上几个较大的权重相乘导致的。当参数接近这样的悬崖区域时,如果更新梯度不足够小,很有可能就会直接跳过这样的悬崖结构,然后被弹射到非常远的地方。梯度裁剪(gradient clipping),是这类问题的常用解决办...

扫一扫二维码分享