强烈推荐!2019 年新书《基于 PyTorch 的自然语言处理》pdf 免费分享

强烈推荐!2019 年新书《基于 PyTorch 的自然语言处理》pdf 免费分享 4

知行编程网 人工智能前沿 2年前 (2022-04-30) 40 0

编辑 | 机器学习算法与自然语言处理 转载请联系原出处 本书适用于自然语言处理(NLP)和深度学习的新手学习两个领域中的一些重要的知识点。这两个领域研究热点都呈指数增加。由于本书强调深度学习和自然语言处理中的代码实现,这些代码都是基于PyTorch实现的,因此它也适用于有一定NLP和深度学习基础的人。由于深度学习和NLP两个领域中的知识点是非常丰富的,我们在编写本书的过程中,对知识点进行选择,不可...

小哥哥,检索式chatbot了解一下?

小哥哥,检索式chatbot了解一下? 26

知行编程网 人工智能前沿 2年前 (2022-01-06) 31 0

1. 扫盲 对话的概念很大,从输入形式上分为文本和语音,本文当然只考虑文本。从对话目的上分为任务型对话与非任务型/闲聊型对话。顾名思义,任务型对话就是为了解决任务而进行的对话,比如你让Siri帮你定闹钟、发短信等,而闲聊型对话当然就是human-to-human的正常聊天啦。本文就不讨论任务型对话了,有兴趣的同学可以戳这里扫扫盲,本文聚焦在非任务型对话的多轮对话问题上。 要完成对话的建模,目前主要...

陈丹琦“简单到令人沮丧”的屠榜之作:关系抽取新SOTA!

陈丹琦“简单到令人沮丧”的屠榜之作:关系抽取新SOTA! 5

知行编程网 人工智能前沿 2年前 (2022-01-26) 178 0

大家好,我是卖萌屋的JayJay,好久不见啦~ 最近在「夕小瑶@知识图谱与信息抽取」群里和群友交流时,JayJay发现了来自陈丹琦大佬(女神)的一篇最新的关系抽取SOTA《A Frustratingly Easy Approach for Joint Entity and Relation Extraction》,光看题目就让人眼前一亮:是啥子简单方法,让实体关系的联合抽取方法“沮丧”了? 仔细阅...

把数据集刷穿是什么体验?MetaQA已100%准确率

把数据集刷穿是什么体验?MetaQA已100%准确率 16

知行编程网 人工智能前沿 2年前 (2022-02-09) 42 0

文 | 炼丹学徒 编 | 小轶 开始炼丹以来,估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率,然后大吼一声:这数据集,我做到头了! 然而愿望终究是愿望。大多时候,看着自己手头上用了浑身解数才提了零点几个点的数据集,只想把它换掉。体谅到我们没吃过猪肉——最近清华大学李涓子组发表了一篇多跳问答工作TransferNet,怕是可以带大家看看猪跑了。 把数据集刷穿究竟是一种什么体验?出于...

深入深出Sigmoid与Softmax的血缘关系

深入深出Sigmoid与Softmax的血缘关系 33

知行编程网 人工智能前沿 2年前 (2021-12-29) 26 0

缘起逻辑回归 逻辑回归模型是用于二类分类的机器学习模型(不要说逻辑回归可以做多类分类啊喂,那是二类分类器的组合策略问题,而与逻辑回归分类器本身的构造没有半毛钱关系啊)。 我们知道,在逻辑回归中,用于预测样本类别的假设函数为 (小夕要讲大事,忽略偏置项参数和向量转置这种细节啦),其中sigmoid函数的图像看起来是这样的: 因此,我们将的样本预测为正类别(记为类别1),将的样本预测为负类别(记为类别...

搜索引擎核心技术与算法 —— 词项词典与倒排索引优化

搜索引擎核心技术与算法 —— 词项词典与倒排索引优化 20

知行编程网 人工智能前沿 2年前 (2022-01-14) 12 0

一只小狐狸带你解锁NLP/ML/DL秘籍 老板~我会写倒排索引啦!我要把它放进咱们自研搜索引擎啦! 我呸!你这种demo级代码,都不够当单元测试的! 嘤嘤嘤,课本上就是这样讲的呀?! 来来,带你见识一下工业级搜索引擎里的倒排索引是怎么优化的! 前言 首先回顾一下构建倒排索引的几个主要步骤: (1) 收集待建索引的文档; (2) 对这些文档中的文本进行词条化; (3) 对第2步产生的词条进行语言学预...

谷歌、CMU发文:别压榨单模型了!集成+级联上分效率更高!

谷歌、CMU发文:别压榨单模型了!集成+级联上分效率更高! 8

知行编程网 人工智能前沿 2年前 (2022-01-29) 69 0

集成模型(Ensemble)可以提升模型的精度,但往往面临提升计算量的困境,用级联模型(Cascade)在预测时提前中断则可解决计算量的问题。最近,谷歌和CMU的研究者对此进行了深入的分析,他们比较了常见深度神经网络在图像任务上集成学习的效果。他们提出,通过多个轻量级模型集成、级联可以获得相比单个大模型更高效的提分方案。 目前大家大都通过设计模型结构,或是暴力扩大模型规模来提升效果,之后再通过模型...

开局一段扯,数据全靠编?真被一篇“神论文”气到了

开局一段扯,数据全靠编?真被一篇“神论文”气到了 3

知行编程网 人工智能前沿 2年前 (2022-02-23) 7 0

看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!! 这篇文章谈一下笔者被前几天出来的一篇“神论文”气到了的经历。 这篇“神论文”是 《How not to Lie with a Benchmark: Rearranging NLP Leaderboards》 ,论文的大致内容是说目前很多排行榜算平均都用算术平均,而它认为几...

高光谱图像聚类新方法

高光谱图像聚类新方法

橙子 每日Arxiv 2年前 (2022-01-04) 33 0

稀疏子空间聚类友好深度字典学习在高光谱图像分类中的应用 子空间聚类技术在高光谱图像分割中显示出良好的应用前景。子空间聚类的基本假设是属于不同簇/段的样本位于可分离子空间中。如果这种情况不成立怎么办?下面和橙子姐姐一探究竟吧~ 本文推测,即使这个条件在原始空间中不成立,数据也可能被非线性地变换到一个空间,在那里它将被分成子空间。在这项工作中,本文提出了一种基于深度字典学习(DDL)原则的转换。特别地...

ICML2020 | 一行代码就能实现的测试集上分技巧

ICML2020 | 一行代码就能实现的测试集上分技巧 4

知行编程网 人工智能前沿 2年前 (2022-01-21) 24 0

在训练模型的时候,我们需要损失函数一直训练到0吗?显然不用。一般来说,我们是用训练集来训练模型,但希望的是验证集的损失越小越好,而正常来说训练集的损失降低到一定值后,验证集的损失就会开始上升(即过拟合),因此没必要把训练集的损失降低到0。 为了对抗这种过拟合现象,提高模型的测试集表现(即泛化能力),一种很自然的想法是提前终止(early stopping),也就是当观测到模型的验证集表现不降反升时...

扫一扫二维码分享