深度学习

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（上） 4

知行编程网人工智能前沿 2年前 (2022-01-04) 55 0

历史回顾回顾一下图像和文本的发展史，似乎这就是一场你追我赶的游戏。在上一阶段的斗争中，朴素贝叶斯、最大熵、条件随机场这些理论完备的统计机器学习模型使得文本分类、中文分词、NER等诸多自然语言处理问题取得了差强人意（释义：基本使人满意。顺带嘲讽一波误用该词的媒体们(￣∇￣)）的性能，而这些理论完备的模型却在图像分类这种基本的计算机视觉问题上都严重碰壁。如今深度学习，或者具体点说卷积神经网络（CN...

你的模型真的陷入局部最优点了吗？ 14

知行编程网人工智能前沿 2年前 (2022-01-03) 51 0

小夕曾经收到过一个提问：“小夕，我的模型总是在前几次迭代后很快收敛了，陷入到了一个局部最优点，怎么也跳不出来，怎么办？” 本文不是单纯对这个问题的回答，不是罗列工程tricks，而是希望从理论层面上对产生类似疑问的人有所启发。真的结束于最优点吗？我们知道，在局部最优点附近，各个维度的导数都接近0，而我们训练模型最常用的梯度下降法又是基于导数与步长的乘积去更新模型参数的，因此一旦陷入了局部最...

论文投稿新规则，不用跑出SOTA，还能“内定”发论文？！ 15

知行编程网人工智能前沿 2年前 (2022-02-09) 50 0

从5月初开始，CV圈似乎开始了一阵MLP“文艺复兴”的热潮：在短短4天时间里，来自谷歌、清华、牛津、Facebook四个顶级研究机构的研究者分别独立发布了4篇关于MLP结构在图像任务上取得不错效果的论文。虽然研究本身令人兴奋，但发表的过程却让人一言难尽：来自牛津的小哥Luke就在reddit上抱怨到他正在进行的实验被谷歌的MLP-Mixer抢先发表（scoop）了，所以他正在撰写的实验总结也只能以...

撑起百万亿参数模型想象力！英伟达发布新一代SuperPOD超算，AI算力新巅峰！ 14

知行编程网人工智能前沿 2年前 (2022-02-07) 50 0

周一，黄教主又很淡定的在自家厨房里开完了GTC发布会。众所周知，NLP领域的模型一个比一个大，自从百亿参数的Google T5出来后，大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型，目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会，则为如今的万亿模型想象力的时代提供了一份极其重要的保障，不仅使得造万亿模型都成为了可能，甚至打开了通往十万亿乃至...

再介绍一篇Contrastive Self-supervised Learning综述论文 23

知行编程网人工智能前沿 2年前 (2022-01-29) 49 0

之前已经介绍过三篇自监督学习的综述：《怎样缓解灾难性遗忘？持续学习最新综述三篇！》。这是最近2020年10月arXiv上的又一篇论文"A Survey On Contrastive Self-supervised Learning"。论文地址： https://arxiv.org/pdf/2011.00362.pdf Arxiv访问慢的小伙伴也可以在【夕小瑶的卖萌屋】订阅号后台回复关键词【122...

搜索引擎核心技术与算法 —— 倒排索引初体验 6

知行编程网人工智能前沿 2年前 (2022-01-11) 48 0

今天开启一个新篇章——智能搜索与NLP。本篇章将由羸弱菜鸡小Q和大家一同学习与智能搜索相关的知识和技术，希望能和大家一同学习与进步，冲鸭！！这里首先区分两个概念：搜索和检索检索：数据库时代的概念，及将数据存入数据库，有需要的时候进行查取。对结果的要求绝对精确；比如我要在图书馆里找到所有出现“白马”字样的图书，这里用到的就是检索。搜索：互联网时代的概念，人们将信息资源放在网上，第三方将互联网的...

把数据集刷穿是什么体验？MetaQA已100%准确率 16

知行编程网人工智能前沿 2年前 (2022-02-09) 42 0

文 | 炼丹学徒编 | 小轶开始炼丹以来，估计很多小伙伴都和我一样幻想过直接把数据集做到 100% 准确率，然后大吼一声：这数据集，我做到头了！然而愿望终究是愿望。大多时候，看着自己手头上用了浑身解数才提了零点几个点的数据集，只想把它换掉。体谅到我们没吃过猪肉——最近清华大学李涓子组发表了一篇多跳问答工作TransferNet，怕是可以带大家看看猪跑了。把数据集刷穿究竟是一种什么体验？出于...

45个小众而实用的NLP开源字典和工具 3

知行编程网人工智能前沿 2年前 (2022-01-14) 42 0

一只小狐狸带你解锁NLP/ML/DL秘籍前言随着BERT、ERNIE、XLNet等预训练模型的流行，解决NLP问题时不用上预训练模型似乎总显得自己有点过时。但是这显然是不对的。众所周知，无论训练还是推理，预训练模型都会消耗大量的算力，且高度依赖GPU计算资源。然而，有很多的NLP问题实际上仅仅靠字典+规则就可以做到够用，那么这时候强行上笨重的模型无异于高射炮打蚊子，性价比是非常低的。于...

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练？ 5

知行编程网人工智能前沿 2年前 (2022-01-18) 41 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言需要许多时间步计算的循环神经网络，如LSTM、GRU，往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域，这是由于时间步上几个较大的权重相乘导致的。当参数接近这样的悬崖区域时，如果更新梯度不足够小，很有可能就会直接跳过这样的悬崖结构，然后被弹射到非常远的地方。梯度裁剪（gradient clipping），是这类问题的常用解决办...

强烈推荐！2019 年新书《基于 PyTorch 的自然语言处理》pdf 免费分享 4

知行编程网人工智能前沿 2年前 (2022-04-30) 40 0

编辑 | 机器学习算法与自然语言处理转载请联系原出处本书适用于自然语言处理(NLP)和深度学习的新手学习两个领域中的一些重要的知识点。这两个领域研究热点都呈指数增加。由于本书强调深度学习和自然语言处理中的代码实现，这些代码都是基于PyTorch实现的，因此它也适用于有一定NLP和深度学习基础的人。由于深度学习和NLP两个领域中的知识点是非常丰富的，我们在编写本书的过程中，对知识点进行选择，不可...