文本分类问题不需要ResNet?小夕解析DPCNN设计原理(下)

文本分类问题不需要ResNet?小夕解析DPCNN设计原理(下) 12

知行编程网 人工智能前沿 2年前 (2022-01-04) 71 0

哎呀呀,说好的不拖稿的又拖了两天T_T,小夕过一阵子分享给你们这两天的开心事哦。后台催稿调参系列的小伙伴们不要急,下一篇就是第二篇调参文啦。 好啦,接着上一篇文章,直接搬来DPCNN、ShallowCNN、ResNet的对比图。 从图中的a和c的对比可以看出,DPCNN与ResNet差异还是蛮大的。同时DPCNN的底层貌似保持了跟TextCNN一样的结构,这里作者将TextCNN的包含多尺寸卷积滤...

最新的自然语言理解领域分类的无超参数连续学习

最新的自然语言理解领域分类的无超参数连续学习 2

橙子 每日Arxiv 2年前 (2022-01-07) 7 0

Hyperparameter-free Continuous Learning for Domain Classification in Natural Language Understanding 今天,橙子姐姐带大家了解下NLP相关知识,我们一起来看一下吧~ 领域分类是自然语言理解 (NLU) 的基本任务,它通常需要快速适应新兴领域。这种约束使得不可能重新训练所有以前的域,即使它们可以被新模型...

SIGIR20最佳论文:通往公平、公正的Learning to Rank!

SIGIR20最佳论文:通往公平、公正的Learning to Rank!

知行编程网 人工智能前沿 2年前 (2022-01-23) 3 0

SIGIR2020 的 best paper 终于出炉,这次获奖论文是 Controlling Fairness and Bias in Dynamic Learning-to-Rank,这是一篇 排序学习(Learning to Rank,LTR) 的论文。 排序是匹配用户和内容(文章、视频、音乐)主要手段。在推荐和搜索场景中,目前的排序算法存在对用户和内容双方不公平的问题,针对此问题,本文提出...

谈谈怎样提高炼丹手速

谈谈怎样提高炼丹手速 4

知行编程网 人工智能前沿 2年前 (2022-02-04) 4 0

最近搞定几件焦头烂额的大事后,终于有了一丢丢的时间来写写文章,并且偶尔思考下算法工程师的核心竞争力是什么。 前不久一时兴起写了篇标题党文章《惊了!掌握了这个炼丹技巧的我开始突飞猛进》,简单描述了一下我的升级打怪路线图。后来想了想,发现还有一点极其重要的基本功常常被大家忽略,但确是初级&中级算法工程师之间拉开差距的重要因素,那就是:手速。 手速有什么用呢? 假如一件事情工程量较大(大型实验 ...

利用光学卫星图像探测云雪的多分辨率全卷积网络

利用光学卫星图像探测云雪的多分辨率全卷积网络

橙子 每日Arxiv 2年前 (2022-01-11) 20 0

今天和橙子姐姐一起看一下遇到云雨卫星图像如何处理吧~ 云和雪在可见光和近红外 (VNIR) 范围内具有相似的光谱特征,因此在高分辨率 VNIR 图像中难以相互区分。本文通过引入短波红外 (SWIR) 波段来解决这个问题,其中云具有高反射性,而雪具有吸收性。由于与 VNIR 相比,SWIR 通常具有较低的分辨率,因此本研究提出了一种多分辨率全卷积神经网络 (FCN),可以有效地检测 VNIR 图像中...

我拿乐谱训了个语言模型!

我拿乐谱训了个语言模型! 7

知行编程网 人工智能前沿 2年前 (2022-01-28) 8 0

最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》,来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型...

深度学习,路在何方?

深度学习,路在何方? 3

知行编程网 人工智能前沿 2年前 (2022-02-13) 12 0

文 | Severus 最近,AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章,名为Deep Learning for AI,文中讨论了深度学习的起源、发展、成就及未来。 文章标题: Deep Learning for AI 原文链接: https://cacm.acm.org/magazines/2021/7/25346...

线性代数应该这样讲(二)

线性代数应该这样讲(二) 17

知行编程网 人工智能前沿 2年前 (2021-12-31) 1 0

在《...(一)》中,小夕从映射的角度讲解了矩阵及矩阵运算,这也是机器学习中看待矩阵的非常重要的视角。   另一方面说,矩阵当然也是用于存储数据的数据结构,这也是最好理解的形式。另外还可以看做是一个线性方程组(课本上讲烂了的开头),甚至可以将其仅仅看做一般化的张量(tensor)中的一个普通切片(slice),或者说其中一层。所以矩阵代表什么含义,要在不同的场景中灵活对待,不要局限在一种视角哦。 ...

硬核推导Google AdaFactor:一个省显存的宝藏优化器

硬核推导Google AdaFactor:一个省显存的宝藏优化器 2

知行编程网 人工智能前沿 2年前 (2022-01-17) 66 0

一只小狐狸带你解锁炼丹术&NLP秘籍 前言 自从GPT、BERT等预训练模型流行起来后,其中一个明显的趋势是模型越做越大,因为更大的模型配合更充分的预训练通常能更有效地刷榜。不过,理想可以无限远,现实通常很局促,有时候模型太大了,大到哪怕你拥有了大显存的GPU甚至TPU,依然会感到很绝望。比如GPT2最大的版本有15亿参数,最大版本的T5模型参数量甚至去到了110亿,这等规模的模型,哪怕在...

追剧计划第三弹!UC Berkeley出品,全栈深度学习!

追剧计划第三弹!UC Berkeley出品,全栈深度学习! 4

知行编程网 人工智能前沿 2年前 (2022-02-02) 8 0

关注卖萌屋比较早的小伙伴,大概还记得2020年初时我们组织的斯坦福大学CS224N自然语言处理公开课追剧计划,以及后来的斯坦福大学CS520知识图谱公开课追剧活动。尽管活动已经结束很长一段时间,但是仍然有小伙伴后台问“什么时候开始下一波追剧哇”。 终于,万能的卖萌屋又帮大家发现了一门很赞的公开课!这次是UC Berkeley大学出品的 全栈深度学习(Full Stack Deep Learning...

扫一扫二维码分享