深度学习

文本分类问题不需要ResNet？小夕解析DPCNN设计原理（下） 12

知行编程网人工智能前沿 2年前 (2022-01-04) 71 0

哎呀呀，说好的不拖稿的又拖了两天T_T，小夕过一阵子分享给你们这两天的开心事哦。后台催稿调参系列的小伙伴们不要急，下一篇就是第二篇调参文啦。好啦，接着上一篇文章，直接搬来DPCNN、ShallowCNN、ResNet的对比图。从图中的a和c的对比可以看出，DPCNN与ResNet差异还是蛮大的。同时DPCNN的底层貌似保持了跟TextCNN一样的结构，这里作者将TextCNN的包含多尺寸卷积滤...

SIGIR20最佳论文：通往公平、公正的Learning to Rank！

知行编程网人工智能前沿 2年前 (2022-01-23) 3 0

SIGIR2020 的 best paper 终于出炉，这次获奖论文是 Controlling Fairness and Bias in Dynamic Learning-to-Rank，这是一篇排序学习（Learning to Rank，LTR）的论文。排序是匹配用户和内容（文章、视频、音乐）主要手段。在推荐和搜索场景中，目前的排序算法存在对用户和内容双方不公平的问题，针对此问题，本文提出...

谈谈怎样提高炼丹手速 4

知行编程网人工智能前沿 2年前 (2022-02-04) 4 0

最近搞定几件焦头烂额的大事后，终于有了一丢丢的时间来写写文章，并且偶尔思考下算法工程师的核心竞争力是什么。前不久一时兴起写了篇标题党文章《惊了！掌握了这个炼丹技巧的我开始突飞猛进》，简单描述了一下我的升级打怪路线图。后来想了想，发现还有一点极其重要的基本功常常被大家忽略，但确是初级&中级算法工程师之间拉开差距的重要因素，那就是：手速。手速有什么用呢？假如一件事情工程量较大（大型实验 ...

利用光学卫星图像探测云雪的多分辨率全卷积网络

橙子每日Arxiv 2年前 (2022-01-11) 20 0

今天和橙子姐姐一起看一下遇到云雨卫星图像如何处理吧~ 云和雪在可见光和近红外 (VNIR) 范围内具有相似的光谱特征，因此在高分辨率 VNIR 图像中难以相互区分。本文通过引入短波红外 (SWIR) 波段来解决这个问题，其中云具有高反射性，而雪具有吸收性。由于与 VNIR 相比，SWIR 通常具有较低的分辨率，因此本研究提出了一种多分辨率全卷积神经网络 (FCN)，可以有效地检测 VNIR 图像中...

我拿乐谱训了个语言模型！ 7

知行编程网人工智能前沿 2年前 (2022-01-28) 8 0

最近在刷EMNLP论文的时候发现一篇非常有趣的论文《Learning Music Helps You Read: Using Transfer to Study Linguistic Structure in Language Models》，来自斯坦福大学NLP组。论文有趣的发现是让语言模型先在乐谱上进行训练，再在自然语言上训练可以有效的提升语言模型的性能。在看了一大堆BERT-based的模型...

深度学习，路在何方？ 3

知行编程网人工智能前沿 2年前 (2022-02-13) 12 0

文 | Severus 最近，AI领域的三位图灵奖获得者Yoshua Bengio、Yann LeCun和Geoffrey Hinton共同发表了一篇文章，名为Deep Learning for AI，文中讨论了深度学习的起源、发展、成就及未来。文章标题： Deep Learning for AI 原文链接： https://cacm.acm.org/magazines/2021/7/25346...

线性代数应该这样讲（二） 17

知行编程网人工智能前沿 2年前 (2021-12-31) 1 0

在《...（一）》中，小夕从映射的角度讲解了矩阵及矩阵运算，这也是机器学习中看待矩阵的非常重要的视角。另一方面说，矩阵当然也是用于存储数据的数据结构，这也是最好理解的形式。另外还可以看做是一个线性方程组（课本上讲烂了的开头），甚至可以将其仅仅看做一般化的张量（tensor）中的一个普通切片（slice），或者说其中一层。所以矩阵代表什么含义，要在不同的场景中灵活对待，不要局限在一种视角哦。 ...

硬核推导Google AdaFactor：一个省显存的宝藏优化器 2

知行编程网人工智能前沿 2年前 (2022-01-17) 66 0

一只小狐狸带你解锁炼丹术&NLP秘籍前言自从GPT、BERT等预训练模型流行起来后，其中一个明显的趋势是模型越做越大，因为更大的模型配合更充分的预训练通常能更有效地刷榜。不过，理想可以无限远，现实通常很局促，有时候模型太大了，大到哪怕你拥有了大显存的GPU甚至TPU，依然会感到很绝望。比如GPT2最大的版本有15亿参数，最大版本的T5模型参数量甚至去到了110亿，这等规模的模型，哪怕在...

追剧计划第三弹！UC Berkeley出品，全栈深度学习！ 4

知行编程网人工智能前沿 2年前 (2022-02-02) 8 0

关注卖萌屋比较早的小伙伴，大概还记得2020年初时我们组织的斯坦福大学CS224N自然语言处理公开课追剧计划，以及后来的斯坦福大学CS520知识图谱公开课追剧活动。尽管活动已经结束很长一段时间，但是仍然有小伙伴后台问“什么时候开始下一波追剧哇”。终于，万能的卖萌屋又帮大家发现了一门很赞的公开课！这次是UC Berkeley大学出品的全栈深度学习（Full Stack Deep Learning...