深度学习

从点到线：逻辑回归到条件随机场 9

知行编程网人工智能前沿 2年前 (2022-01-02) 4 0

开篇高能预警！本文前置知识： 1、理解特征函数/能量函数、配分函数的概念及其无向图表示，见《逻辑回归到受限玻尔兹曼机》和《解开玻尔兹曼机的封印》； 2、理解特征函数形式的逻辑回归模型，见《逻辑回归到最大熵模型》。从逻辑回归出发，我们已经经过了朴素贝叶斯、浅层神经网络、最大熵等分类模型。显然，分类模型是不考虑时间的，仅仅计算当前的一堆特征对应的类别。因此，分类模型是“点状”的模型。想一下，如果我...

ICLR2020满分论文 | 为什么梯度裁剪能加速模型训练？ 5

知行编程网人工智能前沿 2年前 (2022-01-18) 41 0

一只小狐狸带你解锁炼丹术&NLP 秘籍前言需要许多时间步计算的循环神经网络，如LSTM、GRU，往往存在梯度爆炸的问题。其目标函数可能存在悬崖一样斜率较大的区域，这是由于时间步上几个较大的权重相乘导致的。当参数接近这样的悬崖区域时，如果更新梯度不足够小，很有可能就会直接跳过这样的悬崖结构，然后被弹射到非常远的地方。梯度裁剪（gradient clipping），是这类问题的常用解决办...

全栈深度学习第2期: 开发套件与工具篇 2

知行编程网人工智能前沿 2年前 (2022-02-02) 5 0

一起追剧鸭简介 Berkeley全栈深度学习追剧计划是由夕小瑶的卖萌屋发起的优质公开课打卡项目，通过微信群为同期追剧的小伙伴提供交流平台。关于该计划的详请见这里。 1. Berkeley深度学习追剧群目前已有1000+小伙伴加入，公众号后台回复口令深度学习追剧入群。 2. 课程主页 https://course.fullstackdeeplearning.com 第2期内容本期是FSDL...

如何撰写一篇优秀的研究论文？这一份68页PPT告诉你 6

知行编程网人工智能前沿 2年前 (2022-03-04) 3 0

【导读】近期，Deepmind和纽约大学研究科学家一起作了一场关于如何撰写一篇优秀的研究论文的专题会议，从研究人员(通过写作来提高你自己的理解)，审稿人(避免被拒绝的常见陷阱)和读者(传达你的信息并使你的作品尽可能有影响力)的角度来探讨写作过程，值得研究人员细细品味。资源获取方式：点击阅读原文获取资源或在输入关键词“DMNYU论文撰写指导”获取资源微软首席研究员西蒙·佩顿·琼斯的7...

当混合密集网络与高光谱分类相遇~

橙子每日Arxiv 2年前 (2022-01-06) 12 0

大家好，橙子姐姐又来啦~今天给大家介绍一种高光谱分类的新方法，下面我们一起看看吧！基于混合稠密网络的高光谱图像分类注意机制光谱信息与相应对象（复杂地貌）之间的非线性关系使得像素级分类对传统方法具有挑战性。为了处理高光谱图像分类 (HISC) 中的非线性问题，卷积神经网络 (CNN) 确实更合适。然而，固定核大小使得传统的CNN过于具体，既不灵活也不利于特征学习，从而影响分类精度。不同内核大小的...

重要的，是那些训练中被多次遗忘的样本 4

知行编程网人工智能前沿 2年前 (2022-01-24) 16 0

今天跟大家分享一篇很有意思的文章，是一篇探讨深度学习模型记忆&遗忘机制的文章，是一篇角度很新颖的题材，同时又有一定启发作用。这篇文章发表在深度学习顶会ICLR19，标题是《An empirical study of example forgetting during deep neural network learning》。这篇文章是我最近看到的最有意思的文章之一了，同时我跑了这篇文...

撑起百万亿参数模型想象力！英伟达发布新一代SuperPOD超算，AI算力新巅峰！ 14

知行编程网人工智能前沿 2年前 (2022-02-07) 50 0

周一，黄教主又很淡定的在自家厨房里开完了GTC发布会。众所周知，NLP领域的模型一个比一个大，自从百亿参数的Google T5出来后，大部分AI研究者只能望着手里的蹩脚算力兴叹。如今动辄就是千亿、万亿参数模型，目前比较流行的V100主机显然已经无法满足需求。而本周刚落幕的GTC发布会，则为如今的万亿模型想象力的时代提供了一份极其重要的保障，不仅使得造万亿模型都成为了可能，甚至打开了通往十万亿乃至...

利用开放世界方案扩展一阶段检测 2

橙子每日Arxiv 2年前 (2022-01-13) 29 0

在开放集的世界里如何进行目标检测呢？下面橙子姐姐带大家一起看看一项新的工作！在许多应用中，例如自动驾驶、手动操作或机器人导航，物体检测方法必须能够检测到训练集中看不见的物体。开放世界检测 (OWD) 试图通过将检测性能推广到可见和不可见的类别来解决这个问题。最近的工作已经在生成与类别无关的建议方面取得了成功，本文称之为开放世界建议（OWP），但是当在检测模型中考虑这两个任务时，这是以分类任务的大...

测试集没标签，可以拿来测模型吗？ 10

知行编程网人工智能前沿 2年前 (2022-01-29) 122 0

背景正常情况下，我们可以用一个带标签的数据集来测试分类器的表现（称之为测试集）。然而，现实中，因为种种因素的制约（标注成本高、标注难度大等 Google：穷人不配搞机器学习），很多场景下难以求得一个规模大、标注正确率高、采样无偏的测试集。而采用人工评估的方式，往往耗时耗力，且方差极大，结果对机器学习模型的迭代速度产生了很大的制约。由此，本文提出了自动模型评估（AutoEval） ——目标是...

别再Prompt了！谷歌提出tuning新方法，强力释放GPT-3潜力！ 18

知行编程网人工智能前沿 2年前 (2022-02-16) 1,179 0

如果评选NLP圈的2020年度十大关键词，那么GPT-3（Language Models are Few shot Learners) 一定榜上有名。 GPT-3庞大的参数量，优异的性能至今仍让圈内圈外人都津津乐道，而OpenAI发布的OpenAI API，更是为自然语言处理技术的大规模可扩展商业应用提供了一个极有前景的方向。不过，作为NLP研究者，我认为GPT-3对前沿研究的最大贡献是，展现了 ...