Glance and Focus: 通用、高效的神经网络自适应推理框架

知行编程网 2022-07-07 18:00 知行编程网 | 隐藏边栏 | 抢沙发 | 24 0

文章评分 0 次，平均分 0.0 ：

作者 | 王语霖

来自 | AI科技评论编辑 | 陈大鑫

本文介绍一篇NeurIPS 2020录用的一篇论文：《Glance and Focus: a Dynamic Approach to Reducing Spatial Redundancy in Image Classiﬁcation》。

这项论文提出了一个通用于绝大多数CNN的自适应推理框架，其效果比较明显，在同等精度的条件下，将MobileNetV3的平均推理速度加快了30%，将ResNet/DenseNet加速了3倍以上，且在iPhone XS Max上的实际测速和理论结果高度吻合。此外，它的计算开销可以简单地动态在线调整，无需额外训练。

下面一张图可以概括这篇论文做的事情：

将图像识别建模为序列决策过程，先将缩略图输入神经网络（Glance），再不断选择最关键的图像区域进行处理（Focus，利用强化学习实现），直至网络产生一个足够可信的预测结果时停止；对于简单和困难的样本分配不同的计算资源，以提升整体效率。

图1 Glance and Focus Network (GFNet) 效果图

论文链接：https://arxiv.org/pdf/2010.05300.pdf

代码和预训练模型链接：

https://github.com/blackfeather-wang/GFNet-Pytorch

论文第一作者：

王语霖，清华大学自动化系直博二年级，导师为吴澄院士和黄高助理教授，研究兴趣为深度学习与计算机视觉，在NeurIPS 2019/2020以第一作者发表两篇学术论文。

个人主页：https://www.rainforest-wang.cool

以下是论文作者对本文的亲自解读：

研究动机及简介

在基于卷积神经网络（CNN）的图像任务中，提升网络效果的一个有效方法是使用高分辨率的输入，例如，在ImageNet分类任务上，近年来的最新网络（DenseNet, SENet, EfficientNet）往往需要使用224x224或更大的输入图片以取得最佳性能：

然而，这种方式会带来较大的计算开销，因为推理CNN所需的计算量（FLOPs）基本与像素数目成正比，即与图形的长、宽成二次关系，如下图所示：

图2 CNN计算量与图片长/宽的关系

在实际应用（例如手机APP、自动驾驶系统、图片搜索引擎）中，计算量往往正比于能耗或者时间开销，显然，无论出于成本因素还是从安全性和用户体验的角度考虑，网络的计算开销都应当尽可能小。

那么，如何在保留高分辨率输入所带来的好处的同时，减小其计算开销呢？

事实上，我们可以借助神经网络的一个有趣的性质。

与人类视觉相似，神经网络往往可以通过仅仅处理图像中与任务相关的一小部分区域而得到正确的结果，例如在下图中，遮挡住屋顶、飞鸟或花朵之外的部分，神经网络仍然可以得到正确的分类结果：

图3 部分关键信息足以使神经网络做出可靠的判断

这便是本文所提出方法的出发点，我们的目标是，对于输入图片，自适应地找到其与任务最相关的区域，进而通过使神经网络只处理这些区域，以尽可能小的计算量得到可信的结果。

具体而言，我们采用的方法是，将一张分辨率较高的图片表征为若干个包含其关键部分的“小块”（Patch），而后仅将这些小块输入神经网络。

以下面的示意图为例，将一张224x224的图片分解为3个96x96的Patch进行处理所需的计算量仅为原图的55.2%。

图4 Glance and Focus Network (GFNet) 的基本建模方式

方法详述

为了实现上述目的，事实上，有两个显然的困难：

(a) 任意给定一张输入图片，如何判断其与任务最相关的区域在哪里呢？

(b) 考虑到我们的最终目的是使神经网络得到正确的预测结果，不同输入所需的计算量是不一样的。

例如对于下面所示的两个输入图片，神经网络可能仅需要处理一个patch就能识别出特征非常突出的月亮，但是需要处理更多的patch才能分辨出猫咪的具体品种。

图5 对于不同输入，应分配不同大小的计算资源

为了解决这两个问题，我们设计了一个Glance and Focus的框架，将这一思路建模为了一个序列决策过程，如下图所示。

图6 Glance and Focus Network (GFNet) 的基本框架

其具体执行流程为：

首先，对于一张任意给定的输入图片，由于我们没有任何关于它的先验知识，我们直接将其放缩为一个patch的大小，输入网络，这一方面产生了一个初步的判断结果，另一方面也提供了原始输入图片的空间分布信息；这一阶段称为扫视（Glance）。
而后，我们再以这些基本的空间分布信息为基础，逐步从原图上取得高分辨率的patch，将其不断输入网络，以此逐步更新预测结果和空间分布信息，得到更为准确的判断，并逐步寻找神经网络尚未见到过的关键区域；这一阶段称为关注（Focus）。

值得注意的是，在上述序列过程的每一步结束之后，我们会将神经网络的预测自信度（confidence）与一个预先定义的阈值进行比较，一旦confidence超过阈值，我们便视为网络已经得到了可信的结果，这一过程立即终止。

此机制称为自适应推理（Adaptive Inference）。

通过这种机制，我们一方面可以使不同难易度的样本具有不同的序列长度，从而动态分配计算量、提高整体效率；

另一方面可以简单地通过改变阈值调整网络的整体计算开销，而不需要重新训练网络，这使得我们的模型可以动态地以最小的计算开销达到所需的性能，或者实时最大化地利用所有可用的计算资源以提升模型表现。

关于这些阈值的具体整定方法，由于比较繁杂，不在这里赘述，可以参阅我们的paper~

网络结构

下面我们具体介绍Glance and Focus Network (GFNet) 的具体结构，如下图所示

图7 Glance and Focus Network (GFNet) 的网络结构

GFNet共有四个组件，分别为：

全局编码器和局部编码器（Global Encoder and Local Encoder）为两个CNN，分别用于从放缩后的原图和局部patch中提取信息，之所以用两个CNN，是因为我们发现一个CNN很难同时适应缩略图和局部patch两种尺度（scale）的输入。几乎所有现有的网络结构均可以作为这两个编码器以提升其推理效率（如MobileNet-V3、EfficientNet、RegNet等）。
分类器 （Classifier）为一个循环神经网络（RNN），输入为全局池化后的特征向量，用于整合过去所有输入的信息，以得到目前最优的分类结果。
图像块选择网络 （Patch Proposal Network）是另一个循环神经网络（RNN），输入为全局池化前的特征图（不做池化是为了避免损失空间信息），用于整合目前为止所有的空间分布信息，并决定下一个patch的位置。值得注意的是由于取得patch的crop操作不可求导，是使用强化学习中的策略梯度方法（policy gradient）训练的。

训练方法

为了确保GFNet的四个组件按照我们预期的方式工作，我们提出了一个三阶段的训练策略，在这里简要概述，更多细节可以参见我们的paper~

首先，我们从GFNet中移除，在每一步均以均匀分布随机选择patch的位置，以下面所示的损失函数训练，和，使其达到最佳的分类性能，其中代表交叉熵损失，和分别代表在第步的预测结果和原始输入图片对应的标签，表示训练集，表示序列的最大可能长度。

而后，我们固定第一步得到的，和，在网络中插入一个随机初始化的，以强化学习算法（policy gradient）优化以下形式的折扣奖励函数。其中为一个预先定义折扣因子，为每次选择patch位置的奖励（reward），我们将其定义为所选择的patch所造成的在正确标签上的confidence的增量，换言之，我们总是希望选择目前的网络没有处理过的、对产生正确的预测结果最有帮助的patch。

最后，我们固定第二步得到的，再以第一步中的损失函数对，和进行最终的微调（Finetune）。

实验结果

在实验中我们考虑了两种设置：

budgeted batch classiﬁcation，测试数据伴随有一个计算开销的预算（budget），网络需要在这个计算预算内进行推理。在此设置下，我们使用前面提到的方法，确定阈值（confidence threshold）并进行自适应推理。
anytime prediction，网络有可能在任何时候被要求立刻输出预测结果。在此设置下，我们不使用自适应推理技术，并假设所有测试样本的序列长度固定。

下图为我们在不同网络结构上实现GFNet的实验结果，其中横轴为网络的平均理论计算开销，纵轴为准确率，(a-e)为budgeted batch classiﬁcation的结果，(f)为anytime prediction的结果。

可以看出，GFNet明显地提升了包括MobileNetV3、RegNet和EfficientNet在内的最新网络结构的推理效率，同等精度下，计算开销减小达30-40%以上，对于ResNet/DenseNet的增幅可达3倍甚至更高；

同等计算开销下，对MobileNetV3提点2%左右，对ResNet/DenseNet达5-10%以上。

图8 GFNet基于不同CNN的实验结果（Accuracy v.s. Multiply-Adds）

GFNet的另一个显著优势是，由于其没有更改CNN的具体结构，其可以方便地在移动端或边缘设备上使用现有的工具部署，且享有和理论结果几乎等同的实际加速比。

下图为我们在一台iPhone XS Max（就是我的手机）上基于TensorFlow Lite的测试结果：

图9 GFNet在一台iPhone XS Max上的实际测试结果（Accuracy v.s. Latency）

下面是GFNet的一些可视化结果，可以从中看出，对于比较简单的样本，GFNet可以仅在Glance阶段或Focus阶段的第一步以很高的confidence得到正确的结果，对于较为复杂的样本，则实现了以不断关注关键区域的形式逐步提升confidence。

图10 GFNet的可视化结果

结语

最后总结一下，其实我本人是非常喜欢这项工作的，因为它非常的自然、通用、有效。

一方面它很好的模拟了生物（或者说人）识别一张图片的过程，人眼对图像数据的认知事实上也是一个先扫视得出一些直觉信息、再逐渐关注关键区域的过程。

另一方面GFNet的实际效果也非常显著，且能在目前最佳的一些模型上进一步提升理论计算效率，并加快实测速度。

欢迎大家follow我们的工作~。

本文首发于知乎：https://zhuanlan.zhihu.com/p/266306870

参考链接：

[1] http://www.image-net.org/

[2] https://arxiv.org/pdf/2001.02394.pdf

[3] https://arxiv.org/pdf/1709.01507.pdf

[4] https://arxiv.org/pdf/1905.11946.pdf

[5]https://papers.nips.cc/paper/5542-recurrent-models-of-visual-attention.pdf

[6] https://arxiv.org/pdf/1910.08485.pdf

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;max-width: 100%;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><pre style="padding-right: 0em;padding-left: 0em;max-width: 100%;letter-spacing: 0.544px;color: rgb(62, 62, 62);widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">一文了解深度推荐算法的演进</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">干货 | 算法工程师超实用技术路线图</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">13个算法工程师必须掌握的PyTorch Tricks</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">吴恩达上新：生成对抗网络（GAN）专项课程</span><br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;box-sizing: border-box !important;overflow-wrap: break-word !important;">拿到2021灰飞烟灭算法岗offer的大佬们是啥样的<span style="font-size: 14px;">?</span></section></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

参考链接：

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

Glance and Focus: 通用、高效的神经网络自适应推理框架

参考链接：

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利