知行编程网 2022-07-21 11:00 知行编程网 | 隐藏边栏 | 抢沙发 | 2 0

文章评分 0 次，平均分 0.0 ：

来自 | 知乎作者丨没头脑

链接丨https://zhuanlan.zhihu.com/p/75539170

编辑丨极市平台

Local Response Normalization
Batch Normalization
Weight Normalization
Layer Normalization
Instance Normalization
Consine Normalization
Group Normalization

1. Local Response Normalization

LRN 最早应该是出现在 2012 年的 AlexNet 中的，其主要思想是：借鉴“侧抑制”（Lateral Inhibitio）的思想实现局部神经元抑制，即使得局部的神经元产生竞争机制，使其中相应值较大的将变得更大，响应值较小的将变得更小。此外，作者在论文中指出使用 LRN 能减少其 AlexNet 在 ILSVRC-2012 上的 top-1 错误率 1.4% 和 top-5 错误率 1.2%，效果较为显著。

其中，表示输入中第个 FeatureMap 中位于的响应值，表示输出中第个 FeatureMap 中位于的响应值，都是由验证集所决定的超参数 (Hyper-Parameter)。论文中的设定为：。

在 2015 年的 VGG 中，该论文指出 LRN 在 VGG 并无任何用处：

此后，随着 Batch Normalization 等不同 Normalization 的出现，LRN 也开始逐渐落寞。

PyTorch 相关文档：

2. Batch Normalization

BN 应该算是目前使用最多的 Normalization 操作了，现在甚至可以说是 CNN 网络的标配。自 2015 年 2 月的 Inception V2（https://arxiv.org/pdf/1502.03167.pdf）提出之后，也引出了后续许多不同的 Normalization 的提出。

作者在论文中指出，提出 Batch Normalization 是目的为了解决 ‘internal covariate shift’ 现象（这个应该是属于机器学习的问题，我无法进行详细表达，建议查看其他文章），经过测试后，发现使用 BN 能加速神经网络的收敛速度，并使得神经网络对于初始化的敏感度下降。

在深度学习中 Batch Normalization为什么效果好？（https://www.zhihu.com/question/38102762/answer/85238569）中，答者指出其实 BN 解决的是梯度消失问题（Gradient Vanishing Problem），我感觉其实有点道理的。）

其中，为输入数据，为数据平均值，为数据方差，和为学习参数。此外，和是统计量，随着 Batch 的迭代不断更新（一般实现都会对其做滑动平均，不然当 Batch Size 较小时，其统计值的波动会很大，导致网络无法收敛的）。

在 BN 中，作者之所以加上和这两个仿射参数（Affine Parameter），是为了使得经过 BN 处理后的数据仍可以恢复到之前的分布，从而提升了网络结构的 Capacity，即在做出一定的改变的同时，仍保留之前的能力。

此外，除了 BN 背后的原理这一话题外，大家对 Batch-normalized 应该放在非线性激活层的前面还是后面？这一话题的讨论也比较激烈，并没有达成统一的观点，只是大部分实验表明BN 放在非线性激活层后比较好，不过仍需要具体任务具体分析。

PyTorch 相关文档：

注意，在 PyTorch 中冻结 BN Layer，不仅需要对将其参数的 requires_grad 设为 False，还需要将该层的 training 设为 False，即调用 eval 函数；否则，将会导致统计量不断更新，而仿射参数却一直处于冻结状态。此外，一般都会设置 track_running_state 为 True，以减小 Batch Size 所造成的统计量波动。

3. Weight Normalization

在 2016 年 2 月的 Weight Normalization: A Simple Reparameterization to Accelerate Training of Deep Neural Networks （https://arxiv.org/pdf/1602.07868.pdf）中，作者提出了与 BN 完全不同的 Normalization 操作：Weight Normalization，并指出：相较于 BN，WN 摆脱了对于 Batch 的依赖，这意味这 WN 完全可以用在 RNN 网络中（如：LSTM ）以及对于噪声敏感的任务（如：强化学习、生成式模型）中；此外，WN 的计算成本低，可以减少模型的运行时间。

与 BN 不同的是， WN 并不是对输入的特征数据进行归一化操作，而是对神经网络中指定的层的参数做归一化操作。

在论文中，作者将神经网络的层表示为，其中，为权重向量，为偏置参数，为输入向量，为非线性激活函数。而 WN 就是对做归一化，将分解为。其中，为单位向量，代表的方向，为标量，代表的长度，为的欧式范数。

在详解深度学习中的Normalization，BN/LN/WN https://zhuanlan.zhihu.com/p/33173246中，作者指出：WN 与 BN 其实是相似的。

论文作者同样提到了这一点。

PyTorch 相关文档：

4. Layer Normalization

在 2016 年 7 月的 Layer Normalization （https://arxiv.org/pdf/1607.06450.pdf）中，作者提出了一种类似与 BN 的操作：Layer Normalization，提出 LN 的主要目的是为了解决 BN 对 Batch Size 和内存的依赖以及减少 Normalization 所需时间。

LN 与 BN 的不同之处在于：BN 是对一个 Batch 中的所有样本的不同维度做 Normalization，而 LN 是对单个样本中的所有维度做 Normalization。当然，两者的数学公式长得都一样，都是求平均值、方差，做归一化后在做仿射变换。

Batch Normalization 与 Layer Normalization 的区别：

举例来说，对于的数据，BN 计算得到的统计量的为，而 LN 计算得到的统计量的为。

（左侧：Batch Normalization，右侧：Layer Normalization）

PyTorch 相关文档：

5. Instance Normalization

在 2016 年 7 月的 Instance Normalization: The Missing Ingredient for Fast Stylization （https://arxiv.org/pdf/1607.08022.pdf）中，作者提出与 LN 类似的操作：Instance Normalization。在论文中，作者指出在图像风格迁移任务中，生成式模型计算得到的 Feature Map 的各个 Channel 的均值与方差将影响到所生成图像的风格。故，作者提出了 IN，在 Channel 层面对输入数据进行归一化，再使用目标图像的 Channel 的均值与方差对结果进行 '去归一化'。

值得一提的是，IN 与LN 类似，仅对单个样本进行归一化，但是 IN 并不进行仿射变换。

举例来说，对于的数据，IN 计算得到的统计量的为。

PyTorch 相关文档：

6. Cosine Normalization

在 2017 年 2 月的

Cosine Normalization: Using Cosine Similarity Instead of Dot Product in Neural Networks （https://arxiv.org/pdf/1702.05870.pdf）

中，作者提出了 Cosine Normalization，不对输入数据做归一化，也不对参数做归一化，而是对输入数据与参数的点乘做出改动，改为计算两者的余弦相似度，即变为。

CN 将模型的输出进行了归一化，使得输出有界，但是也因此丢弃了原本输出中所含的 Scale 信息，所以这个是否值得也有待进一步探讨。

PyTorch 相关文档：

7. Group Normalization

在 2018 年 3 月的 Group Normalization（https://arxiv.org/pdf/1803.08494.pdf）中，作者提出了 Group Normalization，与 BN 相比，GN 的改进有两点：不再依赖 Batch Size，计算成本可由超参数进行调节。

作者在论文中指出，BN 对于 Batch Size 的依赖使得其无法较好的运用在因内存限制而使用较小 Batch Size 的任务上（如：detection, segmentation, video），故作者令 GN 仅对单个样本进行 Normalization 操作。此外，GN 更像是 LN 与 IN 的一般形式，当时，GN 等价于 LN；当时，GN 等价于 IN。

在如何区分并记住常见的几种 Normalization 算法（https://zhuanlan.zhihu.com/p/69659844）中，作者给出了一张图像，直观的给出了以上 Normalization 的不同之处：

举例来说，对于的数据，GN 计算得到的统计量的为。

PyTorch 相关文档：

参考资料：

如何区分并记住常见的几种 Normalization 算（https://zhuanlan.zhihu.com/p/69659844）

详解深度学习中的Normalization，（BN/LN/WNhttps://zhuanlan.zhihu.com/p/33173246）

神经网络之Normalization（https://zhuanlan.zhihu.com/p/29824075）

深度学习中 Batch Normalization为什么效果好？- 魏秀参的回答 - 知乎（https://www.zhihu.com/question/38102762/answer/85238569）

<section data-brushtype="text" style="padding-right: 0em;padding-left: 0em;white-space: normal;letter-spacing: 0.544px;color: rgb(62, 62, 62);font-family: "Helvetica Neue", Helvetica, "Hiragino Sans GB", "Microsoft YaHei", Arial, sans-serif;widows: 1;word-spacing: 2px;caret-color: rgb(255, 0, 0);text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong>完<strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;font-size: 14px;"><strong style="font-size: 16px;letter-spacing: 0.544px;"><span style="letter-spacing: 0.5px;">—</span></strong></span></strong></span></strong></section><pre><pre><section style="letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="letter-spacing: 0.544px;"><section powered-by="xiumi.us"><section style="margin-top: 15px;margin-bottom: 25px;opacity: 0.8;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;"><span style="color: rgb(0, 0, 0);"><strong><span style="font-size: 16px;font-family: 微软雅黑;caret-color: red;">为您推荐</span></strong></span></section><p style="margin: 5px 16px;padding-right: 0em;padding-left: 0em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">深度学习框架简史：未来十年迎来黄金时期<br  /></p><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">吃透空洞卷积（Dilated Convolutions）<br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">13个算法工程师必须掌握的PyTorch Tricks</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;"><span style="font-size: 14px;">吴恩达上新：生成对抗网络（GAN）专项课程</span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;">从SGD到NadaMax，十种优化算法原理及实现</section></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

1. Local Response Normalization

2. Batch Normalization

3. Weight Normalization

4. Layer Normalization

5. Instance Normalization

6. Cosine Normalization

7. Group Normalization

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

综述：神经网络中 Normalization 的发展历程

1. Local Response Normalization

2. Batch Normalization

3. Weight Normalization

4. Layer Normalization

5. Instance Normalization

6. Cosine Normalization

7. Group Normalization

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利