RNN, Seq2Seq, Attention注意力机制完全解析

知行编程网 2022-06-17 18:00 知行编程网 | 隐藏边栏 | 抢沙发 | 8 0

文章评分 0 次，平均分 0.0 ：

来自 | 知乎作者 | 白裳

链接 | https://zhuanlan.zhihu.com/p/51383402

编辑 | 深度学习这件小事

本文仅作学术交流，如有侵权，请联系后台删除。

循环神经网络RNN结构被广泛应用于自然语言处理、机器翻译、语音识别、文字识别等方向。本文主要介绍经典的RNN结构，以及RNN的变种（包括Seq2Seq结构和Attention机制）。希望这篇文章能够帮助初学者更好地入门。

经典的RNN结构

这就是最经典的RNN结构，它的输入是：

输出为：

也就是说，输入和输出序列必有相同的时间长度！

假设输入 ( ) 是一个长度为 ( ) 的列向量：

隐藏层是一个长度为 ( ) 的列向量：

输出是一个长度为 ( ) 的列向量：

其中，，都是由人工设定的。

时刻输入层--> 时刻隐藏层：

时刻隐藏层--> 时刻隐藏层：

时刻输入层 and 时刻隐藏层--> 时刻隐藏层：

时刻隐藏层--> 时刻输出层：

需要注意的是，对于任意时刻，所有的权值（包括 , , , , , ）都相等，这也就是RNN中的“权值共享”，极大的减少参数量。

其实RNN可以简单的表示为：

还有一个小细节：在时刻，如果没有特别指定初始状态，一般都会使用全0的作为初始状态输入到中

Sequence to Sequence模型

在Seq2Seq结构中，编码器Encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由解码器Decoder解码。在解码器Decoder解码的过程中，不断地将前一个时刻的输出作为后一个时刻的输入，循环解码，直到输出停止符为止。

接下来以机器翻译为例，看看如何通过Seq2Seq结构把中文“早上好”翻译成英文“Good morning”：

将“早上好”通过Encoder编码，并将最后时刻的隐藏层状态作为语义向量。
以语义向量为Decoder的状态，同时在时刻输入<start>特殊标识符，开始解码。之后不断的将前一时刻输出作为下一时刻输入进行解码，直接输出<stop>特殊标识符结束。

当然，上述过程只是Seq2Seq结构的一种经典实现方式。与经典RNN结构不同的是，Seq2Seq结构不再要求输入和输出序列有相同的时间长度！

进一步来看上面机器翻译例子Decoder端的时刻数据流，如图7：

首先对RNN输入大小为的向量（红点）；
然后经过RNN输出大小为的向量（蓝点）；
接着使用全连接fc将变为大小为的向量，其中代表类别数量；
再经过softmax和argmax获取类别index，再经过int2str获取输出字符；
最后将类别index输入到下一状态，直到接收到<stop>标志符停止。

Embedding

还有一点细节，就是如何将前一时刻输出类别index（数值）送入下一时刻输入（向量）进行解码。假设每个标签对应的类别index如下：

已知<start>标志符index为0，如果需要将<start>标志符输入到input层，就需要把类别index=0转变为一个长度的特定对应向量。这时就需要应用嵌入 (embedding) 方法。

假设有个词，最简单的方法就是使用长度的one-hot编码，词表alphabet如下：

但是使用one-hot编码进行嵌入过于稀疏，所以我们使用一种更加优雅的办法：

首先随机生成一个大小为 embedding随机矩阵：

然后通过start标志的one-hot编码乘以embedding矩阵（即获取embedding矩阵的第行），作为start标志对应的输入向量送入网络：

在时刻网络输入后输出了good字符，那么要在时刻再把good字符的one-hot编码乘以embedding矩阵获取：

同理再把上一时刻输出的morning字符的one-hot编码乘以embedding获取新的：

如此不停循环解码。

可以看到，其实Seq2Seq引入嵌入机制解决从label index数值到输入向量的维度恢复问题。在Tensorflow中上述过程通过以下函数实现：

tf.nn.embedding_lookup

而在pytorch中通过以下接口实现：

torch.nn.Embedding

需要注意的是：train和test阶段必须使用一样的embedding矩阵！否则输出肯定是乱码。

当然，还可以使用word2vec/glove/elmo/bert等更加“精致”的嵌入方法，也可以在训练过程中迭代更新embedding。这些内容超出本文范围，不再详述。embedding入门请参考：https://zhuanlan.zhihu.com/p/89637281

Seq2Seq训练问题

值得一提的是，在seq2seq结构中将作为下一时刻输入进网络，那么某一时刻输出错误就会导致后面全错。在训练时由于网络尚未收敛，这种蝴蝶效应格外明显。

为了解决这个问题，Google提出了大名鼎鼎的Scheduled Sampling（即在训练中按照一定概率选择输入或时刻对应的真实值，即标签，如图10），既能加快训练速度，也能提高训练精度。

Scheduled Sampling对应文章如下：

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

链接：https://arxiv.org/pdf/1506.03099.pdf

Attention注意力机制

在Seq2Seq结构中，encoder把所有的输入序列都编码成一个统一的语义向量Context，然后再由Decoder解码。由于context包含原始序列中的所有信息，它的长度就成了限制模型性能的瓶颈。如机器翻译问题，当要翻译的句子较长时，一个Context可能存不下那么多信息，就会造成精度的下降。除此之外，如果按照上述方式实现，只用到了编码器的最后一个隐藏层状态，信息利用率低下。

所以如果要改进Seq2Seq结构，最好的切入角度就是：利用Encoder所有隐藏层状态解决Context长度限制问题。

接下来了解一下attention注意力机制基本思路(Luong Attention)

考虑这样一个问题：由于Encoder的隐藏层状态代表对不同时刻输入的编码结果：

即Encoder状态，，对应编码器对“早”，“上”，“好”三个中文字符的编码结果。那么在Decoder时刻通过3个权重，，计算出一个向量：

然后将这个向量与前一个状态拼接在一起形成一个新的向量输入到隐藏层计算结果：

Decoder时刻：

Decoder时刻和同理，就可以解决Context长度限制问题。由于，，不同，就形成了一种对编码器不同输入对应的“注意力”机制（权重越大注意力越强）。

那么到底什么是LuongAttention注意力机制？

首先，计算Decoder的时刻隐藏层状态对Encoder每一个隐藏层状态权重数值：

这里的可以通过以下三种方式计算：

所谓Dot就是向量内积，而General通过乘以权重矩阵进行计算（是大小的矩阵）。一般经验General方法好于Dot方法，Concat方法略去不讲。

其次，利用权重计算所有隐藏层状态加权之和，即生成新的大小为的Context状态向量：

接下来，将通过权重生成的与原始Decoder隐藏层时刻状态拼接在一起：

这里和大小都是，拼接后会变大。由于需要恢复为原来形状，所以乘以全连接矩阵。当然不恢复也可以，但是会造成Decoder RNN cell变大。

最后，对加入“注意力”的Decoder状态乘以矩阵即可获得输出：

也可以根据需要，把新生成的状态继续送入RNN继续进行学习。其中和参数需要通过学习获得。

在实际应用中当输入一组，除了可以获得输出，还能提取出与对应的权重数值并画出来，如图15，这样就可以直观的看到时刻注意力机制到底“注意”了什么。

可以看到，整个Attention注意力机制相当于在Seq2Seq结构上加了一层“包装”，内部通过函数计算注意力向量，从而给Decoder RNN加入额外信息，以提高性能。无论在机器翻译，语音识别，自然语言处理(NLP)，文字识别(OCR)，Attention机制对Seq2Seq结构都有很大的提升。

如何向RNN加入额外信息

Attention机制其实就是将的Encoder RNN隐藏层状态加权后获得权重向量，额外加入到Decoder中，给Decoder RNN网络添加额外信息，从而使得网络有更完整的信息流。

所以，假设有额外信息（如上文中的注意力向量），给RNN网络添加额外信息主要有以下3种方式：

ADD：直接将叠加在输出上。

CONCAT：将拼接在隐藏层后全连接恢复维度（不恢复维度也可以，但是会造成参数量加倍）。上篇文章中的LuongAttention机制就使用此种方法。

MLP：新添加一个对的感知单元。

特别说明：上文介绍的LuongAttention仅仅是注意力机制的一种具体实现，不代表Attention仅此一种。事实上Seq2Seq+Attention还有很多很玩法。望读者了解！

<section style="white-space: normal;line-height: 1.75em;text-align: center;"><strong style="color: rgb(0, 0, 0);font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;letter-spacing: 0.544px;widows: 1;background-color: rgb(255, 255, 255);font-size: 16px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong>完<strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;font-size: 14px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;font-size: 16px;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;letter-spacing: 0.5px;box-sizing: border-box !important;overflow-wrap: break-word !important;">—</span></strong></span></strong></span></strong></section><pre><pre style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;white-space: normal;font-family: -apple-system-font, system-ui, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;widows: 1;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="max-width: 100%;letter-spacing: 0.544px;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section powered-by="xiumi.us" style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section style="margin-top: 15px;margin-bottom: 25px;max-width: 100%;opacity: 0.8;box-sizing: border-box !important;overflow-wrap: break-word !important;"><section><section style="margin-bottom: 15px;padding-right: 0em;padding-left: 0em;max-width: 100%;color: rgb(127, 127, 127);font-size: 12px;font-family: sans-serif;line-height: 25.5938px;letter-spacing: 3px;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;color: rgb(0, 0, 0);box-sizing: border-box !important;overflow-wrap: break-word !important;"><strong style="max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="max-width: 100%;font-size: 16px;font-family: 微软雅黑;caret-color: red;box-sizing: border-box !important;overflow-wrap: break-word !important;">为您推荐</span></strong></span></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">长尾分布下图像分类问题最新综述（2019-2020）</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="font-size: 14px;">LSTM终获正名，获IEEE 2021神经网络先驱奖！</span><br  /></section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">特朗普拿H1B签证开刀，LeCun吴恩达等实名谴责！</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;">数据分析入门常用的23个牛逼Pandas代码</section><section style="margin-top: 5px;margin-bottom: 5px;padding-right: 0em;padding-left: 0em;max-width: 100%;min-height: 1em;font-family: sans-serif;letter-spacing: 0px;opacity: 0.8;line-height: normal;text-align: center;box-sizing: border-box !important;overflow-wrap: break-word !important;"><span style="color: rgb(87, 107, 149);font-size: 14px;">如何在科研论文中画出漂亮的插图？</span><br  /></section></section></section></section></section></section></section></section></section>

本篇文章来源于: 深度学习这件小事

本文为原创文章，版权归知行编程网所有，欢迎分享本文，转载请保留出处！

知行编程网关注：1 粉丝：1

这个人很懒，什么都没写

经典的RNN结构

Sequence to Sequence模型

Embedding

Seq2Seq训练问题

如何向RNN加入额外信息

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利

RNN, Seq2Seq, Attention注意力机制完全解析

经典的RNN结构

Sequence to Sequence模型

Embedding

Seq2Seq训练问题

如何向RNN加入额外信息

分享本文海报

内容反馈

你可能也喜欢

热评文章

发表评论

联系我们

标签云

推广返利