NLP自然语言处理 02 RNN及其变体-EW帮帮网

1.传统RNN模型

RNN(Recurrent Neural Network), 中文称作循环神经网络, 它一般以序列数据为输入, 通过网络内部的结构设计有效捕捉序列之间的关系特征, 一般也是以序列形式进行输出.

与其他神经网络结构不同的是,序列的输入并不是一对一输出,如:假设输入的是一个列表[a,b,c],那么当a输入RNN层得到输出a1后,下一时间步的输入是a1与b的拼接,经过RNN层得到b1,b1与c的拼接经过RNN层得到c1.不难看出,c1不仅包括了c的特征,同时也含有a与b的特征,因此它可以表示整个列表的向量.

2.LSTM

LSTM（Long Short-Term Memory）也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时LSTM的结构更复杂, 它的核心结构可以分为四个部分去解析:输入门,输出门,遗忘门,细胞状态.

2.1 LSTM 结构图

2.2 遗忘门

遗忘门结构分析: * 与传统RNN的内部结构计算非常相似, 首先将当前时间步输入x(t)与上一个时间步隐含状态h(t-1)拼接, 得到[x(t), h(t-1)]
然后通过一个全连接层做变换, 最后通过sigmoid函数进行激活得到f(t)
我们可以将f(t)看作是门值, 好比一扇门开合的大小程度, 门值都将作用在通过该扇门的张量, 遗忘门门值将作用的上一层的细胞状态上, 代表遗忘过去的多少信息, 又因为遗忘门门值是由x(t), h(t-1)计算得来的, 因此整个公式意味着根据当前时间步输入和上一个时间步隐含状态h(t-1)来决定遗忘多少上一层的细胞状态所携带的过往信息.
遗忘门的作用是遗忘过去的信息

2.3 输入门与细胞状态更新

输入门结构分析: * 我们看到输入门的计算公式有两个, 第一个就是产生输入门门值的公式, 它和遗忘门公式几乎相同, 区别只是在于它们之后要作用的目标上. 这个公式意味着输入信息有多少需要进行过滤.
输入门的第二个公式是与传统RNN的内部结构计算相同. 对于LSTM来讲, 它得到的是当前的细胞状态, 而不是像经典RNN一样得到的是隐含状态.

2.4 细胞状态

细胞状态更新分析: * 细胞更新的结构与计算公式非常容易理解, 这里没有全连接层, 只是将刚刚得到的遗忘门门值与上一个时间步得到的C(t-1)相乘.
再加上输入门门值与当前时间步得到的未更新C(t)相乘的结果. 最终得到更新后的C(t)作为下一个时间步输入的一部分. 整个细胞状态更新过程就是对遗忘门和输入门的应用.

2.5 输出门

输出门结构分析: * 输出门部分的公式也是两个, 第一个即是计算输出门的门值, 它和遗忘门，输入门计算方式相同.
第二个即是使用这个门值产生隐含状态h(t), 他将作用在更新后的细胞状态C(t)上, 并做tanh激活, 最终得到h(t)作为下一时间步输入的一部分. 整个输出门的过程, 就是为了产生隐含状态h(t).

2.6 Bi-LSTM(双向LSTM)

Bi-LSTM即双向LSTM, 它没有改变LSTM本身任何的内部结构, 只是将LSTM应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出.

Bi-LSTM结构分析: * 我们看到图中对"我爱中国"这句话或者叫这个输入序列, 进行了从左到右和从右到左两次LSTM处理, 将得到的结果张量进行了拼接作为最终输出.
这种结构能够捕捉语言语法中一些特定的前置或后置特征, 增强语义关联,但是模型参数和计算复杂度也随之增加了一倍, 一般需要对语料和计算资源进行评估后决定是否使用该结构.

2.7 小结

LSTM（Long Short-Term Memory）也称长短时记忆结构, 它是传统RNN的变体, 与经典RNN相比能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时LSTM的结构更复杂, 它的核心结构可以分为四个部分去解析: * 遗忘门 * 输入门 * 输出门 * 细胞状态

LSTM的门结构能够有效减缓长序列问题中可能出现的梯度消失或爆炸, 虽然并不能杜绝这种现象, 但在更长的序列问题上表现优于传统RNN.

3.GRU

GRU（Gated Recurrent Unit）也称门控循环单元结构, 它也是传统RNN的变体, 同LSTM一样能够有效捕捉长序列之间的语义关联, 缓解梯度消失或爆炸现象. 同时它的结构和计算要比LSTM更简单, 它的核心结构可以分为两个部分去解析:更新门,重置门

3.1 GRU内部结构

GRU内部数据走向

和之前分析过的LSTM中的门控一样, 首先计算更新门和重置门的门值, 分别是r(t)和z(t), 计算方法就是使用X(t)与h(t-1)拼接进行线性变换, 再经过sigmoid激活.
之后重置门门值作用在了h(t-1)上, 代表控制上一时间步传来的信息有多少可以被利用. 接着就是使用这个重置后的h(t-1)进行基本的RNN计算, 即与x(t)拼接进行线性变化, 经过tanh激活, 得到新的h(t).
最后更新门的门值会作用在新的h(t)，而1-门值会作用在h(t-1)上, 随后将两者的结果相加, 得到最终的隐含状态输出h(t), 这个过程意味着更新门有能力保留之前的结果, 当门值趋于1时, 输出就是新的h(t), 而当门值趋于0时, 输出就是上一时间步的h(t-1).

3.2 Bi-GRU介绍

Bi-GRU与Bi-LSTM的逻辑相同, 都是不改变其内部结构, 而是将模型应用两次且方向不同, 再将两次得到的LSTM结果进行拼接作为最终输出. 具体参见上小节中的Bi-LSTM.

4.注意力机制

注意力机制是注意力计算规则能够应用的深度学习网络的载体, 同时包括一些必要的全连接层以及相关张量处理, 使其与应用网络融为一体. 使自注意力计算规则的注意力机制称为自注意力机制.

简单来说:“注意力机制”实际上就是想将人的感知方式、注意力的行为应用在机器上，让机器学会去感知数据中的重要和不重要的部分。

比如说在看到下面这张图片,你首先关注的就是最重要的部分:

显然,最先注意到的是佐伊和那个大象,随后是某些不知名小人,最后则是画面的边边角角

4.1 注意力机制解决的问题

早期在解决机器翻译seq2seq问题时，通常采用的做法是利用一个编码器(Encoder)和一个解码器(Decoder)构建端到端的神经网络模型，但是基于编码解码的神经网络存在两个问题：
- 问题1：如果翻译的句子很长很复杂，比如直接一篇文章输进去，模型的计算量很大，并且模型的准确率下降严重。
- 问题2：在翻译时，可能在不同的语境下，同一个词具有不同的含义，但是网络对这些词向量并没有区分度，没有考虑词与词之间的相关性，导致翻译效果比较差。

4.2 注意力机制的类别

深度学习中的注意力机制通常可分为三类: 软注意（全局注意）、硬注意（局部注意）和自注意（内注意）
- 软注意机制(Soft/Global Attention: 对每个输入项的分配的权重为0-1之间，也就是某些部分关注的多一点，某些部分关注的少一点，因为对大部分信息都有考虑，但考虑程度不一样，所以相对来说计算量比较大。
- 硬注意机制(Hard/Local Attention,[了解即可]): 对每个输入项分配的权重非0即1，和软注意不同，硬注意机制只考虑那部分需要关注，哪部分不关注，也就是直接舍弃掉一些不相关项。优势在于可以减少一定的时间和计算成本，但有可能丢失掉一些本应该注意的信息。
- 自注意力机制( Self/Intra Attention): 对每个输入项分配的权重取决于输入项之间的相互作用，即通过输入项内部的"表决"来决定应该关注哪些输入项。和前两种相比，在处理很长的输入时，具有并行计算的优势。

4.3 注意力计算规则

将Q，K进行纵轴拼接, 做一次线性变化, 再使用softmax处理获得结果最后与V做张量乘法.

Attention(Q,K,V)=Softmax(Linear([Q,K]))⋅V

将Q，K进行纵轴拼接, 做一次线性变化后再使用tanh函数激活, 然后再进行内部求和, 最后使用softmax处理获得结果再与V做张量乘法.

Attention(Q,K,V)=Softmax(sum(tanh(Linear([Q,K]))))⋅V

将Q与K的转置做点积运算, 然后除以一个缩放系数, 再使用softmax处理获得结果最后与V做张量乘法.

Attention(Q,K,V)=Softmax(Q⋅KT√dk)⋅V

说明：当注意力权重矩阵和V都是三维张量且第一维代表为batch条数时, 则做bmm运算.bmm是一种特殊的张量乘法运算.
通常使用的是第一种和第三种

4.4 注意力机制的作用

在解码器端的注意力机制: 能够根据模型目标有效的聚焦编码器的输出结果, 当其作为解码器的输入时提升效果. 改善以往编码器输出是单一定长张量, 无法存储过多信息的情况. * 在编码器端的注意力机制: 主要解决表征问题, 相当于特征提取过程, 得到输入的注意力表示. 一般使用自注意力(self-attention).

5. 可能的面试题

5.1 rnn怎么产生梯度爆炸的，lstm怎么解决梯度消失的

什么是梯度爆炸：

梯度爆炸指的是在反向传播过程中，梯度值变得⾮常⼤，导致权重更新过⼤，模型难以收敛。

在RNN中，梯度爆炸通常是由于反向传播过程中梯度值的指数级增⻓。当时间步数较⼤或激活函数的导数较⼤时，梯度爆炸问题尤为突出。

什么是梯度消失：

梯度消失指的是在反向传播过程中，梯度值变得⾮常⼩，导致权重更新过⼩，模型难以学习⻓期依赖关系。

在传统的RNN中，梯度消失问题常常是由于反向传播过程中梯度值的指数级衰减。当时间步数较⼤或激活函数的导数较⼩时，梯度消失问题尤为突出。

LSTM解决梯度消失：

LSTM是⼀种特殊的RNN变体，通过引⼊⻔控机制来解决梯度消失问题。

LSTM中的⻔控单元（Gate Units）可以控制信息的流动，允许模型选择性地保留和更新信息。

LSTM中的遗忘⻔（Forget Gate）可以决定前⼀时刻的记忆是否被遗忘，输⼊⻔（Input Gate）可以决定当前输⼊的哪部分信息被添加到记忆中，输出⻔（Output Gate）可以决定输出的哪部分记忆被传递到下⼀层或输出层。

通过⻔控机制，LSTM可以有效地捕捉和传递⻓期依赖关系，从⽽解决了传统RNN中的梯度消失问题。

总结⽽⾔，RNN中的梯度爆炸和梯度消失问题会影响模型的训练和学习能⼒。LSTM通过引⼊⻔控机制，特别是遗忘⻔、输⼊⻔和输出⻔，解决了梯度消失的问题，使得模型能够更好地处理⻓期依赖关系。

NLP自然语言处理 02 RNN及其变体