RNN教程3-BPTT算法以及消失的梯度

这是RNN教程的第三部分。

RNN翻译教程目录：

RNN教程1-RNN的基本介绍

RNN教程2-用python、numpy和theano实现RNN

RNN教程3-BPTT算法以及消失的梯度

RNN教程4-实现GRU/LSTM网络

英文出处

在上一部分，我们从零开始实现了一个RNN，但是并没有对其中的BPTT算法作详细的解释。在这一部分，我们将简要的介绍一下RNN，并解释一下它和传统的反向传播算法有什么不同。接着，我们将会尝试着去理解梯度消失问题，也正是因为存在这个问题，LSTM和GRU才会被提出来，这两个模型在NLP领域相当流行。

为了深刻理解这部分教程，我建议你最好熟悉一下反向传播算法，下面三篇教程可供参考，他们的难度是逐渐增大的：

http://cs231n.github.io/optimization-2/
http://colah.github.io/posts/2015-08-Backprop/
http://neuralnetworksanddeeplearning.com/chap2.html

BPTT算法

让我们快速的回顾一下RNN的基本式子。注意，这里有个小小的改动，那就是 $o$ 变成了 $\hat{y}$ ，这是为了和要引用的一些文献保持一致:

$s_{t}=\tanh(Ux_{t}+Ws_{t-1})$

$\hat{y}_{t}=\rm softmax(Vs_{t})$

同样，定义损失函数为交叉熵损失函数如下：

$y_{t}$ 是正确的标签， $\hat{y}_{t}$ 是我们的预测。我们以一个句子序列为一个训练样本，所以总的误差就是每一个时间步（单词）的误差和。

记住，我们的目标是计算误差对应U,V,W的梯度，从而用SGD算法来更新U,V,W。正如我们上面做的—把误差相加，在这里我们也把训练样本中每一个时间步的梯度相加起来：

$\frac{\partial E}{\partial W}=\sum_{t} \frac{\partial E_{t}}{\partial W}$

为了计算这些梯度，我们使用导数的链式法则。这正是反向传播算法中从最后一层将误差向前传播的思想。接下来，为了能有具体的理解，我们将用E3作为例子：

在上面的式子中， $z_{3}=Vs_{3}$ , $\bigotimes$ 是外积的意思。事实上，上面这个式子的推导还是省略了几个步骤的，包括softmax函数与交叉熵结合的求导，关于里面的细节，可以参考这两篇文章：

http://www.jianshu.com/p/ffa51250ba2e
http://blog.csdn.net/u014313009/article/details/51045303

但这里的重点还不在于推导的过程，重点在于 $\frac{\partial E_{3}}{\partial V}$ 这个值，只取决于当前时间步的一些值： $\hat{y}_{3}$ 、 $y_{3}$ 、 $s_{3}$ ,如果你有了这些值，计算关于V的梯度只是简单的矩阵乘法而已。

而对于 $\frac{\partial E_{3}}{\partial W}$ （还有U）而言，事情就不一样了，我们来看一下链式式子：

请注意，这个式子取决于 $s_{2}$ 的值，而 $s_{2}$ 由取决于 $W$ 和 $s_{1}$ 的值…依此类推。所以，如果我们想得到相对于W的导数，我们就不能把 $s_{2}$ 当作一个常量。重新应用链式法则，我们得到：

上面的式子用到了复合函数的链式求导法则。再上个图加深理解：

注意，上面的步骤其实和标准的反向传播算法是一样的，关键的不同在于我们将每个时间步对于W的梯度都加了起来。在传统的NN里面，我们不共享权重，所以我们不用做这种加法。和传统的反向传播算法一样，我们仍然可以定义残差，然后计算梯度。

下面上代码：

def bptt(self, x, y):
    T = len(y)
    # Perform forward propagation
    o, s = self.forward_propagation(x)
    # We accumulate the gradients in these variables
    dLdU = np.zeros(self.U.shape)
    dLdV = np.zeros(self.V.shape)
    dLdW = np.zeros(self.W.shape)
    delta_o = o
    delta_o[np.arange(len(y)), y] -= 1.
    # For each output backwards...
    for t in np.arange(T)[::-1]:
        dLdV += np.outer(delta_o[t], s[t].T)
        # Initial delta calculation: dL/dz
        delta_t = self.V.T.dot(delta_o[t]) * (1 - (s[t] ** 2))
        # Backpropagation through time (for at most self.bptt_truncate steps)
        for bptt_step in np.arange(max(0, t-self.bptt_truncate), t+1)[::-1]:
            # print "Backpropagation step t=%d bptt step=%d " % (t, bptt_step)
            # Add to gradients at each previous step
            dLdW += np.outer(delta_t, s[bptt_step-1])              
            dLdU[:,x[bptt_step]] += delta_t
            # Update delta for next step dL/dz at t-1
            delta_t = self.W.T.dot(delta_t) * (1 - s[bptt_step-1] ** 2)
    return [dLdU, dLdV, dLdW]

从代码中我们可以看到，为什么RNN这么难以训练—因为序列太长了，可能超过20个单词，所以你要传播很多层。而在实际上，很多人将反向传播截断成比较少的步骤，正如上面代码中的bptt_truncate参数定义的那样。

梯度消失和梯度爆炸

关于这部分内容，就不翻译了，感兴趣的朋友可以参考我之前写过的【关于梯度消失和梯度爆炸】，而在原始RNN当中，这个问题尤其突出。

下一篇，也是最后一篇教程，我们将关注LSTM模型和GRU模型。

《RNN教程3-BPTT算法以及消失的梯度》有2个想法

LDY说道：

2018年9月23日上午10:40

请问为何E3在对W求偏导时，不是如下：
αE3/αW = (αE3/αy^3) * (αy^3 /αs3) * (αs3/ αW)
= (y^3 – y3)(1-(s3)^2)s2
在前向传播完一次后，s3和s2是已知的，那么按照上式就已经可以求出αE3/αW，我的理解是这样，不知是否正确，希望得到您的回复，谢谢。
另，αE3/αV中有涉及到外积，是因为求导得到的是梯度是一个矢量，所以才是外积吗？
此外，为何不是：
αE3/αW = (αE3/αy^3) * (αy^3 /αs3) * (αs3/ αs2)
* (αs2/ αs1)* (αs1/ αW)
而是
αE3/αW = (αE3/αy^3) * (αy^3 /αs3) * (αs3/ αs0)
* (αs0/ αW)
+(αE3/αy^3) * (αy^3 /αs3) * (αs3/ αs1) * (αs1/ αW)
+(αE3/αy^3) * (αy^3 /αs3) * (αs3/ αs2)* (αs2/ αW)
s0其实是和W已经无关了？

回复
Adoncn说道：

2021年10月13日上午2:39

不错学习了！

回复

BPTT算法

梯度消失和梯度爆炸

《RNN教程3-BPTT算法以及消失的梯度》有2个想法

向LDY进行回复 取消回复

向LDY进行回复取消回复