反向传播算法——矩阵形式递推公式—

总结反向传播算法。

来源于https://udlbook.github.io/udlbook/，我不明白初始不从 $\boldsymbol{x}_0$ 开始，而是从 $\boldsymbol{z}_0$ 开始，不知道怎么想的。

考虑一个深度神经网络 $g[\boldsymbol{x}_i, \boldsymbol{\phi}]$ ，它接受输入 $\boldsymbol{x}_i$ ，具有 $N$ 个隐藏层和 ReLU 激活函数，并且有单独的损失项 $L_i = {\rm loss}[g[\boldsymbol{x}_i, \boldsymbol{\phi}], \boldsymbol{y}_i]$ 。反向传播的目标是计算关于偏差 $\boldsymbol{b}_\iota$ 和权重 $\boldsymbol{W}_\iota$ 的导数 $\frac{\partial L_i}{\partial \boldsymbol{b}_\iota}$ 和 $\frac{\partial L_i}{\partial \boldsymbol{W}_\iota}$ 。

前向传递： 计算并存储以下量：

$\begin{aligned} \boldsymbol{z}_0 &= \boldsymbol{b}_0 + \boldsymbol{W}_0 \boldsymbol{x}_i \\ \boldsymbol{x}_\iota &=f[\boldsymbol{z}_{\iota-1}] & \iota \in \{1, 2, \ldots, M\} \\ \boldsymbol{z}_\iota &= \boldsymbol{b}_\iota + \boldsymbol{W}_\iota \boldsymbol{x}_\iota. & \iota \in \{1, 2, \ldots, M\} \end{aligned}$

反向传递： 从损失函数 $L_i$ 关于网络输出 $\boldsymbol{z}_M$ 的导数 $\frac{\partial L_i}{\partial \boldsymbol{z}_M}$ 开始，并在网络中反向工作：

$\begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_\iota} &= \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \boldsymbol{x}_\iota^{\mathsf T} & \iota \in \{M, M-1, \ldots, 1\} \\ \frac{\partial L_i}{\partial \boldsymbol{z}_{\iota-1}} &= \mathbb{I}[\boldsymbol{z}_{\iota-1} > 0] \odot \left( \boldsymbol{W}_\iota^{\mathsf T} \frac{\partial L_i}{\partial \boldsymbol{z}_\iota} \right), & \iota \in \{M, M-1, \ldots, 1\} \end{aligned}$

其中 $\odot$ 表示逐点乘法，而 $\mathbb{I}[\boldsymbol{z}_{\iota-1} > 0]$ 是一个向量，其中在 $\boldsymbol{z}_{\iota-1}$ 大于零的位置包含一，在其他位置包含零。

最后，计算关于第一组偏差和权重的导数：

$\begin{aligned} \frac{\partial L_i}{\partial \boldsymbol{b}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \\ \frac{\partial L_i}{\partial \boldsymbol{W}_0} &= \frac{\partial L_i}{\partial \boldsymbol{z}_0} \boldsymbol{x}_i^{\mathsf T}. \end{aligned}$

为批次中的每个训练样本计算这些导数，并将它们相加以获取用于 SGD 更新的梯度。

请注意，反向传播算法非常高效；前向和反向传递中最耗计算的步骤是矩阵乘法（分别由 $\boldsymbol{W}$ 和 $\boldsymbol{W}^{\mathsf T}$ 进行），这只需要加法和乘法。然而，它不是内存高效的；前向传递中的中间值必须全部存储，这可能会限制可以训练的模型的大小。

反向传播算法——矩阵形式递推公式——ReLU传递函数

网站公告

今日签到

热门文章

最新发布