门控循环单元（GRU）-EW帮帮网

门控循环单元（GRU）基本原理

一、GRU核心思想与设计动机

目标：在保留LSTM长程记忆能力的前提下，简化网络结构
核心创新：

合并LSTM的输入门和遗忘门为更新门（Update Gate）
去除细胞状态（Cell State），直接通过隐藏状态传递信息
参数数量比LSTM减少1/3，训练速度提升20-30%

在这里插入图片描述

二、网络结构分解

1. 核心组件（两个门 + 候选状态）

组件	符号	功能描述
更新门	$z_t$	控制历史信息与当前信息的融合比例
重置门	$r_t$	决定忽略多少历史信息生成候选状态
候选隐藏状态	$\tilde{h}_t$	包含当前输入与部分历史信息的中间状态

2. 数学公式推导

更新门（Update Gate）

$z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z)$

$\sigma$ : Sigmoid函数（输出0-1间的保留比例）

重置门（Reset Gate）

$r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r)$

候选隐藏状态

$\tilde{h}_t = \tanh(W \cdot [r_t \odot h_{t-1}, x_t] + b)$

$\odot$ : Hadamard积（控制历史信息流入量）

最终隐藏状态

$h_t = (1 - z_t) \odot h_{t-1} + z_t \odot \tilde{h}_t$

动态平衡历史信息保留与更新

三、PyTorch实现（手动版）

1. GRU单元实现

import torch
import torch.nn as nn

class GRUCell(nn.Module):
    def __init__(self, input_size, hidden_size):
        super().__init__()
        self.hidden_size = hidden_size
        
        # 合并计算三个门的参数矩阵
        self.W = nn.Linear(input_size + hidden_size, 3*hidden_size)
        
    def forward(self, x, h_prev):
        # 拼接输入与历史状态
        combined = torch.cat((x, h_prev), dim=1)
        gates = self.W(combined)
        
        # 分割门控计算结果
        z, r, n = torch.split(gates, self.hidden_size, dim=1)
        
        # 激活函数应用
        z = torch.sigmoid(z)  # 更新门
        r = torch.sigmoid(r)  # 重置门
        n = torch.tanh(r * n) # 候选状态
        
        # 最终状态更新
        h = (1 - z) * h_prev + z * n
        
        return h

门控循环单元（GRU）