强化学习笔记(一)基本概念

发布于:2025-05-18 ⋅ 阅读:(22) ⋅ 点赞:(0)

文章目录

1. 强化学习 (Reinforcement Learning, RL) 概述

1.1 与监督学习 (Supervised Learning, SL) 的对比

监督学习的特点:
  • 数据集: 监督学习依赖于固定的标记数据集,通常表示为 ( x i , y i ) i = 1 n {(x_i, y_i)}_{i=1}^n (xi,yi)i=1n,其中 x i x_i xi 是输入, y i y_i yi 是对应的标签。
  • 数据独立同分布 (i.i.d): 训练样本之间通常假设是相互独立的,并且都从同一个固定的数据分布中抽取。
  • 即时反馈与修正: 模型根据提供的标签(正确答案)立即修正其预测。有明确的"对"或"错"的指导。
  • 目标函数: 通过最小化损失函数来学习一个映射 f : x → y f: x \rightarrow y f:xy,例如均方误差:
    L = 1 n ∑ i = 1 n ( f ( x i ) − y i ) 2 L = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2 L=n1i=1n(f(xi)yi)2
    • ( x i , y i ) i = 1 n {(x_i, y_i)}_{i=1}^n (xi,yi)i=1n: 训练数据集,其中 x i x_i xi是输入样本, y i y_i yi是对应的标签, i i i是样本索引, n n n是样本总数
    • f : x → y f: x \rightarrow y f:xy: 从输入到输出的映射函数
    • L = 1 n ∑ i = 1 n ( f ( x i ) − y i ) 2 L = \frac{1}{n} \sum_{i=1}^n (f(x_i) - y_i)^2 L=n1i=1n(f(xi)yi)2: 均方误差损失函数,其中 f ( x i ) f(x_i) f(xi)是模型预测值, y i y_i yi是真实标签
强化学习的特点:
  • 动态数据: 没有固定数据集,数据通过智能体与环境的交互生成,形式为 ( s t , a t , r t + 1 , s t + 1 ) (s_t, a_t, r_{t+1}, s_{t+1}) (st,at,rt+1,st+1)
  • 延迟奖励 (Delayed Reward):
    • 智能体执行一个动作后,可能不会立即知道这个动作是好是坏。
    • 奖励可能是稀疏的,或者在序列的末尾才出现(例如,一盘棋的输赢)。
    • 信用分配问题 (Credit Assignment Problem): 难以判断一个最终结果是由序列中的哪些具体动作贡献的。
  • 非独立同分布数据:
    • 智能体通过与环境交互产生数据,当前动作会影响下一个状态,因此数据点之间具有很强的时序关联性。
    • 智能体的策略会随着学习过程改变,导致数据分布也会随之改变。
  • 探索与利用的权衡 (Exploration vs. Exploitation):
    • 智能体需要在"探索"未知动作以发现潜在更高奖励,和"利用"已知能产生较好奖励的动作之间做出权衡。
  • 智能体主动学习:
    • 智能体不是被动接收数据,而是通过"试错"主动与环境交互来学习。它自己决定采取什么动作。
  • 序列决策 (Sequential Decision Making):
    • 智能体的目标通常是最大化一个(可能很长的)动作序列的累积奖励,而不仅仅是单个动作的即时奖励。
  • 目标函数: 最大化期望累积奖励:
  • J ( π ) = E π [ ∑ t = 0 ∞ γ t R t + 1 ] J(\pi) = \mathbb{E}_\pi \left[ \sum_{t=0}^\infty \gamma^t R_{t+1} \right] J(π)=Eπ[t=0γtRt+1]: 策略 π \pi π的目标函数(期望累积奖励)
    • E π \mathbb{E}_\pi Eπ: 在策略 π \pi π下的期望值
    • γ \gamma γ: 折扣因子,取值范围 [ 0 , 1 ) [0,1) [0,1)
    • R t + 1 R_{t+1} Rt+1: 在时间步 t t t执行动作后获得的奖励
    • t t t: 时间步索引
      其中 γ ∈ [ 0 , 1 ) \gamma \in [0, 1) γ[0,1) 是折扣因子, R t + 1 R_{t+1} Rt+1 是时间步 t t t 采取动作后的奖励。

2. 核心概念与术语

  • 智能体 (Agent): 学习者和决策者,执行动作。
  • 环境 (Environment): 智能体外部的一切,智能体与之交互,并对其动作做出响应。
  • 状态 (State, S): 对环境特定时刻的描述,是智能体做决策的依据。
  • 动作 (Action, A): 智能体在特定状态下可以执行的操作。
  • 奖励 (Reward, R):
    • 环境在智能体执行动作后给予的标量反馈信号,表示该动作的即时好坏。
    • 即时奖励: R t + 1 R_{t+1} Rt+1,在时间步 t t t 采取动作 a t a_t at 后环境反馈的标量值。

2.1 策略 (Policy, π)

  • 智能体在给定状态下选择动作的规则或函数。
  • 随机性策略 (Stochastic Policy): π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a | S_t=s) π(as)=P(At=aSt=s),表示在状态 s s s 下选择动作 a a a 的概率。
  • 确定性策略 (Deterministic Policy): a = μ ( s ) a = \mu(s) a=μ(s),直接映射状态到动作。

2.2 价值函数 (Value Function)

  • 评估一个状态或状态-动作对的长期价值。
  • 状态价值函数 (State-Value Function):
    V π ( s ) = E π [ G t ∣ S t = s ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] V^\pi(s) = \mathbb{E}_\pi [ G_t | S_t = s ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s] Vπ(s)=Eπ[GtSt=s]=Eπ[k=0γkRt+k+1St=s]
    表示在状态 s s s 下遵循策略 π \pi π 的期望回报。
    • G t G_t Gt: 从时间步 t t t开始的折扣累积奖励(回报)
  • 动作价值函数 (Action-Value Function):
    Q π ( s , a ) = E π [ G t ∣ S t = s , A t = a ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] Q^\pi(s, a) = \mathbb{E}_\pi [ G_t | S_t = s, A_t = a ] = \mathbb{E}_\pi[\sum_{k=0}^\infty \gamma^k R_{t+k+1} | S_t = s, A_t = a] Qπ(s,a)=Eπ[GtSt=s,At=a]=Eπ[k=0γkRt+k+1St=s,At=a]
    表示在状态 s s s 下执行动作 a a a 后的期望回报。也称为 Q-函数。

2.3 模型 (Model)

  • 智能体对环境的内部表示,预测环境将如何响应。
  • 状态转移模型 (Transition Model): P ( s ′ ∣ s , a ) = P ( S t + 1 = s ′ ∣ S t = s , A t = a ) P(s'|s, a) = P(S_{t+1} = s' | S_t = s, A_t = a) P(ss,a)=P(St+1=sSt=s,At=a),预测在状态 s s s 执行动作 a a a 后,转移到下一个状态 s ′ s' s 的概率。
  • 奖励模型 (Reward Model): R ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] R(s, a) = \mathbb{E} [R_{t+1} | S_t = s, A_t = a] R(s,a)=E[Rt+1St=s,At=a],预测在状态 s s s 执行动作 a a a 后获得的期望奖励。

2.4 回报 (Return, G)

  • 折扣回报 (Discounted Return):
    G t = R t + 1 + γ R t + 2 + γ 2 R t + 3 + ⋯ = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^\infty \gamma^k R_{t+k+1} Gt=Rt+1+γRt+2+γ2Rt+3+=k=0γkRt+k+1
    衡量从时刻 t t t 开始的长期累积奖励。
  • 折扣因子 (Discount Factor, γ): 0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0γ1
    • γ \gamma γ 接近 0 时,智能体更关注近期奖励(“近视”)。
    • γ \gamma γ 接近 1 时,智能体更关注远期奖励(“有远见”)。
    • 也确保了在无限循环任务中回报是有限的。

2.5 其他重要术语

  • 轨迹 (Trajectory) / 经验 (Experience) / 历史 (History): 一个状态、动作、奖励的序列: τ = ( S 0 , A 0 , R 1 , S 1 , A 1 , R 2 , . . . ) \tau = (S_0, A_0, R_1, S_1, A_1, R_2, ...) τ=(S0,A0,R1,S1,A1,R2,...)
  • 回合 (Episode) / 试验 (Trial) / 预演 (Rollout): 从初始状态开始,到终止状态结束的一条完整轨迹。适用于有明确结束的任务(Episodic Tasks)。
  • 动作序列 (Action Sequence): 轨迹中包含的一系列动作 ( A 0 , A 1 , A 2 , . . . ) (A_0, A_1, A_2, ...) (A0,A1,A2,...)

3. 标准强化学习 vs. 深度强化学习

3.1 标准强化学习 (Standard Reinforcement Learning)

  • 通常处理状态空间和动作空间较小的问题。
  • 策略和价值函数可以用表格形式表示(例如,Q-table)。
  • 算法如:Q-Learning, Sarsa, 动态规划 (DP)。
  • Q-learning 更新规则:
    Q ( s , a ) ← Q ( s , a ) + α [ r + γ max ⁡ a ′ Q ( s ′ , a ′ ) − Q ( s , a ) ] Q(s,a) \leftarrow Q(s,a) + \alpha[r + \gamma \max_{a'} Q(s',a') - Q(s,a)] Q(s,a)Q(s,a)+α[r+γmaxaQ(s,a)Q(s,a)]
    其中 α \alpha α 是学习率, r r r 是即时奖励, γ \gamma γ 是折扣因子。
核心交互循环:
  1. 在时刻 t t t,智能体观察到环境的状态 S t S_t St (或观测 O t O_t Ot)。
  2. 基于状态 S t S_t St,智能体根据其策略 π \pi π 选择并执行一个动作 A t A_t At
  3. 环境接收到动作 A t A_t At,转移到新的状态 S t + 1 S_{t+1} St+1,并给予智能体一个即时奖励 R t + 1 R_{t+1} Rt+1
  4. 智能体利用这些信息 ( S t , A t , R t + 1 , S t + 1 ) (S_t, A_t, R_{t+1}, S_{t+1}) (St,At,Rt+1,St+1) 来学习和改进其策略,循环往复。

3.2 深度强化学习 (Deep Reinforcement Learning, DRL)

  • 当状态空间或动作空间非常大,甚至连续时,表格方法不可行。
  • 使用深度神经网络 (Deep Neural Networks, DNNs) 作为函数逼近器来表示策略、价值函数或模型。
  • 例如,用神经网络输入状态,输出每个动作的Q值 (DQN),或直接输出动作的概率分布 (Policy Gradients)。
  • 能够处理高维输入,如图像 (Atari 游戏)、文本。
  • 算法如:DQN, DDPG, A3C, PPO, TRPO。
深度 Q 网络 (DQN) 损失函数:

L = E [ ( r + γ max ⁡ a ′ Q ( s ′ , a ′ ; θ − ) − Q ( s , a ; θ ) ) 2 ] \mathcal{L} = \mathbb{E} \left[ \left( r + \gamma \max_{a'} Q(s', a'; \theta^-) - Q(s, a; \theta) \right)^2 \right] L=E[(r+γmaxaQ(s,a;θ)Q(s,a;θ))2]
其中 θ \theta θ 是当前网络参数, θ − \theta^- θ 是目标网络参数。

策略梯度 (Policy Gradient):

∇ θ J ( θ ) = E [ ∇ θ log ⁡ π θ ( a ∣ s ) ⋅ A ( s , a ) ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot A(s, a) \right] θJ(θ)=E[θlogπθ(as)A(s,a)]
其中 A ( s , a ) A(s, a) A(s,a) 是优势函数,用于处理连续动作空间和高维输入。

4. 序列决策 (Sequential Decision Making)

4.1 奖励与回报

  • 奖励假设 (Reward Hypothesis): 强化学习中的所有目标都可以被描述为最大化期望累积奖励。
  • 近期奖励 vs 远期奖励的权衡: 智能体的目标是最大化从当前时刻开始的未来累积奖励(也称为回报 Return, G),而不仅仅是即时奖励。

4.2 可观测性 (Observability)

  • 完全可观测 (Fully Observable): 智能体可以直接观测到环境的真实状态 S t S_t St。这类问题通常用马尔可夫决策过程 (Markov Decision Process, MDP) 来建模。

    • 马尔可夫性质: 当前状态 S t S_t St 包含了所有与未来决策相关的历史信息,即 P ( S t + 1 ∣ S t , A t , S t − 1 , A t − 1 , . . . ) = P ( S t + 1 ∣ S t , A t ) P(S_{t+1} | S_t, A_t, S_{t-1}, A_{t-1}, ...) = P(S_{t+1} | S_t, A_t) P(St+1St,At,St1,At1,...)=P(St+1St,At)
  • 部分可观测 (Partially Observable): 智能体只能得到环境的部分信息,即观测 O t O_t Ot O t ≠ S t O_t \neq S_t Ot=St。观测可能包含噪声或不完整。这类问题通常用部分可观测马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 来建模。

    • 观测模型: O ( o ∣ s , a ) = P ( O t = o ∣ S t = s , A t − 1 = a ) O(o | s, a) = P(O_t = o | S_t = s, A_{t-1} = a) O(os,a)=P(Ot=oSt=s,At1=a),描述部分可观测性。
    • 信念状态: b ( s ) = P ( S t = s ∣ o 1 , a 1 , … , o t , a t ) b(s) = P(S_t = s | o_1, a_1, \dots, o_t, a_t) b(s)=P(St=so1,a1,,ot,at),根据观测历史估计状态。

4.3 马尔可夫决策过程 (MDP)

  • 状态转移概率: P ( s ′ ∣ s , a ) = P ( S t + 1 = s ′ ∣ S t = s , A t = a ) P(s' | s, a) = P(S_{t+1} = s' | S_t = s, A_t = a) P(ss,a)=P(St+1=sSt=s,At=a)
  • 奖励函数: R ( s , a ) = E [ R t + 1 ∣ S t = s , A t = a ] R(s, a) = \mathbb{E} [R_{t+1} | S_t = s, A_t = a] R(s,a)=E[Rt+1St=s,At=a]
  • 贝尔曼方程:
    • 状态价值: V π ( s ) = ∑ a π ( a ∣ s ) ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ V π ( s ′ ) ] V^\pi(s) = \sum_a \pi(a|s) \sum_{s', r} P(s', r | s, a) \left[ r + \gamma V^\pi(s') \right] Vπ(s)=aπ(as)s,rP(s,rs,a)[r+γVπ(s)]
    • 动作价值: Q π ( s , a ) = ∑ s ′ , r P ( s ′ , r ∣ s , a ) [ r + γ ∑ a ′ π ( a ′ ∣ s ′ ) Q π ( s ′ , a ′ ) ] Q^\pi(s, a) = \sum_{s', r} P(s', r | s, a) \left[ r + \gamma \sum_{a'} \pi(a'|s') Q^\pi(s', a') \right] Qπ(s,a)=s,rP(s,rs,a)[r+γaπ(as)Qπ(s,a)]

4.4 交互过程的数学表示

  • 智能体在 t t t 时刻观察到状态 O t O_t Ot (观测),执行动作 A t A_t At,环境反馈奖励 R t + 1 R_{t+1} Rt+1 和下一个状态 S t + 1 S_{t+1} St+1 (或观测 O t + 1 O_{t+1} Ot+1)。
  • S t → A t → R t + 1 , S t + 1 S_t \rightarrow A_t \rightarrow R_{t+1}, S_{t+1} StAtRt+1,St+1 (对于完全可观测环境)
  • O t → A t → R t + 1 , O t + 1 O_t \rightarrow A_t \rightarrow R_{t+1}, O_{t+1} OtAtRt+1,Ot+1 (对于部分可观测环境)

5. 动作空间 (Action Space)

5.1 离散动作空间 (Discrete Action Space)

  • 动作的数量是有限的、可数的。
  • 动作集合: A = { a 1 , a 2 , … , a n } \mathcal{A} = \{a_1, a_2, \dots, a_n\} A={a1,a2,,an},有限动作的概率分布: π ( a ∣ s ) \pi(a|s) π(as)
  • 例如:在游戏中按"上、下、左、右";在棋类游戏中选择棋子和落点。

5.2 连续动作空间 (Continuous Action Space)

  • 动作是实值向量,每个维度可以取一定范围内的连续值。
  • 动作集合: A ⊆ R d \mathcal{A} \subseteq \mathbb{R}^d ARd,策略通常建模为概率密度,例如高斯分布:
    π ( a ∣ s ) = N ( a ∣ μ ( s ) , σ 2 ) \pi(a|s) = \mathcal{N}(a | \mu(s), \sigma^2) π(as)=N(aμ(s),σ2)
    其中 μ ( s ) \mu(s) μ(s) 是均值, σ 2 \sigma^2 σ2 是方差。
  • 例如:机器人控制中关节的角度或力矩;自动驾驶中方向盘转角、油门大小。

6. 智能体组成和分类 (Agent Components and Taxonomy)

6.1 基于价值的智能体 (Value-Based Agents)

  • 显式学习价值函数 (通常是 Q 函数)。
  • 策略是隐式的,通常通过选择具有最高价值的动作来导出(例如,贪心策略 w.r.t. Q-values)。
  • 例子: Q-Learning, DQN, Sarsa。

6.2 基于策略的智能体 (Policy-Based Agents)

  • 直接学习策略函数 π ( a ∣ s ) \pi(a|s) π(as),而不需要学习价值函数。
  • 可以直接处理连续动作空间。
  • 例子: REINFORCE, A2C (Actor-Critic 中的 Actor 部分)。

6.3 演员-评论家智能体 (Actor-Critic Agents)

  • 结合了基于价值和基于策略的方法。
  • 演员 (Actor): 学习策略 (Policy),负责选择动作。
  • 评论家 (Critic): 学习价值函数 (Value Function),负责评估演员选择的动作的好坏,并指导演员的更新。
  • 演员更新: ∇ θ J ( θ ) = E [ ∇ θ log ⁡ π θ ( a ∣ s ) ⋅ Q ( s , a ) ] \nabla_\theta J(\theta) = \mathbb{E} \left[ \nabla_\theta \log \pi_\theta(a|s) \cdot Q(s, a) \right] θJ(θ)=E[θlogπθ(as)Q(s,a)]
  • 评论家更新: 最小化误差: L = ( Q ( s , a ) − ( r + γ V ( s ′ ) ) ) 2 \mathcal{L} = \left( Q(s, a) - (r + \gamma V(s')) \right)^2 L=(Q(s,a)(r+γV(s)))2
  • 例子: A2C (Advantage Actor-Critic), A3C (Asynchronous Advantage Actor-Critic), DDPG, PPO.

6.4 有模型的智能体 (Model-Based Agents)

  • 显式地学习环境的模型。
  • 学习到模型后,可以通过模型进行规划(例如,通过模拟未来的轨迹来选择最优动作),或者生成模拟经验来辅助学习。
  • 优点:可能样本效率更高。
  • 缺点:学习一个准确的模型本身可能很困难;如果模型不准确,可能导致次优策略(模型误差累积)。
  • 例子: Dyna-Q。

6.5 免模型的智能体 (Model-Free Agents)

  • 不尝试学习环境的模型。
  • 直接从与环境交互的经验中学习策略或价值函数。
  • 优点:实现相对简单,可以直接应用于模型未知的环境。
  • 缺点:通常需要大量的经验数据,样本效率可能较低。
  • 大多数流行的深度强化学习算法(如 DQN, PPO, A3C)都是免模型的。

7. 探索和利用 (Exploration and Exploitation)

这是强化学习中的一个基本困境。

7.1 探索 (Exploration)

  • 尝试新的、未充分评估的动作,以期发现可能带来更高奖励的路径或策略。
  • 目的是获取更多关于环境的信息,避免陷入局部最优。
  • 可能导致短期内的次优选择。

7.2 利用 (Exploitation)

  • 根据当前已有的知识,选择已知能带来最高(期望)奖励的动作。
  • 目的是最大化当前的表现。
  • 可能错过更好的未知选择。

7.3 平衡策略

7.3.1 ε-贪婪策略 (ε-greedy)
  • 1 − ε 1-\varepsilon 1ε 的概率选择当前估计最优的动作(利用)。
  • ε \varepsilon ε 的概率随机选择一个动作(探索)。
  • ε \varepsilon ε 的值可以随着训练的进行而逐渐减小。
  • 动作选择:
    a = { random action with probability  ϵ arg ⁡ max ⁡ a Q ( s , a ) with probability  1 − ϵ a = \begin{cases} \text{random action} & \text{with probability } \epsilon \\ \arg\max_a Q(s, a) & \text{with probability } 1 - \epsilon \end{cases} a={random actionargmaxaQ(s,a)with probability ϵwith probability 1ϵ
7.3.2 上置信界 (Upper Confidence Bound, UCB)
  • 选择动作时,不仅考虑其估计价值,还考虑其不确定性。优先选择那些估计价值高或不确定性大的动作。
  • 动作选择:
    a = arg ⁡ max ⁡ a [ Q ( s , a ) + c ln ⁡ N ( s ) N ( s , a ) ] a = \arg\max_a \left[ Q(s, a) + c \sqrt{\frac{\ln N(s)}{N(s, a)}} \right] a=argmaxa[Q(s,a)+cN(s,a)lnN(s) ]
    其中 N ( s ) N(s) N(s) 是状态访问次数, N ( s , a ) N(s, a) N(s,a) 是动作选择次数, c c c 是探索参数。
7.3.3 基于概率匹配的探索 (Probability Matching / Thompson Sampling)
  • 假设每个动作的价值服从某个概率分布,根据这些分布采样来选择动作。
7.3.4 好奇心驱动/内在激励 (Intrinsic Motivation / Curiosity-driven Exploration)
  • 为智能体引入额外的"好奇心"奖励,鼓励其探索新奇的状态或环境动态难以预测的部分。

8. 关键词总结 (Keywords Summary)

  • 强化学习 (Reinforcement Learning, RL)
  • 智能体 (Agent)
  • 环境 (Environment)
  • 状态 (State, S)
  • 动作 (Action, A)
  • 奖励 (Reward, R)
  • 策略 (Policy, π) (随机性/确定性)
  • 价值函数 (Value Function) (V(s), Q(s,a))
  • 模型 (Model) (状态转移, 奖励模型)
  • 马尔可夫决策过程 (Markov Decision Process, MDP)
  • 部分可观测马尔可夫决策过程 (POMDP)
  • 回报 (Return, Gt)
  • 折扣因子 (Discount Factor, γ)
  • 轨迹 (Trajectory) / 回合 (Episode)
  • 探索与利用 (Exploration vs. Exploitation) (ε-greedy, UCB)
  • 基于价值 (Value-Based) (Q-Learning, DQN)
  • 基于策略 (Policy-Based) (REINFORCE)
  • 演员-评论家 (Actor-Critic) (A2C, A3C, PPO, DDPG)
  • 有模型 (Model-Based)
  • 免模型 (Model-Free)
  • 深度强化学习 (Deep Reinforcement Learning, DRL)
  • 信用分配问题 (Credit Assignment Problem)
  • 延迟奖励 (Delayed Reward)
  • 动作空间 (Action Space) (离散/连续)

9. 强化学习在大语言模型中的应用

9.1 核心概念在LLM中的映射

9.1.1 智能体和策略

智能体 (Agent) / 策略 (Policy, π):

  • 在LLM语境下: LLM本身就是智能体,其参数定义了策略。策略决定了在给定当前文本序列(状态)的条件下,选择下一个词元(token/动作)的概率分布 π ( 下一个词元 ∣ 当前文本序列 ) \pi(\text{下一个词元} | \text{当前文本序列}) π(下一个词元当前文本序列)
  • 重点关注:
    • LLM如何作为策略网络被优化。
    • 理解随机性策略(通过采样,如温度、top-k, top-p)和确定性策略的含义,尽管在生成任务中通常使用随机策略进行探索。
    • 数学公式相关: π ( a ∣ s ) = P ( A t = a ∣ S t = s ) \pi(a|s) = P(A_t=a | S_t=s) π(as)=P(At=aSt=s) (随机策略) 和策略梯度 ∇ θ J ( θ ) = E [ ∇ θ log ⁡ π θ ( a ∣ s ) ⋅ A ( s , a ) ] \nabla_\theta J(\theta)=\mathbb{E}[\nabla_\theta\log\pi_\theta(a|s)\cdot A(s,a)] θJ(θ)=E[θlogπθ(as)A(s,a)] (策略更新的核心)。
9.1.2 状态和动作

状态 (State, S) / 动作 (Action, A) / 轨迹 (Trajectory) / 回合 (Episode):

  • 在LLM语境下:
    • 状态 (S): 当前已经生成的文本序列(或其在LLM中的内部表示)。
    • 动作 (A): LLM选择生成的下一个词元(token)。
    • 动作空间: 整个词汇表(vocabulary)的大小,通常是一个非常巨大的离散动作空间(数万到数十万个可能的动作)。
    • 轨迹/回合 (τ/Episode): 从一个初始提示(prompt)开始,LLM生成的一整个文本序列,直到遇到结束符或达到最大长度。
9.1.3 奖励机制

奖励 (Reward, R) / 回报 (Return, G_t):

  • 在LLM语境下: 这是RLHF的核心。奖励通常不是环境直接给出的,而是由一个独立的奖励模型 (Reward Model, RM) 给出。这个RM本身是根据人类偏好数据训练的监督学习模型,它评估LLM生成的文本序列的质量(例如,有用性、无害性、真实性)。
  • 重点关注:
    • 奖励模型的设计和训练。
    • 如何定义一个好的奖励信号来引导LLM生成期望的输出。
    • 延迟奖励/信用分配问题: 一个完整的生成文本可能在末尾才获得一个总的奖励,如何将这个奖励合理分配给序列中的每一个词元选择(动作)是一个挑战,尽管在实践中通常对整个序列评分。
    • 数学公式相关: G t = ∑ k = 0 ∞ γ k R t + k + 1 G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1} Gt=k=0γkRt+k+1 (回报定义) 和奖励函数 R ( s , a ) R(s, a) R(s,a) (虽然在LLM中通常是 R ( 整个序列 ) R(\text{整个序列}) R(整个序列))。
9.1.4 价值评估

价值函数 (Value Function, V(s), Q(s,a)):

  • 在LLM语境下: 尤其在Actor-Critic方法(如PPO)中,价值函数(通常是状态价值函数 V ( s ) V(s) V(s))被用来估计当前状态(文本序列)的期望回报。它可以帮助减少策略梯度的方差,稳定训练。这个价值函数(也叫Critic)通常也是一个独立的神经网络。
  • 重点关注:
    • 价值函数如何辅助策略学习(例如,在优势函数 A ( s , a ) = Q ( s , a ) − V ( s ) A(s,a) = Q(s,a) - V(s) A(s,a)=Q(s,a)V(s) A ( s , a ) = R + γ V ( s ′ ) − V ( s ) A(s,a) = R + \gamma V(s') - V(s) A(s,a)=R+γV(s)V(s) 中的作用)。
    • Critic网络的训练目标(例如,最小化TD误差)。
    • 数学公式相关: V π ( s ) V^\pi(s) Vπ(s) Q π ( s , a ) Q^\pi(s,a) Qπ(s,a) 的定义,贝尔曼方程,以及DQN损失函数中的目标值 r + γ max ⁡ a ′ Q ( s ′ , a ′ ; θ − ) r + \gamma \max_{a'} Q(s',a'; \theta^-) r+γmaxaQ(s,a;θ) (理解其思想,即使DQN本身不直接用于LLM生成)。

9.2 RLHF中的关键算法

9.2.1 演员-评论家方法与PPO

演员-评论家 (Actor-Critic) 方法 (特别是PPO):

  • 在LLM语境下: PPO (Proximal Policy Optimization) 是目前微调LLM最主流和最成功的RL算法。LLM是Actor(策略),另外还会有一个Critic(价值函数)。
  • 重点关注:
    • PPO的核心思想:如何通过限制策略更新的幅度(clipping)来保证训练的稳定性。
    • Actor(LLM/Policy)和Critic(Value Network)的交互和各自的更新规则。
    • 数学公式相关: PPO的Clipped Surrogate Objective Function:
      L C L I P ( θ ) = E t [ min ⁡ ( r t ( θ ) A ^ t , clip ( r t ( θ ) , 1 − ϵ , 1 + ϵ ) A ^ t ) ] L^{CLIP}(\theta) = \mathbb{E}_t\left[\min\left(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t\right)\right] LCLIP(θ)=Et[min(rt(θ)A^t,clip(rt(θ),1ϵ,1+ϵ)A^t)]
      其中 r t ( θ ) = π θ ( a t ∣ s t ) π θ o l d ( a t ∣ s t ) r_t(\theta) = \frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{old}}(a_t|s_t)} rt(θ)=πθold(atst)πθ(atst) 是重要性采样比率。
9.2.2 免模型方法

免模型 (Model-Free) 方法:

  • 在LLM语境下: RLHF通常采用免模型方法。这意味着我们不尝试去学习环境的完整动态模型(即给定当前文本和下一个词元,下一个状态和奖励的精确概率分布)。我们直接学习策略(LLM本身)和/或价值函数。
  • 重点关注: 理解为什么对于复杂的LLM和文本生成任务,免模型方法更实用。
9.2.3 深度强化学习的应用

深度强化学习 (Deep Reinforcement Learning, DRL):

  • 在LLM语境下: LLM本身就是深度神经网络,所以这自然是DRL的应用。策略网络和价值网络(如果使用)都是深度模型。
  • 重点关注: 神经网络如何作为函数逼近器来表示策略和价值函数。

9.3 探索与学习机制

9.3.1 探索与利用的平衡

探索与利用 (Exploration vs. Exploitation):

  • 在LLM语境下:
    • 探索: LLM生成多样化的、可能不是当前最优但有潜力的文本。这可以通过在策略(LLM的输出概率分布)中引入随机性(例如,采样温度)来实现。
    • 利用: LLM生成当前已知能够获得高奖励的文本。
  • 重点关注: 虽然不像传统RL那样有明确的ε-greedy等机制,但理解LLM的采样策略(temperature, top-p, top-k)如何隐式地平衡探索和利用是重要的。RL的优化过程会逐渐引导LLM"利用"更高奖励的生成模式。
9.3.2 马尔可夫决策过程在LLM中的应用

马尔可夫决策过程 (Markov Decision Process, MDP):

  • 在LLM语境下: 文本生成过程可以被近似地建模为一个MDP,其中当前状态(已生成的文本)包含了做出下一个决策(选择下一个词元)所需的所有信息。
  • 重点关注: 理解MDP的基本框架如何应用于序列决策问题。
9.3.3 折扣因子的意义

折扣因子 (Discount Factor, γ):

  • 在LLM语境下: 用于平衡即时奖励和未来奖励的重要性。在文本生成中,如果奖励主要在序列末尾给出,折扣因子的影响可能不如在每一步都有密集奖励的任务中那么直接,但概念仍然重要。

9.4 RLHF优化流程总结

RLHF的核心流程:

  1. 预训练LLM: 通过自监督学习,LLM学习语言建模能力
  2. 奖励模型训练: 基于人类偏好数据训练奖励模型
  3. RL优化: 使用PPO等算法,根据奖励模型提供的反馈优化LLM

关键优化目标:

  • 最大化期望累积奖励 J ( π ) = E π [ ∑ t = 0 ∞ γ t R t + 1 ] J(\pi) = \mathbb{E}_\pi [ \sum_{t=0}^{\infty} \gamma^t R_{t+1} ] J(π)=Eπ[t=0γtRt+1]。LLM ( π \pi π) 是要优化的对象。
  • 奖励 R R R 来自于一个独立的奖励模型,而不是环境本身。
  • LLM的输出概率分布 π θ ( a ∣ s ) \pi_\theta(a|s) πθ(as) 就是策略。 a a a 是词汇表中的一个词元, s s s 是之前的词元序列。
  • 数据流: 智能体(LLM)生成一个轨迹(文本序列),奖励模型评估这个轨迹给出奖励,然后PPO算法根据这个奖励更新LLM的参数 θ \theta θ 和Critic的参数。

网站公告

今日签到

点亮在社区的每一天
去签到