【强化学习】什么是强化学习？2025

发布于：2025-05-07 ⋅ 阅读:(178) ⋅ 点赞:(0)

1. 强化学习简介

一句话总结：强化学习（Reinforcement Learning, RL）是一种机器学习范式，强调智能体（agent）通过与环境（environment）的交互，以试错（trial‑and‑error）的方式学习一套策略（policy），以最大化累积奖励（cumulative reward）。

在这里插入图片描述

1.1. 基本组成：智能体与环境

智能体（Agent）：能够感知环境状态并执行动作的主体。
环境（Environment）：智能体所处的外部系统，会根据智能体的动作返回新的状态和奖励信号。

1.2. 关键要素

奖励（Reward）：环境对智能体动作的反馈，可正可负，指导智能体区分好坏行为。
策略（Policy）：智能体决定在某状态下选择何种动作的概率分布。可以是确定性的，也可以是随机的。
值函数（Value Function）：用于评估在某一状态（或状态—动作对）下，后续可能获得的累积奖励。

1.3. 与其他学习范式的区别

监督学习：需要大量标注的输入–输出样本；强化学习仅需奖励信号，不需标签。
无监督学习：关注数据结构与分布；强化学习关注通过交互获取反馈并优化决策。

1.4. 强化学习的应用

应用领域	具体示例
游戏 AI	DeepMind 的 AlphaGo、OpenAI Five 在 Dota 2 中的表现
机器人控制	Figure 02 的仿真训练步态、Google 机器人手臂开门实例
自动驾驶	基于卷积神经网络的自动驾驶汽车感知与决策、静态环境下车辆轨迹预测
金融交易与投资	算法交易、投资组合优化与风险管理
医疗健康	动态治疗方案推荐（如癌症放疗和脓毒症治疗）
自然语言处理	对话系统优化、文本摘要与机器翻译
营销与广告	实时竞价与广告位优化、个性化推荐广告
能源管理	电网负荷优化与微电网控制
推荐系统	新闻推荐与内容个性化推荐
交通信号控制	多交叉口交通信号协调优化

2. 专业名词解释

专业名词	解释
智能体 (Agent)	在环境中执行动作、接收状态和奖励，并根据策略不断学习和决策的主体。
环境 (Environment)	智能体所处的外部系统或仿真场景，定义了状态空间、动作空间以及奖励机制。
状态 (State)	环境在某一时刻的描述，通常由一组变量或观测组成，表示智能体可观测的信息。
动作 (Action)	智能体在某一状态下可执行的操作或决策，可离散也可连续。
奖励 (Reward)	环境对智能体动作的反馈信号，指导智能体区分好坏行为，以最大化累积奖励为目标。
折扣因子 (Discount Factor, γ)	用于计算未来奖励现值的系数，γ∈[0,1]，γ 越大表示越重视长期回报，γ 越小表示越偏好短期回报。
累积回报 (Return, Gₜ)	智能体从时间步 t 开始到未来各时刻获得的折扣奖励总和： $(G_t = \sum_{k=0}^\infty γ^k R_{t+k+1})$ 。
策略 (Policy, π)	智能体在各状态下选择动作的概率分布，可为确定性策略或随机策略。
值函数 (Value Function)	用于评估状态（或状态–动作对）如何“好”的函数，代表从该状态（或状态–动作对）出发可获得的期望累积回报。
状态–动作值函数 (Q-Value, Q)	特殊的值函数，评估在给定状态下执行某动作后，按照策略继续行动可获得的期望累积回报。
马尔可夫决策过程 (MDP)	强化学习的数学框架，由状态空间、动作空间、转移概率和奖励函数构成，假设系统满足马尔可夫性。
探索–利用权衡 (Exploration–Exploitation)	智能体在尝试新动作（探索）与利用已知最优动作（利用）之间的平衡策略或机制。
模型基 (Model-based)	强化学习方法之一，通过学习或已知环境模型来进行规划和决策。
无模型 (Model-free)	强化学习方法之一，不显式构建环境模型，直接从交互经验中学习策略或值函数。
On‑policy	策略学习方式之一，使用当前行为策略生成数据并更新同一策略，如 SARSA、PPO。
Off‑policy	策略学习方式之一，使用与行为策略不同的数据或经验回放更新目标策略，如 Q‑learning、DQN。

3. 强化学习分类

在这里插入图片描述

一、按算法核心思想分类

1. 基于价值（Value-Based）

特点：通过估计状态或动作的长期价值（Q值）选择最优策略。
代表算法：
- Q-learning：无模型、离线策略，通过最大化未来奖励更新Q表。
- DQN（Deep Q-Network）：结合深度神经网络与Q-learning，解决高维状态空间问题，加入经验回放和目标网络稳定训练。
- Double DQN：改进DQN的过估计问题，分离动作选择与价值评估。

2. 基于策略（Policy-Based）

特点：直接优化策略函数，输出动作概率分布。
代表算法：
- REINFORCE：回合更新策略，通过蒙特卡洛采样估计梯度。
- PPO（Proximal Policy Optimization）：限制策略更新幅度，平衡稳定性与效率，广泛应用于游戏和大模型对齐。
- TRPO（Trust Region Policy Optimization）：通过KL散度约束策略更新步长，保证稳定性。

3. Actor-Critic混合方法

特点：结合价值函数（Critic）与策略函数（Actor），兼顾评估与优化。
代表算法：
- A3C（Asynchronous Advantage Actor-Critic）：异步多线程训练，加速收敛。
- DDPG（Deep Deterministic Policy Gradient）：处理连续动作空间，结合确定性策略与Q函数。
- SAC（Soft Actor-Critic）：最大化熵正则化，鼓励探索，提升鲁棒性。

二、按环境模型依赖分类

1. Model-Free（无模型）

特点：不依赖环境动态模型，直接通过交互学习策略或价值函数。
典型算法：Q-learning、DQN、PPO、SAC。

2. Model-Based（有模型）

特点：学习或假设环境模型（如状态转移概率），利用规划优化策略。
代表方法：
- 动态规划（DP）：基于已知模型求解最优策略。
- 蒙特卡洛树搜索（MCTS）：结合模型预测与策略优化，如AlphaGo。

三、按更新方式分类

1. 回合更新（Monte-Carlo）

特点：等待完整回合结束后更新策略，如REINFORCE。

2. 单步更新（Temporal Difference）

特点：每一步交互后立即更新，如Q-learning、SARSA。

3. 多步更新（n-Step Bootstrapping）

特点：平衡单步与回合更新的偏差与方差，如Sarsa(λ)。

四、其他重要算法

SARSA：在线策略算法，强调动作选择的连续性，保守性强。
A2C（Advantage Actor-Critic）：同步版本A3C，简化多线程设计。
Imitation Learning（模仿学习）：结合专家示范数据加速策略学习。