深度学习篇---Pytorch常用优化器

发布于:2025-09-04 ⋅ 阅读:(22) ⋅ 点赞:(0)

优化器介绍:

在 PyTorch 中,优化器(Optimizer)的作用是根据模型参数的梯度来更新参数,以最小化损失函数。下面用通俗易懂的方式介绍几种常用的优化器:

1. SGD(随机梯度下降)

最基础的优化器,原理类似下山:每次走一小步,方向由当前位置的坡度(梯度)决定。

  • 特点:简单直接,但可能在陡坡处震荡,在平缓区域收敛慢。
  • 改进版:带动量(Momentum)的 SGD,就像下山时带了惯性,能加快收敛,减少震荡。比如小球从坡上滚下,不会突然停下,而是有持续的动力。
  • 适用场景:数据量大、需要稳定训练的场景,是很多复杂优化器的基础。

2. Adam(自适应矩估计)

目前最常用的优化器之一,可以理解为 “聪明的 SGD”。

  • 特点:会根据参数的更新频率自动调整学习率(步长):
    • 对于更新频繁的参数(如高频特征),用较小的学习率,避免来回震荡;
    • 对于更新少的参数(如低频特征),用较大的学习率,加速收敛。
  • 优势:收敛快、稳定性好,不需要手动调太多参数,适合大多数场景(如图像、NLP)。

3. RMSprop(均方根传播)

专注于解决学习率自适应问题,类似 Adam 的 “简化版”。

  • 特点:通过参数梯度的平方的移动平均值来调整学习率,避免学习率过大或过小。
  • 适用场景:在递归神经网络(RNN)中表现较好,适合处理序列数据。

4. Adagrad(自适应梯度)

最早的自适应学习率优化器之一

  • 特点:对每个参数单独调整学习率,更新越频繁的参数,学习率衰减越快。
  • 缺点:学习率会持续减小,可能导致训练后期几乎停止更新。现在用得较少,被 Adam、RMSprop 替代。

5. AdamW

Adam 的改进版,解决了 Adam 中权重衰减(L2 正则化)的实现问题。

  • 特点:在 Adam 基础上,将权重衰减单独处理,让正则化效果更稳定,尤其在训练 Transformer 等大模型时表现更好。

怎么选?

  • 新手入门:优先用 Adam,适用范围广,调参简单。
  • 追求稳定性:用 SGD+Momentum,适合需要精细调优的场景。
  • 训练大模型:优先 AdamW,正则化效果更可靠。

可以简单理解为:SGD 是 “步行”,Adam 是 “骑车”,AdamW 是 “更好的骑车”—— 后者更快更稳,但前者更基础可控。

优化器选择:

在 PyTorch 中选择合适的优化器,需要结合模型特点、数据特性和训练目标来综合判断。以下是通俗易懂的选择方法和思路:

一、先明确核心需求

选择优化器前,先问自己 3 个问题:

  1. 模型大小:是简单模型(如线性回归)还是复杂模型(如 Transformer、ResNet)?
  2. 数据情况:数据量大还是小?噪声多还是少?
  3. 训练目标:追求快速收敛?还是需要更稳定的结果?或是要避免过拟合?

二、按场景选择优化器

1. 新手 / 通用场景:优先用 Adam
  • 适用情况:不知道选什么时的 “万能药”,尤其适合:
    • 中等规模模型(如普通 CNN、LSTM)
    • 数据分布较复杂的任务(如图像分类、文本分类)
    • 希望快速看到训练效果,不想调太多参数
  • 优点:自带自适应学习率,收敛快,对学习率不敏感(默认参数 often 能跑通)
2. 复杂大模型:选 AdamW
  • 适用情况:训练大型模型(如 BERT、GPT、深层 ResNet)
  • 为什么:AdamW 修复了 Adam 中权重衰减(正则化)的设计缺陷,能更好地控制模型复杂度,避免过拟合。现在大模型训练基本都用它(比如 Hugging Face 库的默认优化器)。
3. 追求极致性能 / 稳定收敛:选 SGD+Momentum
  • 适用情况
    • 简单模型(如线性回归、逻辑回归)
    • 需要精细调优的场景(如目标检测中的边框回归)
    • 数据量极大(百万级以上样本)
  • 优点
    • 收敛到的结果可能比 Adam 更优(尤其在凸优化问题中)
    • 内存占用小,适合大数据训练
  • 缺点:需要手动调学习率(通常配合学习率衰减策略),收敛速度较慢
4. 序列数据 / 递归模型:RMSprop 或 Adam
  • 适用情况:处理文本、语音等序列数据(如 RNN、LSTM)
  • 为什么:这类模型容易出现梯度爆炸 / 消失,RMSprop 和 Adam 通过自适应学习率能更好地稳定训练
5. 特殊场景:其他优化器
  • Adagrad:适合稀疏数据(如文本中的词向量),但现在很少用(学习率衰减太快)
  • Rprop:适合噪声大的数据,但仅在特定科研场景使用
  • LBFGS:适合小批量、高精度的凸优化问题(如小规模线性模型),但不适合深度学习

三、实用技巧

  1. 先试简单的:新手先用 Adam 跑通模型,再尝试 AdamW 或 SGD 对比效果
  2. 关注学习率
    • Adam/AdamW 通常用 1e-3 ~ 1e-5
    • SGD 通常用 1e-2 ~ 1e-4(需要配合更大的动量,如 0.9)
  3. 结合学习率调度器:无论选哪种优化器,搭配 StepLR 或 CosineAnnealingLR 等调度器,效果会更好
  4. 看文献 / 开源项目:同类任务别人用什么优化器?比如目标检测常用 SGD,NLP 常用 AdamW

总结

  • 快速上手 / 通用场景 → Adam
  • 大模型 / 需要正则化 → AdamW
  • 简单模型 / 大数据 / 精细调优 → SGD+Momentum
  • 序列数据 → Adam 或 RMSprop

优化器没有绝对的 “最好”,只有 “最合适”,建议多尝试对比效果!