⼀般⽽⾔,训练⼀个完整的 LLM 需要经过图1中的三个阶段——Pretrain、SFT 和 RLHF。
4.2.1 Pretrain
预训练任务与架构
- 任务类型:采用因果语言模型(CLM),通过预测下一个 token 进行训练,与传统预训练模型(如 BERT)的 MLM 任务不同,更侧重生成能力。
- 架构选择:主流 LLM(如 GPT-3、LLaMA)采用 Decoder-Only 架构,相比传统模型(如 BERT 的 Encoder 架构)更适合长文本生成。
参数量与数据规模对比
- 核心差异:LLM 参数量比传统模型大 1-3 个数量级,训练数据需满足 Scaling Law(token 数约为参数的 1.7-20 倍),如 GPT-3 需 300 亿 - 3.5 万亿 token。
分布式训练框架与技术
- 数据并行:多 GPU 同时处理不同批次数据,同步梯度更新,适用于模型参数可容纳单卡的场景。
- 模型并行:将模型分层或分模块部署到不同 GPU,解决百亿级参数的内存瓶颈(如 GPT-3 需拆分为 96 层 Decoder)。
主流的分布式训练框架包括 Deepspeed、Megatron-LM、ColossalAI 等,其中,Deepspeed 使⽤⾯最⼴。
DeepSpeed:采用 ZeRO 优化显存,分三级策略(ZeRO-1 至 ZeRO-3)逐步分⽚模型状态参数,减少单卡显存占用(如 ZeRO-3 可使单卡仅存储 1/n 模型参数)。
ZeRO 将模型训练阶段每张卡被占⽤的显存分为两类:
- 模型状态(Model States),包括模型参数、模型梯度和优化器 Adam 的状态参数。假设模型参数量为1M,⼀般来说,在混合精度训练的情况下,该部分需要 16M 的空间进⾏存储,其中 Adam 状态参数会占据12M 的存储空间。
- 剩余状态(Residual States),除了模型状态之外的显存占⽤,包括激活值、各种缓存和显存碎⽚。
针对上述显存占⽤,ZeRO 提出了三种不断递进的优化策略:
- 1. ZeRO-1,对模型状态中的 Adam 状态参数进⾏分⽚,即每张卡只存储 的 Adam 状态参数,其他参数仍然保持每张卡⼀份。
- 2. ZeRO-2,继续对模型梯度进⾏分⽚,每张卡只存储 的模型梯度和 Adam 状态参数,仅模型参数保持每张卡⼀份。
- 3. ZeRO-3,将模型参数也进⾏分⽚,每张卡只存储 的模型梯度、模型参数和 Adam 状态参数。
其他框架:Megatron-LM(张量并行)、ColossalAI(3D 并行),结合 CPU-offload 技术进一步释放 GPU 内存。
预训练数据挑战与处理流程
主流开源数据:CommonCrawl(67%)、C4(15%)、Github(4.5%)等,LLM 常混合私有高质量数据(如学术论文、书籍)。
中文数据缺口:高质量中文开源数据集(如 SkyPile、yayi2)规模远小于英文(如 RedPajama-1T),且闭源模型(如 ChatGLM)未公开预训练数据。
预训练数据处理⼀般包括以下流程:
- 文档准备:爬取网页后过滤 URL、提取纯文本、筛选语种(如保留中文 / 英文)。
- 语料过滤:通过模型分类器(如 BERT 筛选高质量文本)或启发式规则(如去除乱码、广告)剔除低质内容。
- 语料去重:基于 hash 算法或子串匹配删除重复文档,避免模型过拟合(如 SlimPajama-627B 通过去重实现比 RedPajama-1T 更好效果)。
4.2.2 SFT
SFT——Supervisor Finetune,有监督微调。赋予预训练 LLM “通用指令遵循能力”,解决其 “死板背书” 问题(仅能预测下一个 token,无法理解指令含义)。
与传统微调的区别:传统 PLM 需针对单一任务(如文本分类)单独微调,而 LLM 的 SFT 通过 “指令微调” 实现跨任务泛化,例如用同一模型处理翻译、问答、生成等多类指令。
指令数据的构建需覆盖多任务类型(如文本生成、问答、聊天),开源 LLM 的 SFT 数据量通常在数 B token 级别,单任务需 500~1000 条样本。
配比例子:OpenAI 的 InstructGPT 数据中,文本生成占 45.6%、开放域问答占 12.4%、聊天占 8.4%,需平衡不同任务类型的比例以提升泛化性。
数据获取难点:
- 人工标注成本高:高质量指令 - 响应对依赖专业标注(如 ChatGPT 的成功依赖人工数据),开源数据稀缺。
- 替代方案:通过 LLM 生成指令数据(如 Alpaca 基于 ChatGPT 生成样本),降低标注成本但需注意数据质量。
指令数据格式通常包含三个键(以翻译任务为例):
{
"instruction": "将下列文本翻译成英文",
"input": "今天天气真好",
"output": "Today is a nice day!"
}
格式优化:
- LLaMA 格式:使用特定分隔符(如
### Instruction:\n
)包裹指令,确保模型识别输入模式。 - 多轮对话构造:
- 不合理方式:仅拟合最后一轮回复(丢失中间信息)或拆分为单轮样本(重复计算)。
- 合理方式:将多轮对话拼接为连续文本(如
prompt1+completion1+prompt2+completion2+...
),模型按顺序预测每轮输出,例如:
输入:用户问“你好”→模型回“您好”→用户问“Datawhale是什么”
输出:模型需生成“您好”+“Datawhale是开源组织”(按CLM预测下一个token)
多轮对话不依赖预训练,完全通过 SFT 阶段的对话格式数据训练获得。
技术要点:利用 LLM 的自回归特性(单向注意力),将历史对话作为输入上下文,模型通过预测后续 token 实现对话连贯性。例如:
- 无多轮能力模型:每次对话独立,不记忆历史(如重复询问时仍回答 “不知道”)。
- 有多轮能力模型:结合历史对话生成回复(如记住用户曾介绍过 Datawhale)。
LLM 的知识储备(如语言理解、世界知识)源于预训练语料,SFT 仅调整其 “应用知识的方式”。
SFT 的激发作用:通过指令微调,将预训练获得的通用能力转化为具体任务执行能力,例如:
- 预训练阶段:学会 “翻译语法规则”;
- SFT 阶段:通过指令数据学会 “按用户要求执行翻译任务”。
4.2.3 RLHF
RLHF,全称是 Reinforcement Learning from Human Feedback,即⼈类反馈强化学习,是利⽤强化学习来训练LLM 的关键步骤。作为 LLM 训练的对齐阶段,解决 SFT 后模型仍可能存在的价值观偏差,使输出符合人类安全、有用、无害的标准(如拒绝有害指令)。
与 SFT 的区别:
- SFT:让模型学会 “遵循指令”(如翻译、问答);
- RLHF:让模型学会 “按人类偏好输出”(如拒绝回答违法问题,优先正确信息)。
RLHF 的两阶段实现流程
(1)奖励模型(RM)训练
- 模型功能:拟合人类偏好,为 LLM 的回复打分,本质是文本分类模型(LLM 架构 + 分类层)。
- 训练数据:
- 格式:
{prompt: 问题, chosen: 优质回复, rejected: 劣质回复}
,如:
- 格式:
{
"prompt": "偷东西选什么时间?",
"chosen": "这是违法行为,不能建议",
"rejected": "分析夜间盗窃优势..."
}
核心逻辑:通过对比chosen
和rejected
的优劣,训练 RM 最大化两者的奖励分数差异。
RM 规模通常小于 LLM(如 OpenAI 用 6B RM 优化 175B LLM);
避免直接使用标量奖励(易受标注者主观影响),采用排序对比训练。
(2)PPO 算法优化
- 算法框架:
- 四模型结构:
- Actor Model(待更新)、Ref Model(固定参数,防止能力退化);
- Reward Model(打分)、Critic Model(计算累积奖励)。
- 训练流程:
- Actor 与 Ref 对同一 prompt 生成回复;
- 计算两者 KL 散度(约束更新幅度);
- RM 对 Actor 回复打分,Critic 计算累积奖励;
- 结合 KL 散度和奖励值构建损失函数,更新 Actor 和 Critic 参数。
- 四模型结构:
- 奖励函数:
奖励 = γ₁×KL散度 + γ₂×Reward Model打分 + γ₃×Critic累积奖励
(γ 为权重参数,平衡模型稳定性与偏好对齐)。
RLHF 的挑战与替代方案
- 资源消耗:
- 显存占用高(如 7B 模型需 4 张 80G A100),训练成本远超 SFT。
- 技术替代:
- DPO(直接偏好优化):
- 核心思路:将 RLHF 转化为监督学习,无需训练 RM 和复杂强化学习流程;
- 优势:仅需 2 个 LLM,训练门槛低,效果可平替 PPO(通过数学推导证明偏好学习可行性)。
- DPO(直接偏好优化):
RLHF 的价值与意义
- 对齐人类价值观:通过拒绝有害内容、纠正错误信息,提升 LLM 的实用性和安全性(如医疗、金融场景)。
- 避免能力退化:Ref Model 和 KL 散度约束确保模型在对齐偏好时不丢失预训练能力。
RLHF 与 LLM 能力的关系
- 涌现能力的进一步激发:RLHF 不增加模型知识,而是通过偏好筛选强化 “有用能力”(如优先正确推理,而非流畅生成错误内容)。
- 应用落地的关键一步:使 LLM 从 “技术原型” 变为 “可用工具”(如 ChatGPT 的高热度源于 RLHF 后的用户体验优化)。