大型语言模型 (LLMs) 的惊人能力很大程度上归功于在海量文本语料库上进行下一词元预测 (Next-Token Prediction, NTP) 的规模化训练。与此同时,强化学习 (Reinforcement Learning, RL) 已成为微调 LLMs、使其与人类偏好对齐或增强特定技能(如复杂推理)的强大技术。然而,当前的 RL 应用面临规模化和泛化挑战。RLHF (基于人类反馈的强化学习) 依赖昂贵的人类标注数据,且易受奖励欺骗 (reward hacking)。RLVR (基于可验证奖励的强化学习) 虽然减轻了奖励欺骗,但通常受限于带有可验证答案的标注数据稀缺性,难以泛化到通用预训练。为此研究者提出了强化学习预训练。
论文地址:https://www.arxiv.org/pdf/2506.08007
这篇论文引入了强化预训练 (Reinforcement Pre-Training, RPT),这是一个连接可规模化的自监督预训练和 RL 强大能力的新范式。
核心思想:将下一词元预测重塑为推理任务
RPT 的核心思想是,将基础的下一词元预测任务重新定义为一个下一词元推理过程。对于预训练语料库中的任何给定上下文,模型被激励在预测下一个词元之前进行推理。模型会根据其对下一个词元的预测是否正确获得一个可验证的内在奖励,这个奖励直接来源于语料库中的真实下一词元。
这就像从只追求做出美味的“樱桃顶蛋糕”(仅预测下一词元)转变为制作美味的“樱桃蛋糕”(通过推理来预测下一词元)(如图 1 所示)。
图 1: 强化预训练 (RPT) 将下一词元预测重塑为推理任务。
在标准的下一词元预测中,模型直接估计下一个词元。而在下一词元推理中(如图 2 所示),模型在预测之前会生成一个思维链 (chain-of-thought)。
图 2: 标准下一词元预测与下一词元推理的对比。
标准的下一词元预测目标是最大化给定上下文下真实下一词元的对数概率:
I N T P ( θ ) = ∑ t = 1 T log P ( x t ∣ x 0 , x 1 , . . . , x t − 1 ; θ ) I_{NTP}(\theta) = \sum_{t=1}^{T} \log P(x_t | x_0, x_1, ..., x_{t-1}; \theta) INTP(θ)=t=1∑TlogP(xt∣x0,x1,...,xt−1;θ)
其中 θ \theta θ 代表语言模型的参数, x 0 , . . . , x T x_0, ..., x_T x0,...,xT 是训练语料库中的序列。
在 RPT 中,模型 π θ \pi_\theta πθ 接收上下文 x < t x_{<t} x<t 后,生成包含思维链 c t c_t ct 和最终预测 y t y_t yt 的响应 o t = ( c t , y t ) o_t = (c_t, y_t) ot=(ct,yt)。奖励 r r r 的设定是基于预测 y y y 是否精确匹配真实后续序列 x > t x_{>t} x>t 的某个有效词元边界前缀(如图 3 所示):
图 3: 强化预训练过程示意图。
形式上,对于第 i 个输出 o i = ( c i , y i ) o_i = (c_i, y_i) oi=(ci,yi),奖励 r i r_i ri 定义为:
r i = { 1 if y i = x > t [ 1 : l ] and l ∈ L g t 0 otherwise r_i = \begin{cases} 1 & \text{if } y_i = x_{>t}[1:l] \text{ and } l \in \mathcal{L}_{gt} \\ 0 & \text{otherwise} \end{cases} ri={10if yi=x>t[1:l] and l∈Lgtotherwise
其中 y i y_i yi 是预测的字节序列, x > t x_{>t} x>t 是真实后续序列的字节序列, l l l 是 y i y_i yi 的字节长度, L g t \mathcal{L}_{gt} Lgt 是真实后续序列中词元的累积字节长度边界集合。如果预测的字节序列是真实后续序列的一个精确前缀且长度匹配某个有效词元边界,则奖励为 1,否则为 0。
模型训练的目标是最大化期望奖励:
J R P T ( θ ) = E ( x < t , x > t ) ∼ D , o ∼ π θ ( ⋅ ∣ x < t ) [ r ] J_{RPT}(\theta) = E_{(x_{<t}, x_{>t}) \sim \mathcal{D}, o \sim \pi_\theta(\cdot|x_{<t})} [r] JRPT(θ)=E(x<t,x>t)∼D,o∼πθ(⋅∣x<t)[r]
其中 D \mathcal{D} D 是所有上下文-后续序列对的集合。
这种方法将海量的未标注文本数据转化为通用 RL 的大规模数据集,而无需外部标注。
RPT 的优势
RPT 提供了几个关键优势:
- 规模化和通用性: RPT 利用用于标准下一词元预测的未标注文本数据,将其转化为通用的 RL 数据集,无需外部标注。
- 最小化奖励欺骗: 使用直接的、基于规则的奖励信号(即预测下一个词元的正确性)能有效最小化复杂学习奖励模型常伴随的奖励欺骗风险。
- 促进理解和泛化: 通过明确鼓励下一词元推理模式,RPT 促进更深入的理解和泛化,而非仅仅死记硬背词元级的关联。
- 训练时推理: 预训练期间的内部推理过程使得模型能够为每个预测步骤分配更多“思考”或计算资源,这有助于提高下一词元预测准确性。
实验结果
论文通过实验验证了 RPT 的有效性:
- 语言建模性能: RPT 显著提高了下一词元预测的准确性。在 OmniMATH 数据集上,根据词元位置的难度划分,RPT-14B 在所有难度级别上都持续优于 R1-Distill-Qwen-14B。特别是在推理模式下,RPT-14B 的表现优于 R1-Distill-Qwen-14B 的标准预测和推理模式基线。甚至接近了更大模型 R1-Distill-Qwen-32B 的性能(见表 1 和图 4)。
Easy | Medium | Hard | |
---|---|---|---|
Standard next-token prediction | |||
Qwen2.5-14B | 41.90 | 30.03 | 20.65 |
R1-Distill-Qwen-14B | 41.60 | 29.46 | 20.43 |
Next-token reasoning | |||
R1-Distill-Qwen-14B | 3.31 | 1.66 | 1.41 |
RPT-14B | 45.11 | 33.56 | 23.75 |
表 1: 不同难度测试集上的下一词元预测准确性。
关键点: RPT 显著提高了下一词元预测准确性,尤其是在有挑战性的词元上。
- 规模化特性: RPT 的性能随着训练计算资源的增加而持续提升,表现出良好的规模化特性。通过幂律形式拟合(公式 5)验证了这一趋势(见图 5)。
P ( C ) = A C a + P ∗ P(C) = \frac{A}{C^a} + P^* P(C)=CaA+P∗
其中 P ( C ) P(C) P(C) 是验证集上的下一词元预测准确性, C C C 是训练计算资源, A , a , P ∗ A, a, P^* A,a,P∗ 是估计参数。拟合曲线的高 R² 值表明其能准确捕捉性能趋势。
图 5: 强化预训练的下一词元预测准确性随训练计算资源增加而持续提升。
关键点: RPT 性能随训练计算资源增加而持续提升,展现出良好的规模化特性。
- RL 微调基础: RPT 为后续的强化学习微调提供了更强大的基础。在 RLVR 任务上的实验表明,经过 RPT 预训练的模型在进一步 RL 微调后能达到更高的性能上限,优于仅通过标准下一词元目标持续预训练的模型(见表 2)。
Before RL | After RL | |
---|---|---|
R1-Distill-Qwen-14B | 51.2 | 52.7 |
+ Continual NTP training | 10.7 | 13.0 |
RPT-14B | 56.3 | 58.3 |
表 2: 不同模型的强化学习微调性能。
关键点: RPT 为后续强化学习微调提供了更强大的预训练基础。
- 零样本任务性能: RPT 增强了模型在通用下游任务上的零样本性能。在 SuperGPQA 和 MMLU-Pro 等基准测试上,RPT-14B 在推理模式下持续优于基线模型(包括更大的 R1-Distill-Qwen-32B 的标准下一词元预测性能)(见表 3)。
SuperGPQA | MMLU-Pro | |
---|---|---|
Standard next-token prediction mode | ||
R1-Distill-Qwen-14B | 32.0 | 48.4 |
R1-Distill-Qwen-32B | 37.2 | 56.5 |
Reasoning mode | ||
R1-Distill-Qwen14B | 36.1 | 68.9 |
RPT-14B | 39.0 | 71.1 |
表 3: 通用领域零样本任务性能。
关键点: RPT 提升了模型在通用下游任务上的零样本性能。
- 推理模式分析: RPT 训练的模型展现出与结构化问题解决不同的推理模式。例如,RPT-14B 在下一词元推理中更多使用了假设生成和演绎推理,而不是像解决问题时那样侧重分解问题(见图 6 和表 9)。这表明 RPT 能够诱导更具推断性的过程。
图 6: R1-Distill-Qwen-14B 在问题解决和 RPT-14B 在下一词元推理中使用的推理模式统计。
Pattern Group | Keywords |
---|---|
Transition | alternatively, think differently |
Reflection | wait, initial answer, original answer, looking back, thought process |
Breakdown | break down, break this down |
Hypothesis | probably, something like |
Divergent Thinking | etc., or something, either, sometimes it refers, otherwise, exploring, options |
Deduction | summarize, conclusion, conclude, finally, logically, consequently |
表 9: 推理模式分组及关键词。
关键点: RPT 鼓励更具推断性的推理模式。
贡献总结
这篇论文的主要贡献可以总结为:
- 引入了强化预训练 (RPT),这是一个将下一词元预测重塑为基于强化学习的推理任务的新范式,利用了直接从预训练语料库中获得的内在可验证奖励。
- RPT 提供了一种可规模化且通用的 RL 预训练方法,通过基于规则的奖励最小化奖励欺骗,并通过鼓励下一词元推理模式促进泛化。
- RPT 显著提高了下一词元预测准确性并展现出良好的规模化特性,性能随训练计算资源的增加而持续提升。
- RPT 为后续的强化学习微调提供了更强大的预训练基础,并增强了各种下游任务的零样本性能。
结论与未来工作
强化预训练 (RPT) 为大型语言模型的预训练提供了一个新颖且有前景的方向。通过将下一词元预测框定为一个可验证的推理任务并应用基于正确性的强化学习,RPT 使 LLMs 能够在预训练期间利用扩展的计算资源来构建更强的基础推理能力。实验证明了 RPT 在提高下一词元预测准确性、增强零样本性能以及为后续 RL 微调提供更好起点方面的有效性。
尽管如此,RPT 的初步探索也存在一些限制,例如主要使用了数学领域的语料库,并且预训练是从一个具备基础推理能力的模型初始化的。未来的工作可以进一步探索在更广泛的通用领域文本上的有效性,并研究从标准基础语言模型进行 RPT 训练的影响。
未来的方向包括:扩大训练语料库的大小和领域覆盖;增加训练计算资源以推进性能边界;建立强化预训练的规模化法则;以及探索将混合思维与 RPT 相结合,以实现细粒度的自适应推理。