【论文阅读】LS-Mixture SFT Eliciting Efficient Reasoning in Large Language Models

发布于:2025-07-12 ⋅ 阅读:(14) ⋅ 点赞:(0)

Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models

Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning Eliciting Efficient Reasoning in Large Language Models 这篇文章探讨了如何通过数据蒸馏和监督微调来激发非推理模型更高效的推理能力,特别是避免从教师模型继承过度思考的问题。

作者提出了一个名为Long-Short Chain-of-Thought Mixture Supervised Fine-Tuning(LS-Mixture SFT)的新方法。该方法旨在高效地将大型推理模型(LRMs)的推理能力转移到非推理大型语言模型(LLMs)中。其核心思想是,并非所有的推理步骤都对最终解决方案有同等贡献,许多冗长的推理链中的标记是多余的。通过利用大型语言模型作为重写模型,保留核心推理结构的同时消除冗余,他们创建了一个互补的短推理示例数据集。这些缩短的轨迹保持了核心结构和关键步骤,以确保准确的问题解决,但显著减少了标记数量。当与原始的长CoT推理示例混合时,这种组合使学生模型能够学习全面的推理模式和高效的推理捷径,从而在推理过程中生成更简洁的推理,而不牺牲准确性。

文章有一个有趣的发现:在模型不确定或者根本不知道正确答案时,它会更倾向输出一大段废话。

本文仅聚焦与文章的方法部分。本文主要的方法是SFT,但是客观上实现了模型自适应选择快慢思考。

在这里插入图片描述

2 Methodology

2.1 Formal Task Definition

D long = { ( x i , r L i , y i ) } i = 1 N = D_{\text{long}} = \{(x_i, r_{L_i}, y_i)\}_{i=1}^N = Dlong={(xi,rLi,yi)}i=1N= 表示一个包含 N N N 个实例的长链推理(CoT)数据集,其中:

  • x i x_i xi 表示一个复杂问题,
  • r L i r_{L_i} rLi 表示从大型语言模型(LRM)中提取的长链推理轨迹,
  • y i y_i yi 表示相应的答案。

文章目标是通过监督微调,利用这个数据集赋予一个非推理的LLM有效的推理能力。

2.2 Structure-preserved CoT Rewriting

LS-Mixture SFT方法的一个关键组件是保持结构的CoT重写方法,该方法将冗长的CoT轨迹转换为更简洁的版本,同时保留其核心逻辑结构和关键推理步骤。这一方法显著缩短了训练数据中的思考部分,同时保留了LRM在解决问题时展示的推理过程,特别是这些推理能力模型所表现出的“顿悟时刻”现象。在Ablation Study中提到,在将长CoT转写成短CoT的过程中,保持核心的逻辑结构非常关键。

文章使用另一个大型语言模型(Qwen2.5-72B-Instruct)作为重写模型Prewriter,并在提示模板中加入明确的约束,指示模型在重写过程中保持CoT轨迹的原始逻辑结构和关键步骤。模板如下:
在这里插入图片描述

对于数据集 D long D_{\text{long}} Dlong 中的每个数据点,利用重写模型将长CoT轨迹 r L i r_{L_i} rLi 转换为更短的CoT轨迹 r S i r_{S_i} rSi,可以形式化表示为:
r S i = Prewriter ( r L i ∣ x i ) (1) r_{S_i} = \text{Prewriter}(r_{L_i} | x_i) \tag{1} rSi=Prewriter(rLixi)(1)

经过保持结构的CoT重写后,短CoT轨迹的长度显著短于其长CoT轨迹的长度。利用这些重写后的短CoT轨迹,作者能够构建一个短推理链数据集:
D short = { ( x i , r S i , y i ) } i = 1 N D_{\text{short}} = \{(x_i, r_{S_i}, y_i)\}_{i=1}^N Dshort={(xi,rSi,yi)}i=1N

2.3 Mixture Supervised Fine-Tuning

在生成短推理数据集 D short D_{\text{short}} Dshort 之后,我们将其与原始的长推理数据集 D long D_{\text{long}} Dlong 完全随机合并,创建一个新的混合数据集 D mix D_{\text{mix}} Dmix
D mix = D long ∪ D short (2) D_{\text{mix}} = D_{\text{long}} \cup D_{\text{short}} \tag{2} Dmix=DlongDshort(2)

这个混合数据集 D mix D_{\text{mix}} Dmix 用于对非推理的大型语言模型 M M M 进行监督微调,以激发其高效的推理能力。为了与当前LRM的输出格式对齐,文章使用特殊标记 <think></think> 封装CoT轨迹,并将其与答案部分连接,形成微调的地面真值响应。优化目标 M ∗ M^* M 可以表示如下:
L ( D long ) = ∑ D long − log ⁡ P M ( r L i ⊕ y i ∣ x i , p L ) (3) L(D_{\text{long}}) = \sum_{D_{\text{long}}} - \log P_M(r_{L_i} \oplus y_i | x_i, p_L) \tag{3} L(Dlong)=DlonglogPM(rLiyixi,pL)(3)
L ( D short ) = ∑ D short − log ⁡ P M ( r S i ⊕ y i ∣ x i , p S ) (4) L(D_{\text{short}}) = \sum_{D_{\text{short}}} - \log P_M(r_{S_i} \oplus y_i | x_i, p_S) \tag{4} L(Dshort)=DshortlogPM(rSiyixi,pS)(4)
M ∗ = arg ⁡ min ⁡ M L ( D long ) + L ( D short ) (5) M^* = \arg \min_M L(D_{\text{long}}) + L(D_{\text{short}}) \tag{5} M=argMminL(Dlong)+L(Dshort)(5)

在公式3和4中, p L p_L pL p S p_S pS 分别表示指示语言模型进行详细和简明思考模式的提示。具体的提示模板可以在附录A.2和A.3中找到。
在这里插入图片描述
在这里插入图片描述

混合数据集确保模型能够接触到长CoT轨迹中的全面思考模式和短CoT轨迹中的高效模式,从而使其能够根据指令类型调整其推理模式。当使用“detailed thinking”指令时,模型展示出从长CoT示例中继承的全面推理能力。同时,在“brief thinking”指令下,模型采用从短CoT示例中学习到的简洁而有效的推理模式。

2.4 Inference-time Balanced Thinking

这部分和快慢思考相关

通过混合训练方法,模型同时获得了详细和简洁的思考模式。然而,这两种模式都无法在响应的有效性和效率之间达到最优平衡。为了解决这一限制,文章提出了一种推理时间的平衡思考方法,该方法在模型部署时利用训练过程中发展的双重推理能力,同时优化有效性和效率。

为了实现平衡思考模式,文章在推理时间和训练时间之间保持提示模板的格式一致,同时修改与思考模式相关的指令:文章将详细或简明思考的指令替换为鼓励模型进行介于这两种极端之间的“适当”思考过程的指令。这种方法使模型能够在推理过程中平衡有效性和效率。

该方法的公式可以表示如下:
( r i , y i ) = P M ∗ ( x i ∣ p B ) (6) (r_i, y_i) = P_{M^*}(x_i | p_B) \tag{6} (ri,yi)=PM(xipB)(6)

其中:

  • r i r_i ri 是由微调后的模型 M ∗ M^* M 生成的近似推理链,
  • p B p_B pB 是平衡思考的提示模板。

提示模板如下:
在这里插入图片描述
文章在Introduction贡献部分特别提到,在实验中,作者观察到:

the fine-tuned model’s ability to success in balanced thinking was not explicitly trained but rather emerged as a natural consequence of training on a mixture dataset comprising both long-chain and short-chain reasoning examples

说明通过单纯的监督学习,模型也有可能一定程度上学会快慢思考的应用


网站公告

今日签到

点亮在社区的每一天
去签到