李宏毅2025《机器学习》第七讲-推理模型：从原理、流派到未来挑战-EW帮帮网

摘要：
大型语言模型（LLM）正从简单的问答机器，演变为能够进行复杂“深度思考”的智能体。本文基于李宏毅教授的最新课程，深入探讨了赋予LLM深度思考能力的技术。文章首先定义了“深度思考”（即推理，Reasoning）的行为特征，并追溯其本质——一种高效的“测试时间计算”（Testing-Time Compute）。接着，系统性地剖析了打造深度思考模型的四大技术流派：两种无需微调模型参数的方法（高级提示工程、构建推理工作流），以及两种需要微调的方法（模仿学习、强化学习）。文章通过DeepSeek-Coder-V2等前沿模型的实例，揭示了这些方法并非相互排斥，而是可以融合互补。最后，文章指出了当前深度思考模型面临的最大挑战——推理的成本与冗余，并展望了未来高效推理的发展方向。

第一部分：什么是“深度思考”的语言模型？

近期，一系列顶尖的大型语言模型，如ChatGPT的O系列、DeepSeek的R系列、Google的Gemini Flash Thinking等，都展现出一种被称为“深度思考”的特定行为。这标志着LLM的能力正在发生质的飞跃。

1.1 “脑内小剧场”：深度思考的行为特征

“深度思考”在用户界面上最直观的体现，就是模型的“脑内小剧场”。当你向一个具备此能力的模型（如DeepSeek-Coder-V2）提问时，它不仅会给出最终答案，还会展示一个可折叠的、标记为[thinking]的思考过程。

例子：1 + 1 = ?

最终答案： 2
深度思考过程（内心戏）：
1. 初步思考： “一个苹果加一个苹果，等于两个苹果。所以 1 + 1 = 2。”
2. 自我质疑与探索： “等一下，这会不会是陷阱？在二进制中，1 + 1 = 10。我需要考虑其他可能性。”
3. 情景判断与最终决策： “用户只输入了‘1+1’，没有提供额外上下文。他可能只是在测试我是否会想太多。因此，最直接、最普遍的答案‘2’是最佳选择。”

这种行为，在学术上被称为推理（Reasoning）。它通常包含几个关键环节：

验证（Verification）： 模型会检查自己上一步的答案是否正确（“Let me check the answer”）。
探索（Exploration）： 尝试多种不同的解题路径和可能性。
规划（Planning）： 在解题前，先制定一个分步骤的计划。

需要注意的是，这里的“推理（Reasoning）”与机器学习中另一个常用词“推论（Inference）”含义不同。Inference指的是使用一个已训练好的模型进行预测的整个过程；而Reasoning是特指在Inference过程中，模型生成长篇思考内容的特定行为。本文无意探讨机器推理与人类推理的异同，仅将这种行为本身称为Reasoning。

1.2 为何需要深度思考？—— 推理与测试时间计算的价值

Reasoning为何有效？其本质是一种高效的**“测试时间计算”（Testing-Time Compute）。这意味着，我们愿意在模型进行预测的“测试阶段”投入更多的计算资源，以换取更准确、更可靠的结果。这背后的核心思想，正是李宏毅教授在课程中反复强调的：“深度不够，长度来凑。”**

当一个问题的复杂性超过了神经网络固有的深度（层数）时，通过生成一长串思考步骤（即增加计算的“长度”），模型可以模拟一个更深层次的计算过程，从而解决更难的问题。

这个概念并非全新，其思想源头可以追溯到AlphaGo。AlphaGo在下棋时，并不仅仅依赖其训练好的策略网络（Policy Network）直接给出落子位置。相反，它在“测试时间”进行了巨大的运算——蒙特卡洛树搜索（MCTS）。它在“脑内”模拟了成千上万种棋局的未来走向，评估每种走法的胜率，最终选择胜率最高的方案。这正是典型的Testing-Time Compute。

研究表明，投入在“测试时间”的少量算力，往往能替代“训练时间”所需的大量算力，从而达到同样甚至更好的效果。这一现象被称为**“测试时间缩放”（Testing-Time Scaling）**——思考得越多，结果往往越好。

第二部分：如何打造深度思考模型？四大技术流派解析

赋予模型深度思考的能力，主要有四大技术流派。前两种无需改动模型参数，后两种则需要进行微调（Fine-tuning）。

流派一：高级提示工程（无需微调）

这是最直接的方法，通过精心设计提示（Prompt），引导模型进行深度思考。这种方法可以看作是链式思考（Chain-of-Thought, CoT）的进阶版，被称为“监督式CoT”（Supervised CoT）或“长链式思考”（Long CoT）。

其核心是编写一个极为详尽的“元指令”，告诉模型应该如何思考。
例子：计算 123 × 456
教授设计了这样一个Prompt：

“在回答问题前，你要先深入解析题目要求，定出一个完整清晰的解题计划。每次执行一个步骤时，要列出该步骤的子计划。执行完每一步后，要进行多次验算，确保答案正确，并考量所有可能的解法。思考过程请放在[thinking]和[/thinking]之间。”

在这一指令下，GPT-4o的表现堪称惊艳：

总计划： 将456拆解为400+50+6，分别与123相乘后求和。
验算计划： 计划用三种方法验算：标准直式乘法、估算答案上下界、使用Python（尽管最后 hallucinate 了，没有执行）。
执行与自我修正： 模型在执行过程中，甚至能发现自己某个验算步骤（如用乘法交换律拆解）“无明确帮助”，并果断放弃。

这种方法能有效激发强模型的推理潜能，但对模型本身的能力要求较高，较弱的模型可能无法理解并遵循如此复杂的指令。

流派二：构建推理工作流（无需微调）

对于能力稍弱的模型，或者为了追求极致的正确率，我们可以为其设计一个外部的“推理工作流”。其核心思想是：大力出奇迹，让模型多次尝试，然后从中选出最佳答案。

这个流程分为两步：生成（Generate）和筛选（Select）。

生成多个候选答案：
- 方法： 强迫模型对同一个问题回答成百上千次。由于LLM生成的随机性，每次的答案和推理路径都会有所不同。这就像“无限猴子定理”——尝试足够多次，总有一次能得到正确答案。
从候选答案中筛选最佳答案：
- 多数投票（Majority Vote / Self-Consistency）： 最简单有效的方法。在所有答案中，出现次数最多的那个最有可能是正确答案。
- 验证器（Verifier / Best-of-N）： 训练一个专门的“验证器”模型，来给每个候选答案打分。这个验证器可以是一个现成的强LLM，也可以是用（问题，答案，是否正确）的数据集专门训练出来的。
- 过程级验证与束搜索（Process-Level Verification & Beam Search）： 更高级的玩法是不等到最终答案出来，而是在推理的每一步都进行验证。
  - 过程验证器（Process Verifier）： 能够评估一个不完整的推理步骤的“好坏程度”。
  - 束搜索（Beam Search）： 在推理的每一步，都保留N个由过程验证器评出的最优路径，并抛弃其余路径。这能极大提高搜索效率，避免在错误的路径上浪费算力。

实验证明，通过构建这样的工作流，特别是使用过程级验证和束搜索，一个10亿参数的模型在特定数学任务上的表现，甚至可以超越80亿参数的模型。

流派三：模仿学习（需要微调）

此方法的核心是直接教模型如何正确地推理。这是一种监督式微调（Supervised Fine-Tuning）。

数据： 需要的不再是（问题，答案）数据对，而是（问题，高质量的推理过程，答案）的三元组。
挑战： 高质量的推理过程从何而来？
1. 人工标注： 成本极高，不现实。
2. 强模型生成（知识蒸馏）： 让一个强大的“教师模型”（如DeepSeek-Coder-V2）生成大量推理过程，筛选出导致正确答案的那些，作为“学生模型”的训练数据。这是目前非常主流的做法。
3. 结合工作流生成： 使用流派二中的树状搜索方法（如Beam Search、MCTS）来探索并生成高质量的推理路径，再将其用作模仿学习的训练数据。
进阶思想：旅程学习（Journey Learning）
- 一个重要的问题是：我们应该只教模型完美的、一帆风顺的推理路径吗？
- 答案是否定的。如果模型只见过“顺风局”，当它自己在推理中犯错时，将不知道如何纠正。
- 旅程学习的思想就是，故意在训练数据中包含一些包含错误、回溯和修正的“弯路”。这能教会模型“知错能改”的能力，让它在逆境中也能找到正确的方向，从而变得更加鲁棒。

流派四：结果导向学习 - 强化学习（需要微调）

这是DeepSeek-Coder-V2系列模型声名鹊起的关键技术，其核心是强化学习（Reinforcement Learning, RL）。

核心思想： 不问过程，只看结果。
- 模型针对一个问题，自由地生成一段推理过程和最终答案。
- 我们只根据最终答案的正确与否来给予奖励（答对则正奖励，答错则负奖励）。
- 推理过程写了什么、写得好不好，完全不重要。模型通过海量的试错，自己去发现什么样的“内心独白”最容易导向正确答案。
“Aha!”时刻的涌现： 令人惊奇的是，通过纯粹的结果导向训练，模型会自发地学会自我纠错、自我质疑等高级推理行为。DeepSeek团队发现，模型在训练过程中会自己冒出“Wait, there is an aha moment!”这样的句子，然后修正之前的错误。这表明，这些能力可能内在于大模型之中，RL只是一个有效的“激发器”。
DeepSeek-Coder-V2的真实打造过程——混合流派的胜利：
单纯的RL会让推理过程变得难以卒读（因为过程不影响奖励）。实际的DeepSeek-Coder-V2是一个复杂的混合体：
1. 先用RL（流派四）训练出一个基础推理模型（Lite版）。
2. 用这个模型生成大量推理数据，然后人工介入进行筛选和改写。
3. 用这些高质量数据进行模仿学习（流派三），得到一个更可控的模型。
4. 再对这个模型进行新一轮的RL，并加入更多约束（如要求推理语言统一）。
5. 整个过程循环往复，融合了所有四大流派的优点。

第三部分：挑战与展望——迈向高效推理

3.1 殊途同归：四大流派的融合

DeepSeek的例子雄辩地证明，本文介绍的四大流派并非相互竞争，而是相辅相成、可以融合的。例如，即使用RL训练好的模型，在推理时依然可以通过多数投票（流派二）来进一步提升性能。未来的顶尖模型，很可能会是一个集多种训练和推理策略于一身的“集大成者”。

3.2 最大的挑战：推理的成本与冗余

深度思考虽然强大，但也带来了巨大的计算成本。更严重的问题是，模型常常进行**“无谓的推理”**。

教授展示了DeepSeek-Coder-V2计算 123 × 456 的完整过程。在通过拆分法（123×400 + 123×50 + 123×6）得到正确答案56088后，模型并未停止，而是开启了漫长的“验算之旅”，前后用了至少七种不同的方法（直式乘法、估算、交换律、再次拆分、心算等）反复验证一个它早已算对的答案，整个过程显得极其冗长和低效。

3.3 未来方向：智能与效率的平衡

当前深度思考模型面临的核心挑战，是如何将算力用在刀刃上。未来的研究方向将聚焦于：

自适应推理： 让模型学会判断问题的难度，只在遇到真正困难的问题时才开启深度思考模式，对于简单问题则快速作答。
高效推理策略： 发展更智能的搜索和剪枝算法，让模型在推理时能更快地找到最优路径，减少不必要的探索。

总结

“深度思考”能力是大型语言模型从“知识的容器”迈向“智慧的伙伴”的关键一步。通过理解其背后的四大技术流派——高级提示、工作流构建、模仿学习和强化学习——我们不仅能更好地使用这些模型，也能洞察其未来的发展轨迹。尽管当前还面临着成本高昂和效率低下的挑战，但通往更高效、更智能的推理之路已经清晰可见。平衡模型的智能与效率，将是下一代AI技术革命的核心议题。

李宏毅2025《机器学习》第七讲-推理模型：从原理、流派到未来挑战