AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架-EW帮帮网

文章目录

摘要
1. 引言
2. 相关工作
- 2.1 自动驾驶中的语言模型
- 2.2 自动驾驶中的视觉问答
3. 方法
4. 实验
5. 结论
局限性
伦理声明

AgentThink: A Unified Framework for Tool-Augmented Chain-of-Thought Reasoning in Vision-Language Models for Autonomous Driving
1 清华大学 2 麦吉尔大学 3 小米公司 4 威斯康星大学麦迪逊分校
arxiv’25’05

这篇论文的创新点是首次将动态的工具调用与链式推理统一到自动驾驶视觉语言模型中，通过结构化数据（构建微调数据）、两阶段训练（SFT+GRPO）和专门的工具使用评估显著提升了推理一致性、可解释性和决策准确性。

在这里插入图片描述

摘要

视觉-语言模型（Vision-Language Models，VLMs）在自动驾驶中展现出潜力，但其在幻觉（hallucinations）、低效推理以及有限的真实场景验证方面的困境，阻碍了其实现准确感知与稳健的逐步推理。为了解决这一问题，我们提出 AgentThink，这是首个将链式思维（Chain-of-Thought, CoT）推理与动态的、类代理（agent-style）工具调用相结合的统一框架，专为自动驾驶任务设计。AgentThink 的核心创新包括：
(i) 结构化数据生成，通过建立自动驾驶工具库，自动构建结构化、可自验证的推理数据，显式地将工具使用融入到多样化的驾驶场景中；
(ii) 两阶段训练流程，采用监督微调（Supervised Fine-Tuning, SFT）结合群组相对策略优化（Group Relative Policy Optimization, GRPO），赋予 VLMs 自动工具调用的能力；
(iii) 类代理的工具使用评估，提出一种新颖的多工具评估协议，用于严格评估模型的工具调用与使用情况。

在 DriveLMM-o1 基准上的实验表明，AgentThink 将整体推理得分显著提升了 53.91%，答案准确率提高了 33.54%，同时大幅改善了推理质量和一致性。此外，消融实验与跨多个基准的零样本/少样本泛化实验进一步验证了其强大能力。这些结果表明，发展值得信赖、具备工具感知能力的自动驾驶模型具有广阔前景。

250904：整体推理得分从 51.77 提升到 79.68（+53.91%）明显写错了，应该是+27.91

1. 引言

“君子性非异也，善假于物也。” —— 荀子

近年来，基础模型的进步为自动驾驶开辟了新的机遇，预训练的大型语言模型（Large Language Models, LLMs）[2, 10] 和视觉-语言模型（Vision-Language Models, VLMs）[28, 35, 47] 越来越多地被用于实现高层次的场景理解、常识推理和决策。这些模型旨在超越传统的感知管线——后者依赖于手工设计的组件，如目标检测 [20, 32]、运动预测 [29, 40] 和基于规则的规划 [5]——通过提供更丰富的语义表征和更广泛的泛化能力，并以互联网规模的知识为基础。

许多最新的方法将自动驾驶任务重新表述为视觉问答（Visual Question Answering, VQA）问题，利用监督微调（Supervised Fine-Tuning, SFT）在基础 VLMs 上结合特定任务提示，用于目标识别、风险预测或运动规划 [8, 25, 33, 36, 44]。然而，如图 2(a) 所示，这些模型通常将推理视为静态的输入-输出映射，忽略了真实世界决策所必需的不确定性、复杂性和可验证性。因此，它们往往表现出较差的泛化能力、幻觉式输出以及有限的可解释性 [42]。
在这里插入图片描述

为了提升鲁棒性和透明性，近期研究探索了将链式思维（Chain-of-Thought, CoT）推理引入 VLMs，如图 2(b) 所示。一些方法采用固定的 CoT 模板 [14, 35]，在促进结构化逻辑的同时牺牲了灵活性。另一些方法使用开放式推理格式 [15, 26]，但可能过度拟合于符号模式，表现出浅层或冗余的推理。此外，大多数现有方法仅依赖于来自人工构建轨迹的模仿学习，缺乏检测知识不确定性或调用工具进行中间验证的能力 [46]。

这些挑战引出了一个关键问题：VLM 是否能够真正作为一个决策代理发挥作用——意识到其知识边界，具备验证能力，并能够从工具引导的反馈中学习？ 灵感来自有经验的人类驾驶员，他们在不确定时会借助后视镜或 GPS 来修正判断。同样，一个有能力的自动驾驶代理不仅需要进行显式推理，还必须识别其局限性，并能够动态调用工具，如目标检测器或运动预测器，以引导其推理和决策过程。

因此，我们提出 AgentThink，这是一个面向自动驾驶 VLMs 的统一框架，其建模推理的方式不再是静态输出，而是作为一种 类代理（agent-style）的过程——模型在其中学会利用工具生成工具增强（Tool-Augmented）的推理链，验证中间步骤，并不断优化结论。如图 2(c) 所示，AgentThink 不再盲目地将输入映射为输出，而是动态决定在推理过程中何时以及如何使用工具，以支持或修正推理路径。为实现这一行为，我们构建了一个数据-训练-评估流水线。首先，我们构建了一个包含工具增强推理轨迹的结构化数据集。随后，我们引入两阶段训练流程：(i) 使用 SFT 对推理能力进行预热；(ii) 采用 GRPO [31]，一种基于强化学习（RL）的策略，通过结构化奖励优化推理深度和工具使用行为。最后，我们提出一个超越答案正确性的综合评估协议，用于评估工具选择、集成质量以及推理-工具对齐。

如图 1 所示，在先进的 DriveLMM-o1 基准 [15] 上的实验表明，AgentThink 在答案准确率和推理得分方面都达到了新的最先进性能，超越了现有模型。我们方法在培养动态、具备工具感知的推理方面的有效性，还通过全面的消融研究和跨多个基准的稳健泛化能力得到了进一步验证。这些结果强有力地表明，使视觉-语言代理具备学习到的、动态调用的工具使用能力，是构建更加鲁棒、可解释和可泛化的自动驾驶系统的关键。
在这里插入图片描述

总体而言，我们的贡献如下：

我们提出了 AgentThink，这是首个将动态的、类代理的工具调用（agent-style tool invocation） 引入到自动驾驶任务的视觉-语言推理中的框架。
我们开发了一条可扩展的数据生成流水线，能够产生 结构化、自验证的数据，其中显式地集成了工具使用和推理链。
我们引入了一个两阶段训练流程，将 SFT 与 GRPO 相结合，使模型能够学习在何时以及如何调用工具以增强推理性能。
我们设计了新的评估指标，专门针对 自动驾驶工具调用，以衡量工具选择、集成质量和推理-工具对齐情况。

2. 相关工作

2.1 自动驾驶中的语言模型

语言建模的最新进展为自动驾驶开辟了新的机遇，尤其是在支持可解释推理、常识理解和决策制定方面 [6]。早期的尝试整合了 LLMs（如 GPT 系列 [27]），通过将驾驶任务（例如场景描述 [23, 44]、决策制定 [9, 41] 和风险预测 [3, 22]）重新表述为文本提示，从而支持零样本或小样本推理。尽管这些方法展示了 LLMs 的推理潜力，但它们往往缺乏逐步的可解释性，并且在分布外场景中的泛化能力较弱 [39]。

近期的研究通过提示策略、基于记忆的上下文构建或视觉输入扩展了 LLMs [12]。例如，DriveVLM [28, 35] 引入了一种 CoT 方法和双系统，包含用于场景描述、分析和分层规划的模块；而 DriveLM [33] 则聚焦于图结构的视觉问答。EMMA [13] 展示了多模态模型如何直接将原始摄像头输入映射为驾驶输出，包括轨迹和感知目标。尽管有这些进展，基于 LLM 和 VLM 的方法通常仍将推理视为静态的输入-输出映射，缺乏检测不确定性、执行中间验证或引入物理约束的能力 [15]。其挑战包括幻觉、过度依赖固定模板以及缺乏特定领域奖励反馈。为解决这些局限性，我们的工作引入了一种工具增强的、基于 RL 的推理框架，使动态且可验证的决策在自动驾驶中成为可能。

2.2 自动驾驶中的视觉问答

视觉问答（Visual Question Answering, VQA）已成为评估自动驾驶感知、预测和规划能力的重要范式。BDD-X [18]、DriveBench [42]、DriveMLLM [11]、Nuscenes-QA [30] 和 DriveLMM-o1 [15] 等基准提供了结构化的 QA 任务，涵盖了城市与高速场景中的复杂推理。针对 VQA 任务，近期方法如 Reason2Drive [26]、Alphadrive [17]、OmniDrive [37] 和 DriveCoT [38] 都引入了 CoT 推理，以提升模型的可解释性。

然而，许多方法采用僵化的推理模板或仅依赖模仿学习，使其容易出现过拟合和幻觉。这些方法往往忽视动态推理过程，并未利用外部工具验证中间步骤。相比之下，我们的框架结合了结构化数据生成、逐步奖励和推理过程中的工具验证。通过在推理中引入基于 RL 的 GRPO，我们优化了模型的推理轨迹，使其在正确性、效率和真实应用性上保持一致性，为自动驾驶 VQA 开辟了一条新的方向。

3. 方法

图 3 展示了 AgentThink 的三个关键组成部分：(i) 一个可扩展的流水线，用于生成结构化的、工具增强的推理数据；(ii) 一个两阶段训练流程，结合 SFT 与 GRPO 以提升推理和工具使用能力；(iii) 一种新的评估方法，重点在于评估模型对工具的有效利用及其对推理的影响。
在这里插入图片描述

3.1 数据生成流水线

尽管已有研究 [26, 36] 探索了 VLMs 中的推理，但持续存在的幻觉问题仍是挑战。我们认为，可靠的自动驾驶推理（类似于人类决策）不仅需要内部知识，还需要在必要时调用外部工具的能力。为此，我们引入了一个工具增强的数据生成流水线。不同于仅关注推理步骤和最终答案的现有数据集 [15, 39]，我们的流水线独特地将显式的工具使用融入推理过程。

工具库。 我们开发了一个专门的工具库，灵感来自 Agent-Driver [24]，其中包含五个面向驾驶的核心模块——视觉信息（visual info）、检测（detection）、预测（prediction）、占据（occupancy）和地图（mapping）——以及单视角视觉工具（开放词汇检测、深度、裁剪、缩放）。这还结合了基础的单视角视觉工具，如开放词汇目标检测器和深度估计器。它们共同支持对环境信息的全面提取，以服务于多样的感知与预测任务。具体细节见附录 A.1。

提示设计。 初始的工具集成推理步骤和答案由 GPT-4o 自动生成，受提示模板（如图 3 所示）引导，该模板旨在引出针对任务指令 $\mathcal{L}$ 的工具增强推理链，而非直接给出答案。

具体来说，对于一个预训练 VLM $\pi_\theta$ ，输入图像 $V$ 和任务指令 $\mathcal{L}$ ，在时刻 $t$ 的推理步骤生成方式为：

$R_t = \pi_\theta(V, \mathcal{L}, [R_1, \ldots, R_{t-1}]) \tag{1}$

其中， $R_t$ 表示第 $t$ 个推理步骤， $[R_1, \ldots, R_{t-1}]$ 表示之前生成的步骤。完整的推理轨迹记为 $T_R = (R_1, \ldots, R_M)$ ，其中 $M$ 是最大推理步数。

每个推理步骤 $R_t$ 包含五个关键要素：所选工具（ $Tool_i$ ）、生成的子问题（ $Sub_i$ ）、不确定性标记（ $UF_i$ ）、猜测的答案（ $A_i$ ），以及下一步的动作选择（ $AC_i$ ），如继续推理或结束。如果内部知识足以回答 $Sub_i$ ，则输出 $A_i$ 并令 $UF_i = False$ ；否则 $UF_i = True$ 且 $A_i$ 为空。

这一过程将重复进行，以在每个 QA 对上采样 $N$ 条结构化推理轨迹。

数据评估。 一个单独的 LLM 会对每条数据进行事实准确性和逻辑一致性的审查，剔除存在步骤不匹配或结论不支持的样本。最终得到的高质量语料库结合了显式工具使用与连贯、可验证的推理。

3.2 两阶段训练流程

在构建好结构化数据集后，我们设计了一个两阶段的训练流程，以逐步增强模型的推理能力和工具使用熟练度。

3.2.1 基于 SFT 的推理预热

在第一阶段，我们在工具增强的 CoT 数据集上进行 SFT，以预热模型生成推理链和适当工具调用的能力。每个训练样本表示为：

$\tau = (\mathcal{V}, \mathcal{L}, T_R, A),$

其中 $\mathcal{V}$ 是视觉输入， $\mathcal{L}$ 是语言指令， $T_R$ 是逐步推理过程， $A$ 是最终答案。训练目标是最大化生成 $T_R$ 和 $A$ 的似然：

$\mathcal{L}_{\text{SFT}} = -\mathbb{E}_{\tau \sim \mathcal{D}} \sum_{t=1}^{T} \log \pi_\theta(R_t \mid \mathcal{V}, \mathcal{L}, R_{<t}), \tag{2}$

其中 $\mathcal{D}$ 是训练数据集， $R_t$ 表示第 $t$ 个推理步骤或答案 token。

3.2.2 基于 RLFT 的推理增强

为了在模仿学习之外进一步优化模型，我们采用基于强化学习微调（Reinforcement Learning Fine-Tuning, RLFT）的方法，引入 GRPO，它能够在无需学习价值函数的情况下，有效利用结构化奖励。

GRPO 概述。 GRPO 通过计算组内样本的相对优势来避免对价值函数的需求。给定一个问题 $q$ 和 $G$ 个由旧策略 $\pi_{\theta_{\text{old}}}$ 采样的响应 ${o_i\}_{i=1}^G$ ，其目标函数为 [31]：

$J_{\text{GRPO}}(\theta) = \mathbb{E}_{q, \{o_i\} \sim \pi_{\text{old}}} \left[ \frac{1}{G} \sum_{i=1}^G L_i - \beta D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) \right] \tag{3}$

其中，组内裁剪损失（clipped loss）定义为：

$L_i = \min \big(w_i A_i,\; \text{clip}(w_i,\; 1-\epsilon,\; 1+\epsilon) A_i \big) \tag{4}$

重要性权重 $w_i$ 与归一化优势 $A_i$ 分别为：

$w_i = \frac{\pi_\theta(o_i \mid q)}{\pi_{\theta_{\text{old}}}(o_i \mid q)} \tag{5}$

$A_i = \frac{r_i - \text{mean}(r)}{\text{std}(r)} \tag{6}$

其中 $r_i$ 表示分配给输出 $o_i$ 的奖励， $\beta$ 和 $\epsilon$ 为可调超参数。

250904： $\pi_\theta$ 是当前策略模型（更新后的模型）， $\pi_{\theta_\text{old}}$ 是旧策略模型（上一次迭代的模型）。
如果某个输出在新模型里概率更大（ $w_i > 1$ ），说明新模型更倾向于生成它；

奖励设计。 为了引导模型实现准确、可解释且具备工具感知的推理，我们设计了一个结构化奖励函数，包含三个主要部分：

最终答案奖励（Final Answer Reward）： 验证最终答案是否与真实值一致，鼓励任务级别的正确性。
步骤推理奖励（Step Reasoning Reward）： 评估中间推理步骤的逻辑与结构，包括：
- 步骤匹配： 与参考步骤对齐，并惩罚错误的顺序；
- 连贯性： 步骤之间的逻辑过渡是否自然。
工具使用奖励（Tool-Use Reward）： 鼓励适当且有意义的工具使用，包括：
- 格式合规性： 是否遵循预期输出结构（如 “Tool”、“Step Reasoning”）；
- 集成质量： 工具输出是否被有效且连贯地整合进推理中。

250904：奖励这里写的太笼统了，附录里也没有详细的。

在这里插入图片描述

这种结构化的奖励设计比通用的相似性度量提供了更有针对性和更可解释的监督。它使 GRPO 能够同时优化推理过程的质量，以及模型在需要时调用工具的能力。

3.3 推理与评估

在推理过程中，如图 4 所示，VLM 会从预定义的工具库中动态调用工具以获取信息，从而支持逐步推理。这种动态工具调用机制提高了准确性，并且反映了我们工具增强训练数据的结构。然而，现有的基准 [11, 15] 往往忽视了对工具使用的评估。为此，我们在表 2 中引入了三项指标，用于评估模型在推理过程中对工具的利用情况。
在这里插入图片描述

4. 实验

在本节中，我们进行了大量实验来验证 AgentThink 的有效性。实验旨在回答以下核心问题：

Q1. 动态的工具增强推理是否能够在最终答案准确率和推理一致性上超越现有的 VLM 基线？
Q2. 我们的结构化奖励设计（最终答案、逐步推理、工具使用）是否对推理行为有意义的贡献？
Q3. AgentThink 在零样本和单样本设定下对未见数据集的泛化能力如何？

评估指标。 我们采用 DriveLMM-o1 的评估指标，具体包括利用整体推理得分来衡量 VLMs 的推理水平，并使用多选题质量（Multiple Choice Quality, MCQ）来评估最终答案的准确性，更多细节见附录 C。此外，我们引入了新的指标来评估工具使用能力，详见表 2。

模型与实现。 我们使用 Qwen2.5-VL-7B 作为基础模型，并冻结视觉编码器。SFT 通过 LoRA 实现，随后进行 GRPO 微调。训练批大小设为每设备 1。所有实验均在 16× NVIDIA A800 GPUs 上进行。在 GRPO 微调阶段，我们对每个问题执行 2 次 rollout。其他设置见附录 B。

4.1 主要实验结果

与开源 VLMs 的比较。 表 3 展示了在 DriveLMM-o1 基准上的主要结果，将 AgentThink 与一系列强大的开源 VLM 模型进行对比，包括 DriveLMM-o1 [15]、InternVL2.5 [4]、LLaVA-CoT [43] 以及 Qwen2.5-VL 系列。
在这里插入图片描述

我们的完整模型 AgentThink 在所有类别中都达到了最新的最优性能。与基线模型 Qwen2.5-VL-7B 相比，其整体推理得分从 51.77 提升到 79.68（+53.91%），最终答案准确率从 37.81% 提升到 71.35%（+33.54%）。与此前最强的系统 DriveLMM-o1 相比，AgentThink 进一步提升了 +5.9% 的推理得分和 +9.0% 的最终答案准确率——这表明学习到的工具使用相较于静态 CoT 或基于模仿的方法具有明显优势。

250904：整体推理得分从 51.77 提升到 79.68（+53.91%）明显写错了，应该是+27.91

性能细分。 除了推理和准确率之外，AgentThink 在驾驶相关的特定指标（如风险评估、交通规则遵循和场景理解）以及感知相关的类别（如相关性和缺失细节检测）方面也始终优于其他模型。这些提升体现了其能够利用动态工具调用和反馈，更有效地将推理锚定在视觉上下文中。

关键洞察。 不同于传统的 CoT 或基于提示的方法，AgentThink 学会了 何时以及为何调用外部工具，从而实现了更具适应性和上下文感知的推理。这带来了更高质量的决策、更少的幻觉，以及在安全关键的驾驶场景中更高的可信度。相关案例见附录 D。

4.2 工具使用分析

如前所述，我们分析了不同训练策略在推理过程中对工具使用行为的影响。表 5 报告了三个维度的结果：(1) 工具使用的适当性，(2) 工具链的连贯性，(3) 感知引导的对齐性。

DirectTool 基线通过提示强制调用工具，但不具备推理结构，其表现为中等的链路连贯性，但在适当性和对齐性上较差——这表明强制工具使用往往缺乏目的性。加入 SFT 后，适当性和对齐性均有所改善，但由于缺乏对工具质量的反馈，进一步提升受到限制。结合结构化奖励的 GRPO 带来了显著提升，教会模型有选择性地调用工具，并将输出连贯地整合。我们的完整模型结合了 SFT 与 GRPO，并引入全面奖励，在所有指标上取得最佳表现。这表明监督和奖励塑造对于学习有效的、具备上下文感知的工具使用至关重要。我们还评估了训练数据规模的影响，详见附录 E。
在这里插入图片描述

4.3 消融实验

在表 4 中，我们进行了全面的消融实验，以检验不同奖励信号和训练阶段在 AgentThink 中的作用。单独使用 SFT 或 GRPO（配合最终答案奖励或逐步推理奖励）相较基线模型带来了适度提升，分别在任务准确率和推理连贯性上有所改善。然而，当它们单独应用时，效果有限。

我们发现，将 SFT 与 GRPO 结合（即便没有工具使用奖励）也能取得更好的性能，这表明在强化学习微调之前进行推理预热至关重要。我们的完整模型 AgentThink 融合了三种奖励组件，达到了最优结果。它显著提升了推理质量和答案准确率，从而强调了工具使用和将推理锚定在视觉上下文中的重要性。
在这里插入图片描述

4.4 泛化性评估

我们在新的 DriveMLLM 基准上评估了 AgentThink 的泛化能力，分别在零样本（zero-shot）和单样本（one-shot）设定下与一系列强大的基线方法进行对比，这些基线包括主流 VLMs 和任务特定的变体（详细结果见表 6）。评估指标详见附录 F。
在这里插入图片描述

AgentThink 在零样本（26.52）和单样本（47.24）得分上均达到了最新最优，超越了 GPT-4o 和 LLaVA-72B。尽管基线方法（如 DirectTool）通过硬编码的工具提示在感知任务上表现出较强结果（例如 RHD 89.2 vs. 86.1，BBox 精度 92.4% vs. 91.7%），但它们在上下文刚性和推理-感知对齐方面存在不足。我们的模型通过有效协调显式推理与学习到的自适应工具使用，在感知上下文中展现了更优的平衡。这凸显了学习型工具使用机制相较于静态提示或单纯依赖大规模模型在稳健泛化上的优势。

从定性结果来看，如图 5 所示，AgentThink 能够在多样化基准（BDD-X [18]、Navsim [7]、DriveBench [42]、DriveMLLM [11]）上的零样本困难案例中成功导航。在这些场景下，基础 Qwen 模型往往无法获取足够信息，或在推理过程中产生幻觉，从而导致错误输出。相比之下，AgentThink 能够熟练调用工具获取关键决策信息，从而正确回答这些困难问题。这进一步强调了其动态工具增强推理在陌生环境下的实用价值。
在这里插入图片描述

5. 结论

我们提出了 AgentThink，这是首个紧密结合链式思维（Chain-of-Thought, CoT）推理与类代理工具调用的统一框架，专为自动驾驶而设计。通过利用可扩展的工具增强数据集，以及结合逐步推理与规划优化（GRPO）的两阶段监督微调（SFT）流程，AgentThink 在推理和准确性指标上取得了显著提升。具体而言，其在 DriveLMM-o1 上的推理得分从 51.77 提升至 79.68，答案准确率从 37.81% 提升至 71.35%，分别超越此前最强模型 +5.9% 和 +9.0%。

除了性能提升之外，AgentThink 还在可解释性方面表现更优，因为其将推理过程中的每一步都锚定在具体的工具输出上。这强有力地证明了显式推理与学习到的工具使用相结合是一种行之有效的策略，有助于推动更安全、更稳健的驾驶任务。这类智能体更好地应对现实驾驶环境中的复杂性，在动态场景下展现出更强的泛化性和适应性。

局限性

数据规模。 我们的工具增强语料库仅包含 18k 个标注实例，限制了对长尾或稀有驾驶事件的覆盖。未来需要显著更大且更具多样性的数据集，以帮助模型学习更广泛的真实世界场景。

模型规模。 我们的方法依赖于 Qwen2.5-VL-7B，其 70 亿参数规模在嵌入式车载硬件上带来非平凡的内存和延迟开销。未来工作应探索更轻量的骨干网络（如 ~30 亿参数），在减轻资源压力的同时保持推理能力。

缺乏时间上下文。 当前模型仅处理单帧、多视角图像作为输入。在缺乏序列信息的情况下，模型可能会误解依赖时间线索的场景（例如变化的交通信号灯）。为解决此问题，可以引入视频 token 或采用循环记忆机制。

缺少三维模态。 缺乏 LiDAR 或点云数据会使模型丧失精确的空间几何信息，从而在与距离相关的推理中引入不确定性。未来通过引入更多模态进行融合有望提升模型的鲁棒性。

伦理声明

所有数据均来自公开发布的驾驶数据集，这些数据已匿名化以去除个人可识别信息；我们未采集任何私人或众包数据。本研究不涉及人类受试者，所有实验均在离线或仿真环境中完成。模型检查点在非商业许可下发布，禁止在未经额外验证的情况下部署于安全关键车辆中。本研究遵循 ACL 伦理准则，并未依赖任何敏感数据或模型。

AgentThink：一种在自动驾驶视觉语言模型中用于工具增强链式思维推理的统一框架