[2503.06749] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models
1. 引述
这是第一篇提出为 MLLM 强化微调的论文。
DeepSeek-R1-Zero 已经证明:仅依靠强化学习(RL)就能在大语言模型(LLM)中涌现出推理能力。受这一突破启发,论文探索了如何利用 RL 来提升多模态大语言模型(MLLM)的推理能力。
论文构建了一个数据集,这个数据集收集了 10000 道开源数学题作为训练数据。训练的时候遇到了一个问题:SFT 冷启动之后会导致过度思考(输出没有意义的思维链)
而为了解决这个问题,论文提出了一种渐进式思维抑制训练策略。
2. 数据集构建流程
前人构建图像数据集的不足:
- 基于人工启发式,按“列已知→套公式→得结果”这样的固定步骤来写 CoT,缺少“质疑–反思–验证”这些人类在真实思考中常有的自问自答过程,导致模型学不到元认知能力。
- 直接让模型对图像打标签或生成简单描述,往往遗漏与推理密切相关的细节;加上后续又只用纯文本模型写 CoT,造成视觉信息在文本化过程中大量丢失,最终的 CoT 既不严谨也不完整。
论文构建的方式:
借助已有多模态大模型(MLLM)与纯文本推理模型 DeepSeek-R1,把图像中的视觉信息“桥接”到高质量的链式思考(CoT)文本中,并最终构建无需人工标注的多模态 CoT 数据集。
具体流程如下图:
首先将多模态数据(图像)输入到 LLM 中,生成思维链。这一步也是前人的做法;然后将生成的思维链和图像一起,又输入给 LLM 生成高质量的思维链;最后经过一次后处理就构建。
具体流程文本叙述如下:
输入多模态数据 → 生成“伪 CoT”
输入:一张图像 + 对应的问题与答案 + “提示语”(prompt)。
处理:将以上内容喂给一个多模态大模型(MLLM)。
输出:该 MLLM 生成一段包含 图像描述 (Caption) 与 初步推理过程 (Reasoning) 的“伪 CoT”(Pseudo-CoT)。
作用:通过这一步,图像的关键视觉信息和简单推理思路被转换为可读文本,但尚不够详细和严谨。
伪 CoT + 图像 → 生成详细描述
输入:原始图像、问题,以及上一步得到的伪 CoT,再加上新的“提示语”——“请根据这段思考过程,把图像里对回答问题至关重要的所有细节,用连贯的文字完整描述出来”。
处理:再次交给同一个 MLLM。
输出:一段 更细致、信息更齐全的图像描述(Description),它不仅复述了伪 CoT 中的要点,还尽可能覆盖了图中所有与解题相关的视觉线索。
作用:以文字形式“还原”图像中的细节,减少后续将视觉信息丢给纯文本模型时的信息损失。
详细描述 → DeepSeek-R1 生成高质量 CoT
输入:仅保留文本模式的“三元组”——(详细图像描述 + 问题 + 答案)。
处理:交给 DeepSeek-R1(一个擅长生成富含人类式“质疑”、“反思”等环节的纯文本 CoT 的模型)。
输出:DeepSeek-R1 产出高质量的链式思考过程,包含:
清晰的“思考”标注(如 “First… Then… Wait…”)
逻辑严谨且富有自我检验的推理步骤
作用:利用 DeepSeek-R1 在纯文本推理上的强大能力,把复杂认知过程落到文本上来。
后处理 & 整合 → 构建 Vision-R1-cold 数据集
后处理:
保留:那些最终答案与真值匹配,且推理链内部自洽的样本。
规则过滤:剔除逻辑不通或语言混乱的示例;必要时替换或润色个别词句以保证语义连贯。
整合:将 DeepSeek-R1 生成的纯文本 CoT 与对应的原始图像重新配对,形成多模态 CoT 示例。
结果:得到规模化、无需人工标注的 Vision-R1-cold 数据集,用于对 Vision-R1 进行冷启动训练。
3. 渐进式思维抑制策略
这一步其实是用 GRPO 训练了两次模型。本来要训练三次的,但是论文发现训练到第二次就已经很有效了,就没有继续训练下去。
训练的流程如下:
图中有一个 PTST,其实就是渐进式思维抑制的意思。
阶段 | 训练起点 | 采样组数 GsG_s | 最大推理长度 LsL_s | 奖励机制 | 目标 |
---|---|---|---|---|---|
Stage 1 | 预训练 MLLM(或上一阶段保存点) | 16 | 4 K tokens | 硬格式 + 结果一致 (HFRRF) | 迫使模型在「短链」内学会正确、简洁地推理 |
Stage 2 | 接着 Stage 1 的检查点继续 | 8 | 8 K tokens | 同上 | 在已掌握正确套路的基础上,允许链条变长,处理更复杂问题 |
(Stage 3*) | 原计划接着 Stage 2 | 4 | 16 K tokens | 同上 | 论文实验发现 Stage 2 结束性能已足够,实际未启用 |
4. 实验结果
GEO:几何推理 (geometry reasoning)
ARI:代数推理 (algebraic reasoning)
GPS:几何问题求解 (geometry problem solving)
MWP:数学文字题 (math word problems)
ALL:表示总体平均得分。