【论文笔记】【强化微调】Vision-R1：首个针对多模态 LLM 制定的强化微调方法，以 7B 比肩 70B-EW帮帮网

[2503.06749] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

1. 引述

这是第一篇提出为 MLLM 强化微调的论文。

DeepSeek-R1-Zero 已经证明：仅依靠强化学习（RL）就能在大语言模型（LLM）中涌现出推理能力。受这一突破启发，论文探索了如何利用 RL 来提升多模态大语言模型（MLLM）的推理能力。

论文构建了一个数据集，这个数据集收集了 10000 道开源数学题作为训练数据。训练的时候遇到了一个问题：SFT 冷启动之后会导致过度思考（输出没有意义的思维链）

而为了解决这个问题，论文提出了一种渐进式思维抑制训练策略。

2. 数据集构建流程

前人构建图像数据集的不足：

基于人工启发式，按“列已知→套公式→得结果”这样的固定步骤来写 CoT，缺少“质疑–反思–验证”这些人类在真实思考中常有的自问自答过程，导致模型学不到元认知能力。
直接让模型对图像打标签或生成简单描述，往往遗漏与推理密切相关的细节；加上后续又只用纯文本模型写 CoT，造成视觉信息在文本化过程中大量丢失，最终的 CoT 既不严谨也不完整。

论文构建的方式：

借助已有多模态大模型（MLLM）与纯文本推理模型 DeepSeek-R1，把图像中的视觉信息“桥接”到高质量的链式思考（CoT）文本中，并最终构建无需人工标注的多模态 CoT 数据集。

具体流程如下图：

首先将多模态数据（图像）输入到 LLM 中，生成思维链。这一步也是前人的做法；然后将生成的思维链和图像一起，又输入给 LLM 生成高质量的思维链；最后经过一次后处理就构建。

具体流程文本叙述如下：

输入多模态数据 → 生成“伪 CoT”

输入：一张图像 + 对应的问题与答案 + “提示语”（prompt）。

处理：将以上内容喂给一个多模态大模型（MLLM）。

输出：该 MLLM 生成一段包含 图像描述 (Caption) 与 初步推理过程 (Reasoning) 的“伪 CoT”（Pseudo-CoT）。

作用：通过这一步，图像的关键视觉信息和简单推理思路被转换为可读文本，但尚不够详细和严谨。

伪 CoT + 图像 → 生成详细描述

输入：原始图像、问题，以及上一步得到的伪 CoT，再加上新的“提示语”——“请根据这段思考过程，把图像里对回答问题至关重要的所有细节，用连贯的文字完整描述出来”。

处理：再次交给同一个 MLLM。

输出：一段 更细致、信息更齐全的图像描述（Description），它不仅复述了伪 CoT 中的要点，还尽可能覆盖了图中所有与解题相关的视觉线索。

作用：以文字形式“还原”图像中的细节，减少后续将视觉信息丢给纯文本模型时的信息损失。

详细描述 → DeepSeek-R1 生成高质量 CoT

输入：仅保留文本模式的“三元组”——（详细图像描述 + 问题 + 答案）。

处理：交给 DeepSeek-R1（一个擅长生成富含人类式“质疑”、“反思”等环节的纯文本 CoT 的模型）。

输出：DeepSeek-R1 产出高质量的链式思考过程，包含：

清晰的“思考”标注（如 “First… Then… Wait…”）

逻辑严谨且富有自我检验的推理步骤

作用：利用 DeepSeek-R1 在纯文本推理上的强大能力，把复杂认知过程落到文本上来。

后处理 & 整合 → 构建 Vision-R1-cold 数据集

后处理：

保留：那些最终答案与真值匹配，且推理链内部自洽的样本。

规则过滤：剔除逻辑不通或语言混乱的示例；必要时替换或润色个别词句以保证语义连贯。

整合：将 DeepSeek-R1 生成的纯文本 CoT 与对应的原始图像重新配对，形成多模态 CoT 示例。

结果：得到规模化、无需人工标注的 Vision-R1-cold 数据集，用于对 Vision-R1 进行冷启动训练。

3. 渐进式思维抑制策略

这一步其实是用 GRPO 训练了两次模型。本来要训练三次的，但是论文发现训练到第二次就已经很有效了，就没有继续训练下去。

训练的流程如下：

图中有一个 PTST，其实就是渐进式思维抑制的意思。

阶段	训练起点	采样组数 GsG_s	最大推理长度 LsL_s	奖励机制	目标
Stage 1	预训练 MLLM（或上一阶段保存点）	16	4 K tokens	硬格式 + 结果一致 (HFRRF)	迫使模型在「短链」内学会正确、简洁地推理
Stage 2	接着 Stage 1 的检查点继续	8	8 K tokens	同上	在已掌握正确套路的基础上，允许链条变长，处理更复杂问题
(Stage 3)*	原计划接着 Stage 2	4	16 K tokens	同上	论文实验发现 Stage 2 结束性能已足够，实际未启用

4. 实验结果

GEO：几何推理 (geometry reasoning)
ARI：代数推理 (algebraic reasoning)
GPS：几何问题求解 (geometry problem solving)
MWP：数学文字题 (math word problems)
ALL：表示总体平均得分。

【论文笔记】【强化微调】Vision-R1：首个针对多模态 LLM 制定的强化微调方法，以 7B 比肩 70B

1. 引述

2. 数据集构建流程

3. 渐进式思维抑制策略

4. 实验结果

网站公告

今日签到

热门文章

最新发布