【论文笔记】【强化微调】Vision-R1:首个针对多模态 LLM 制定的强化微调方法,以 7B 比肩 70B

发布于:2025-07-03 ⋅ 阅读:(19) ⋅ 点赞:(0)

[2503.06749] Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models

1. 引述

这是第一篇提出为 MLLM 强化微调的论文。

DeepSeek-R1-Zero 已经证明:仅依靠强化学习(RL)就能在大语言模型(LLM)中涌现出推理能力。受这一突破启发,论文探索了如何利用 RL 来提升多模态大语言模型(MLLM)的推理能力。

论文构建了一个数据集,这个数据集收集了 10000 道开源数学题作为训练数据。训练的时候遇到了一个问题:SFT 冷启动之后会导致过度思考(输出没有意义的思维链)

而为了解决这个问题,论文提出了一种渐进式思维抑制训练策略。

2. 数据集构建流程

前人构建图像数据集的不足:

  • 基于人工启发式,按“列已知→套公式→得结果”这样的固定步骤来写 CoT,缺少“质疑–反思–验证”这些人类在真实思考中常有的自问自答过程,导致模型学不到元认知能力。
  • 直接让模型对图像打标签或生成简单描述,往往遗漏与推理密切相关的细节;加上后续又只用纯文本模型写 CoT,造成视觉信息在文本化过程中大量丢失,最终的 CoT 既不严谨也不完整。

论文构建的方式:

借助已有多模态大模型(MLLM)与纯文本推理模型 DeepSeek-R1,把图像中的视觉信息“桥接”到高质量的链式思考(CoT)文本中,并最终构建无需人工标注的多模态 CoT 数据集。

具体流程如下图:

首先将多模态数据(图像)输入到 LLM 中,生成思维链。这一步也是前人的做法;然后将生成的思维链和图像一起,又输入给 LLM 生成高质量的思维链;最后经过一次后处理就构建。

具体流程文本叙述如下:

  • 输入多模态数据 → 生成“伪 CoT”

    • 输入:一张图像 + 对应的问题与答案 + “提示语”(prompt)。

    • 处理:将以上内容喂给一个多模态大模型(MLLM)。

    • 输出:该 MLLM 生成一段包含 图像描述 (Caption)初步推理过程 (Reasoning) 的“伪 CoT”(Pseudo-CoT)。

    • 作用:通过这一步,图像的关键视觉信息和简单推理思路被转换为可读文本,但尚不够详细和严谨。

  • 伪 CoT + 图像 → 生成详细描述

    • 输入:原始图像、问题,以及上一步得到的伪 CoT,再加上新的“提示语”——“请根据这段思考过程,把图像里对回答问题至关重要的所有细节,用连贯的文字完整描述出来”。

    • 处理:再次交给同一个 MLLM。

    • 输出:一段 更细致、信息更齐全的图像描述(Description),它不仅复述了伪 CoT 中的要点,还尽可能覆盖了图中所有与解题相关的视觉线索。

    • 作用:以文字形式“还原”图像中的细节,减少后续将视觉信息丢给纯文本模型时的信息损失。

  • 详细描述 → DeepSeek-R1 生成高质量 CoT

    • 输入:仅保留文本模式的“三元组”——(详细图像描述 + 问题 + 答案)。

    • 处理:交给 DeepSeek-R1(一个擅长生成富含人类式“质疑”、“反思”等环节的纯文本 CoT 的模型)。

    • 输出:DeepSeek-R1 产出高质量的链式思考过程,包含:

      • 清晰的“思考”标注(如 “First… Then… Wait…”)

      • 逻辑严谨且富有自我检验的推理步骤

    • 作用:利用 DeepSeek-R1 在纯文本推理上的强大能力,把复杂认知过程落到文本上来。

  • 后处理 & 整合 → 构建 Vision-R1-cold 数据集

    • 后处理

      • 保留:那些最终答案与真值匹配,且推理链内部自洽的样本。

      • 规则过滤:剔除逻辑不通或语言混乱的示例;必要时替换或润色个别词句以保证语义连贯。

    • 整合:将 DeepSeek-R1 生成的纯文本 CoT 与对应的原始图像重新配对,形成多模态 CoT 示例。

    • 结果:得到规模化、无需人工标注的 Vision-R1-cold 数据集,用于对 Vision-R1 进行冷启动训练。

3. 渐进式思维抑制策略

这一步其实是用 GRPO 训练了两次模型。本来要训练三次的,但是论文发现训练到第二次就已经很有效了,就没有继续训练下去。

训练的流程如下:

图中有一个 PTST,其实就是渐进式思维抑制的意思。

阶段 训练起点 采样组数 GsG_s 最大推理长度 LsL_s 奖励机制 目标
Stage 1 预训练 MLLM(或上一阶段保存点) 16 4 K tokens 硬格式 + 结果一致 (HFRRF) 迫使模型在「短链」内学会正确、简洁地推理
Stage 2 接着 Stage 1 的检查点继续 8 8 K tokens 同上 在已掌握正确套路的基础上,允许链条变长,处理更复杂问题
(Stage 3*) 原计划接着 Stage 2 4 16 K tokens 同上 论文实验发现 Stage 2 结束性能已足够,实际未启用

4. 实验结果

  • GEO:几何推理 (geometry reasoning)

  • ARI:代数推理 (algebraic reasoning)

  • GPS:几何问题求解 (geometry problem solving)

  • MWP:数学文字题 (math word problems)

  • ALL:表示总体平均得分。


网站公告

今日签到

点亮在社区的每一天
去签到