视觉大语言模型未能充分利用视觉表征-EW帮帮网

视觉大语言模型未能充分利用视觉表征

FesianXu 20250612 at Wechat Search Team

前言

这两天看到一篇新挂在arxiv上的文章 [1]，讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱，并提出集成编码器方案以弥补不足，本文认为可能是底座LLM不能充分利用视觉编码器的特征，笔者觉得挺有意思的，就在此笔记，希望对读者有所帮助。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。

关键词：VLM、以视觉为中心任务、视觉表征退化

$\nabla$ 联系方式：

e-mail: FesianXu@gmail.com
github: https://github.com/FesianXu
知乎专栏: 计算机视觉/计算机图形理论与应用
微信公众号：机器学习杂货铺3号店

视觉语言大模型（Visual Language Model, VLM）通常由三部分组成：

视觉编码器，可以是CLIP、SigLIP、DINO等，采用的结构可以是ViT，也可以是传统的CNN，不过现在主流都是ViT结构，本文指的视觉编码器也是ViT的产出。
视觉连接器（Projector），通常是简单的MLP结构，或者Q-Former、Resampler、D-abstractor等复杂结构。
底座LLM，如LLama、Qwen、baichuan等。

之前笔者在博文 [2] 中也曾介绍过一篇对VLM中的视觉短板问题的研究，其最终结论是单纯基于CLIP的视觉特征，在视觉问题上可能存在固有的缺陷，这个缺陷通过扩大模型规模和数据尺度可能都无法弥补，因此最终提议结合采用CLIP和DINO v2一起交织作为视觉表征供给VLM。然而，最近有研究文章 [1] 表示当前的VLM并不能充分利用视觉编码器的表征，导致在一些视觉为中心的任务中表现接近随机。以视觉为中心的任务，是计算机视觉领域中的一类任务，其核心在于理解与解读来自图像和视频的视觉信息。这类任务通常通过分析视觉内容实现特定功能：提取关键特征、识别目标对象，或基于视觉感知执行其他相关操作，通常不依赖语言级别的知识及其领域知识等。具体来说，比如语义相关点匹配（Semantic Correspondence）、低级特征匹配（Low-level Matching）、深度估计（Depth Estimation）、3D物体感知（3D Object Awareness）等都属于视觉为中心的任务。

作者的评估策略是，挑选出主流的4种视觉编码器，包括只在ImageNet 1K上进行监督训练得到的IN-1k，只采用视觉自监督训练得到的DINO v2，采用图文跨模态训练得到的SigLIP和CLIP。然后挑选Vicuna v1.5作为LLM底座，在固定住视觉编码器和底座LLM的情况下，采用LLaVA v1.5的数据微调视觉连接器。

从Fig 1.中，我们发现在一些视觉为中心的任务中，在主流的多种视觉特征下，标准的视觉评估策略（只采用视觉特征）的效果往往远比转向VLM评估策略后效果好，后者则基本上是随机猜测的水平。

在这里插入图片描述

Fig 1. 从标准视觉评估策略（只采用视觉特征）转向 VLM 评估策略会导致性能下降，其准确率常常降至随机猜测水平。此外，在某个任务中表现最佳的视觉编码器（通常是 DINO v2）并非在性能更优异的 VLM 框架中表现最佳的视觉编码器。

以上实验采用的视觉编码器的参数是固定的，没有进行微调，作者同样拿开源的VLM进行了对比（开源的VLM中对视觉编码器也进行了端到端的训练），如Fig 2.所示，同样发现了类似的现象。此外，从Fig 1和Fig 2中我们还发现，在标准视觉评估策略中表现最好的视觉特征，在VLM下可能并不是最优的，以Fig 1的Low-Level Matching为例，在Visual下的性能序为DINO v2 > IN-1k > SigLIP > CLIP，而在VLM中的性能序为IN-1k > SigLIP > CLIP ≈ DINO v2。

在这里插入图片描述

Fig 2. 在开源的VLM中，其视觉编码器是联合底座LLM进行微调的，即便如此，在视觉为中心的任务中，只考虑视觉特征的标准视觉评估也是远比VLM本身占优的。

以上的实验证明当前的VLM并没有充分利用视觉信息（起码是在视觉为中心的这些任务中），这结论和之前的一些研究 [2] 并不相似。一种可能的解释是，这来自于视觉特征的退化，特别是当视觉特征经过视觉连接器或者LLM后可能会丢弃一些任务相关的视觉信息。因此考虑将VLM的逐层进行探针（probe），统计下游任务的效果，从Fig 3来看，视觉信息在逐层中并没有发生明显的衰减现象，但是在最后一层中会倾向于发生性能的大幅度下降，作者猜测这种变化源于LLM在其末端的信息处理重点的转移——从前期的特征保持与注意力分配，转向最终的语义生成任务，因此导致最终效果不尽人意。

在这里插入图片描述

Fig 3. 对视觉语言模型中间层的可视化评估。通过在视觉连接器（灰色区域）和底座LLM（白色区域）逐层探测（Probing）视觉表征，我们发现这些层级普遍保留着任务关联信息，且未出现明显衰减迹象。

还有种可能是VLM对prompt比较敏感，因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干个可学习的前缀（共用词表），然后在1000个VQA样本上进行微调。结果如Fig 4所示，引入Prompt-tuning的确有些许效果提升，不过提升仍然有限，提升可学习前缀数量并不会带来进一步的提升。

在这里插入图片描述

Fig 4. 提示调优评估实验。我们分别微调[1, 5, 10]个前缀嵌入向量，将结果与原始性能（x=0）及视觉评估上限（虚线）进行对比。实验显示：前缀嵌入数量在突破1-5个后，模型性能提升幅度显著收窄，呈现边际收益递减现象。

鉴于已排除视觉语言模型（VLM）的视觉表征衰减和Prompt表述的敏感性对性能的制约，作者转向探索LLM自身的作用机制。我们在每个视觉为中心的任务中选取5000个样本，分别对VLM的三个组件——视觉编码器（ViT）、视觉连接器（Proj）和底座LLM——进行独立微调。实验采用与评估框架相同的VQA数据格式，通过LoRA微调并严格控制可调权重矩阵，确保所有组件保持同等参数量级（16.7M参数量，等效于全视觉连接器微调的参数量）。如Fig 5所示，对比微调视觉编码器和微调视觉连接器，微调底座LLM的提升最为明显，但仍然对比视觉本身存在一定差距。

在这里插入图片描述

Fig 5. 在各组件参数量严格对等的实验设定下，针对特定任务微调LLM所产生的性能增益远高于微调投影层或视觉编码器。这些结果证实了LLM有效利用视觉表征的能力是制约视觉中心任务表现的核心瓶颈。

为了深入理解这一现象，作者分析了微调后DINO v2表征的注意力偏移变化。在对应任务中，微调加强了对多选题标签、参考点及其他文本（尤见于LLM第4层）的关注度。不同于投影器或ViT微调（这些方法在任何注意力层或头中均未稳定凸显上述关键点），LLM微调显著提升了模型在关键区域定位并利用视觉表征的能力。如Fig 6所示，通过可视化Object Affordance任务和Semantic Correspondence任务中微调底座LLM前后的注意力图的变化，发现微调了LLM后能够有效提高参考点和关注点之间的注意力强度。

在这里插入图片描述

Fig 6. 通过可视化底座LLM微调前后的注意力分布差异，观察到Semantic Correspondence任务中关注点（REF、A、B、C、D）的注意力强度显著提升。这些关注点在注意力层4-6中表现最为明显；此处分别可视化的是第4层在Object Affordance任务（左图）与Semantic Correspondence任务（右图）中的注意力分布。

综合来看，作者认为底座LLM是以视觉为中心任务实现更高预测性能的瓶颈，其局限既源于对关键视觉区域的关注不足，也来自LLM对特定多选题答案的强先验依赖。需要强调的是，本文并非主张通过直接任务训练作为解决VLM视觉表征利用不足的通用方案；而是借助该方法定位VLM失效机制，并论证提升LLM视觉表征利用能力可有效突破语言先验束缚，实现最优性能提升。

Reference

[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).

[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模态大模型中的视觉短板问题》

[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一种高效的LLM模型下游任务适配方式》

视觉大语言模型未能充分利用视觉表征

前言

Reference

网站公告

今日签到

热门文章

最新发布