前言
这两天看到一篇新挂在arxiv上的文章 [1],讨论了下视觉大语言模型的视觉表征退化问题。先前的研究将VLM缺陷归咎于视觉编码器薄弱,并提出集成编码器方案以弥补不足,本文认为可能是底座LLM不能充分利用视觉编码器的特征,笔者觉得挺有意思的,就在此笔记,希望对读者有所帮助。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。
- 关键词:VLM、以视觉为中心任务、视觉表征退化
∇ \nabla ∇ 联系方式:
- e-mail: FesianXu@gmail.com
- github: https://github.com/FesianXu
- 知乎专栏: 计算机视觉/计算机图形理论与应用
- 微信公众号:机器学习杂货铺3号店
视觉语言大模型(Visual Language Model, VLM)通常由三部分组成:
- 视觉编码器,可以是CLIP、SigLIP、DINO等,采用的结构可以是ViT,也可以是传统的CNN,不过现在主流都是ViT结构,本文指的视觉编码器也是ViT的产出。
- 视觉连接器(Projector),通常是简单的MLP结构,或者Q-Former、Resampler、D-abstractor等复杂结构。
- 底座LLM,如LLama、Qwen、baichuan等。
之前笔者在博文 [2] 中也曾介绍过一篇对VLM中的视觉短板问题的研究,其最终结论是单纯基于CLIP的视觉特征,在视觉问题上可能存在固有的缺陷,这个缺陷通过扩大模型规模和数据尺度可能都无法弥补,因此最终提议结合采用CLIP和DINO v2一起交织作为视觉表征供给VLM。然而,最近有研究文章 [1] 表示当前的VLM并不能充分利用视觉编码器的表征,导致在一些视觉为中心的任务中表现接近随机。以视觉为中心的任务,是计算机视觉领域中的一类任务,其核心在于理解与解读来自图像和视频的视觉信息。这类任务通常通过分析视觉内容实现特定功能:提取关键特征、识别目标对象,或基于视觉感知执行其他相关操作,通常不依赖语言级别的知识及其领域知识等。具体来说,比如语义相关点匹配(Semantic Correspondence)、低级特征匹配(Low-level Matching)、深度估计(Depth Estimation)、3D物体感知(3D Object Awareness)等都属于视觉为中心的任务。
作者的评估策略是,挑选出主流的4种视觉编码器,包括只在ImageNet 1K上进行监督训练得到的IN-1k
,只采用视觉自监督训练得到的DINO v2
,采用图文跨模态训练得到的SigLIP
和CLIP
。然后挑选Vicuna v1.5作为LLM底座,在固定住视觉编码器和底座LLM的情况下,采用LLaVA v1.5的数据微调视觉连接器。
从Fig 1.中,我们发现在一些视觉为中心的任务中,在主流的多种视觉特征下,标准的视觉评估策略(只采用视觉特征)的效果往往远比转向VLM评估策略后效果好,后者则基本上是随机猜测的水平。
以上实验采用的视觉编码器的参数是固定的,没有进行微调,作者同样拿开源的VLM进行了对比(开源的VLM中对视觉编码器也进行了端到端的训练),如Fig 2.所示,同样发现了类似的现象。此外,从Fig 1和Fig 2中我们还发现,在标准视觉评估策略中表现最好的视觉特征,在VLM下可能并不是最优的,以Fig 1的Low-Level Matching为例,在Visual下的性能序为DINO v2 > IN-1k > SigLIP > CLIP
,而在VLM中的性能序为IN-1k > SigLIP > CLIP ≈ DINO v2
。
以上的实验证明当前的VLM并没有充分利用视觉信息(起码是在视觉为中心的这些任务中),这结论和之前的一些研究 [2] 并不相似。一种可能的解释是,这来自于视觉特征的退化,特别是当视觉特征经过视觉连接器或者LLM后可能会丢弃一些任务相关的视觉信息。因此考虑将VLM的逐层进行探针(probe),统计下游任务的效果,从Fig 3来看,视觉信息在逐层中并没有发生明显的衰减现象,但是在最后一层中会倾向于发生性能的大幅度下降,作者猜测这种变化源于LLM在其末端的信息处理重点的转移——从前期的特征保持与注意力分配,转向最终的语义生成任务,因此导致最终效果不尽人意。
还有种可能是VLM对prompt比较敏感,因此作者采用Prompt Tuning [3] 的方式在原始prompt前面插入若干个可学习的前缀(共用词表),然后在1000个VQA样本上进行微调。结果如Fig 4所示,引入Prompt-tuning的确有些许效果提升,不过提升仍然有限,提升可学习前缀数量并不会带来进一步的提升。
鉴于已排除视觉语言模型(VLM)的视觉表征衰减和Prompt表述的敏感性对性能的制约,作者转向探索LLM自身的作用机制。我们在每个视觉为中心的任务中选取5000个样本,分别对VLM的三个组件——视觉编码器(ViT)、视觉连接器(Proj)和底座LLM——进行独立微调。实验采用与评估框架相同的VQA数据格式,通过LoRA微调并严格控制可调权重矩阵,确保所有组件保持同等参数量级(16.7M参数量,等效于全视觉连接器微调的参数量)。如Fig 5所示,对比微调视觉编码器和微调视觉连接器,微调底座LLM的提升最为明显,但仍然对比视觉本身存在一定差距。
为了深入理解这一现象,作者分析了微调后DINO v2表征的注意力偏移变化。在对应任务中,微调加强了对多选题标签、参考点及其他文本(尤见于LLM第4层)的关注度。不同于投影器或ViT微调(这些方法在任何注意力层或头中均未稳定凸显上述关键点),LLM微调显著提升了模型在关键区域定位并利用视觉表征的能力。如Fig 6所示,通过可视化Object Affordance任务和Semantic Correspondence任务中微调底座LLM前后的注意力图的变化,发现微调了LLM后能够有效提高参考点和关注点之间的注意力强度。
综合来看,作者认为底座LLM是以视觉为中心任务实现更高预测性能的瓶颈,其局限既源于对关键视觉区域的关注不足,也来自LLM对特定多选题答案的强先验依赖。需要强调的是,本文并非主张通过直接任务训练作为解决VLM视觉表征利用不足的通用方案;而是借助该方法定位VLM失效机制,并论证提升LLM视觉表征利用能力可有效突破语言先验束缚,实现最优性能提升。
Reference
[1]. Fu, Stephanie, Tyler Bonnen, Devin Guillory, and Trevor Darrell. “Hidden in plain sight: VLMs overlook their visual representations.” arXiv preprint arXiv:2506.08008 (2025).
[2]. https://fesianxu.github.io/2024/07/06/20240706-visual-shortcome-mllm/ 《基于CLIP特征的多模态大模型中的视觉短板问题》
[3]. https://fesianxu.github.io/2023/09/28/prompt-tuning-20230928/, 《Prompt Tuning——一种高效的LLM模型下游任务适配方式》