【Arxiv 大模型最新进展】LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型

发布于:2025-02-10 ⋅ 阅读:(57) ⋅ 点赞:(0)

【Arxiv 大模型最新进展】LLaVA-Mini:压缩至一个视觉token,高效计算与实时响应的多模态大模型

LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token

Shaolei Zhang, Qingkai Fang等

中国科学院智能信息处理重点实验室, 中国科学院计算技术研究所等

本文提出了LLaVA-Mini,通过对多模态大模型注意力矩阵的逐层分析,发现视觉token主要在模型的前几层被利用,基于这一发现,文章引入了模态预融合技术,将视觉信息提前融入文本token,将输入LLM主干的视觉token压缩至一个token。

研究内容

多模态大模型的视觉token压缩

研究动机

现有方法表现不佳:现有方法依赖于预定义规则来减少视觉编码器输出的token数量,或专注于LLM主干小型化,或者其他方法,仍会导致视觉信息的大量丢失。

技术动机

多模态大模型是如何理解视觉token的?

通过提出这一疑问,本文对模型进行逐层分析,发现视觉token主要在模型的前几层被利用,随着层级的加深,关注视觉token的注意力急剧减少。

解决方案

基于上面的发现——视觉token在模型的浅层中对融合视觉信息至关重要,LLaVA-Mini在LLM主干网络之前引入了一个模态预融合模块,将视觉信息提前融合到文本token中。下面分别介绍LLaVA-Mini的两个重要模块,视觉token压缩模块和模态预融合模块

视觉token压缩模块

LLaVA-Mini 引入了 C × C C \times C C×C可学习的压缩查询 Q v Q_v Qv。这些查询通过交叉注意力与所有视觉token H v H_v Hv进行交互,选择性地提取重要的视觉信息,生成 C × C C \times C C×C压缩的视觉token H ^ v ∈ R C 2 × d h \hat{H}_v \in \mathbb{R}^{C_2 \times d_h} H^vRC2×dh。为了在压缩过程中保留图像的空间信息,我们对可学习查询和原始视觉token引入了2D正弦位置编码。

模态预融合模块

模态预融合模块 f ( ⋅ ) f(\cdot) f() N fusion N_{\text{fusion}} Nfusion 个Transformer块组成,每个Transformer块与LLM骨干网络共享相同的结构和超参数。视觉token H v H_v Hv和文本token H q H_q Hq被连接并输入到预融合模块中,然后提取与文本相关的视觉信息作为融合token,表示为:

H ^ q = f ( Concat ( H v , H q ) ) [ − l q : ] \hat{H}_q = f(\text{Concat}(H_v, H_q))[-l_q:] H^q=f(Concat(Hv,Hq))[lq:]

其中 H ^ q ∈ R l q × d h \hat{H}_q \in \mathbb{R}^{l_q \times d_h} H^qRlq×dh是包含相关视觉信息的文本表示的融合token。

最终,压缩后的视觉token H ^ v \hat{H}_v H^v和融合token H ^ q \hat{H}_q H^q(共 C 2 + l q C_2 + l_q C2+lq个token)一起输入到LLM中,以生成响应。

实验结果

本文在图像和视频理解任务上评估LLaVA-Mini,为了公平比较,采用与LLaVA-v1.5相同的配置。分为两个配置LLaVA-Mini-HD-压缩至64个token,LLaVA-Mini-压缩为一个token。实验在11个图像基准和7个视频基准上进行,实验结果分别如下:

综上,本文推出了LLaVA-Mini,结合模态预融合模块高效压缩视觉token。LLaVA-Mini在图像和视频理解方面表现出色,同时在计算效率、推理延迟和内存使用方面具有优势。


  • 查看 Arxiv 原文请点击"阅读原文"[https://arxiv.org/abs/2410.10630v1]
  • 更多大模型学习资料,详见浙江大学LLMs Github仓库:
    https://github.com/ZJU-LLMs/Foundations-of-LLMs
  • 本文编辑:胡中豪,毛玉仁

网站公告

今日签到

点亮在社区的每一天
去签到