Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

发布于:2024-05-17 ⋅ 阅读:(130) ⋅ 点赞:(0)

Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model

相关链接:arXiv github
关键字:多模态学习视觉语言模型资源效率模型架构训练策略

摘要

我们介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题,即通过解决阻碍大规模多模态系统广泛采用的高昂服务成本问题。通过严格的训练,我们从头开始开发了一个10亿规模的语言模型,采用LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准测试中的广泛测试表明,尽管其体积更小、执行速度更快,但Xmodel-VLM的性能可与更大的模型相媲美。我们的模型检查点和代码在GitHub上公开可用。

核心方法

  1. 模型架构:Xmodel-VLM的架构包括三个关键部分:视觉编码器、轻量级语言模型(LLM)和投影器,用于对齐视觉和文本空间。
  2. 视觉编码器:使用预训练的CLIP ViT-L/14作为视觉编码器。
  3. 语言模型:为了降低操作成本,我们从零开始训练了一个1.1B规模的轻量级语言模型Xmodel-LM,设计上与LLaMA相似。
  4. 投影器:采用两层MLP来增强视觉编码器和LLM之间的连接,并使用Mish函数进行激活,同时作为下采样机制,有效减少了视觉标记的数量。
  5. 训练策略:训练过程包括两个主要步骤:预训练和指令调整。预训练阶段专注于训练高效的投影器,同时保持视觉编码器和Xmodel-LM冻结。随后,对投影器和语言模型进行全面的微调,以提高它们的视觉理解和语言处理能力。

实验说明

实验结果使用Markdown表格展示如下:

方法 LLM 分辨率 VizWiz SQAI VQAT POPE GQA MMB MMBCN MM-Vet MME
Openflamingo MPT-7B 336 33.6 4.6
BLIP-2 Vicuna-13B 224 19.6 61.0 42.5 85.3 41.0 22.4 1293.8
Xmodel-VLM Xmodel-LM 1.1B 336 31.9 54.4 38.9 86.1 57.4 48.5 44.2 23.4 1251.5

实验数据来源于多个多模态基准测试,包括VizWiz、SQAI、VQAT、POPE、GQA、MMBench、MMBench-Chinese、MM-Vet和MME。这些数据展示了Xmodel-VLM在不同基准测试中的性能,尽管参数数量较少,但展示了与更大模型相竞争的性能。

结论

总之,我们通过精心选择视觉编码器、高效的投影器设计和两阶段训练策略,提出了一个高性能的视觉语言模型。在流行的VLM基准测试上的广泛实验证明了其有效性。我们预计,我们的技术将为各种应用,包括客户服务机器人,解锁新的可能性。


网站公告

今日签到

点亮在社区的每一天
去签到