Xmodel-VLM: A Simple Baseline for Multimodal Vision Language Model
摘要
我们介绍了Xmodel-VLM,这是一个尖端的多模态视觉语言模型。它旨在高效地部署在消费级GPU服务器上。我们的工作直接面对一个关键的行业问题,即通过解决阻碍大规模多模态系统广泛采用的高昂服务成本问题。通过严格的训练,我们从头开始开发了一个10亿规模的语言模型,采用LLaVA范式进行模态对齐。我们称之为Xmodel-VLM的结果是轻量级但功能强大的多模态视觉语言模型。在众多经典多模态基准测试中的广泛测试表明,尽管其体积更小、执行速度更快,但Xmodel-VLM的性能可与更大的模型相媲美。我们的模型检查点和代码在GitHub上公开可用。
核心方法
- 模型架构:Xmodel-VLM的架构包括三个关键部分:视觉编码器、轻量级语言模型(LLM)和投影器,用于对齐视觉和文本空间。
- 视觉编码器:使用预训练的CLIP ViT-L/14作为视觉编码器。
- 语言模型:为了降低操作成本,我们从零开始训练了一个1.1B规模的轻量级语言模型Xmodel-LM,设计上与LLaMA相似。
- 投影器:采用两层MLP来增强视觉编码器和LLM之间的连接,并使用Mish函数进行激活,同时作为下采样机制,有效减少了视觉标记的数量。
- 训练策略:训练过程包括两个主要步骤:预训练和指令调整。预训练阶段专注于训练高效的投影器,同时保持视觉编码器和Xmodel-LM冻结。随后,对投影器和语言模型进行全面的微调,以提高它们的视觉理解和语言处理能力。
实验说明
实验结果使用Markdown表格展示如下:
方法 | LLM | 分辨率 | VizWiz | SQAI | VQAT | POPE | GQA | MMB | MMBCN | MM-Vet | MME |
---|---|---|---|---|---|---|---|---|---|---|---|
Openflamingo | MPT-7B | 336 | – | – | 33.6 | – | – | 4.6 | – | – | – |
BLIP-2 | Vicuna-13B | 224 | 19.6 | 61.0 | 42.5 | 85.3 | 41.0 | – | – | 22.4 | 1293.8 |
Xmodel-VLM | Xmodel-LM 1.1B | 336 | 31.9 | 54.4 | 38.9 | 86.1 | 57.4 | 48.5 | 44.2 | 23.4 | 1251.5 |
实验数据来源于多个多模态基准测试,包括VizWiz、SQAI、VQAT、POPE、GQA、MMBench、MMBench-Chinese、MM-Vet和MME。这些数据展示了Xmodel-VLM在不同基准测试中的性能,尽管参数数量较少,但展示了与更大模型相竞争的性能。
结论
总之,我们通过精心选择视觉编码器、高效的投影器设计和两阶段训练策略,提出了一个高性能的视觉语言模型。在流行的VLM基准测试上的广泛实验证明了其有效性。我们预计,我们的技术将为各种应用,包括客户服务机器人,解锁新的可能性。