VITA: Towards Open-Source Interactive Omni Multimodal LLM
➡️ 论文标题:VITA: Towards Open-Source Interactive Omni Multimodal LLM
➡️ 论文作者:Chaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Shaoqi Dong, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun
➡️ 研究机构: Tencent Youtu Lab、NJU、XMU、CASIA
➡️ 问题背景:尽管大型语言模型(LLMs)在多模态处理和交互体验方面取得了显著进展,但开源模型在这些领域仍存在不足。当前,多模态大型语言模型(MLLMs)如GPT-4o在处理文本、视觉和音频信号方面表现出色,并支持自然的多模态人机交互。然而,开源社区缺乏能够同时支持这些功能的模型。
➡️ 研究动机:为了填补这一空白,研究团队开发了VITA,这是首个开源的多模态大型语言模型,能够同时处理视频、图像、文本和音频模态,并提供先进的多模态交互体验。VITA旨在通过开放源代码促进多模态理解和交互的研究和发展。
➡️ 方法简介:VITA的开发主要分为三个阶段:1)双语指令调优,通过扩展词汇量和使用高质量的双语文本语料库来增强基础模型的中文和英文能力;2)多模态对齐,通过收集大量高质量的多模态数据来对齐文本特征空间与视频、图像和音频特征空间;3)多模态指令调优,通过引入状态标记来区分不同类型的输入查询,从而实现无需唤醒词的交互和音频中断交互。
➡️ 实验设计:VITA在多个公开数据集上进行了实验,包括纯文本、图像、视频和音频数据。实验设计了不同类型的输入查询(如有效查询音频、背景噪音和文本查询),以评估模型在不同条件下的表现。此外,VITA采用了双模型部署方案,其中一个模型负责生成用户查询的响应,另一个模型则持续监控环境输入,以实现高效的多模态交互。
Revisiting Multi-Modal LLM Evaluation
➡️ 论文标题:Revisiting Multi-Modal LLM Evaluation
➡️ 论文作者:Jian Lu, Shikhar Srivastava, Junyu Chen, Robik Shrestha, Manoj Acharya, Kushal Kafle, Christopher Kanan
➡️ 研究机构: University of Rochester、SRI International、Adobe
➡️ 问题背景:随着多模态大语言模型(MLLMs)的兴起,用于视觉问答(VQA)和指代表达理解的数据集重新受到关注。然而,目前用于评估MLLMs的最流行数据集多为早期创建,存在极端偏差、虚假相关性等问题,无法进行细粒度分析。本文旨在通过使用改进的数据集评估近期的MLLMs(如LLaVA 1.5、LLaVA-NeXT、BLIP2、InstructBLIP、GPT-4V和GPT-4o),揭示这些模型在视觉-语言任务中的弱点。
➡️ 研究动机:现有的数据集在评估MLLMs时存在诸多问题,如无法充分测试视觉接地能力、问题类型单一等。为了更全面地评估MLLMs的性能,研究团队创建了“瘦身”版本的数据集,并将其集成到广泛使用的LAVIS框架中,以快速评估未来MLLMs的性能。
➡️ 方法简介:研究团队创建了“瘦身”版本的TDIUC、TallyQA、DVQA和VQDv1数据集,这些数据集旨在解决早期数据集的弱点,如极端偏差、虚假相关性等。通过这些数据集,研究团队评估了MLLMs在视觉问答、视觉查询检测、计数能力和图表理解等任务上的表现。
➡️ 实验设计:实验在四个数据集上进行,包括TDIUC、TallyQA、DVQA和VQDv1。实验设计了不同任务类型(如视觉问答、视觉查询检测、计数和图表理解),以及不同难度级别的问题,以全面评估MLLMs在各种任务中的表现。研究团队还采用了分层抽样方法,确保样本的多样性和代表性,同时减少计算开销。
➡️ 实验结果:实验结果显示,所有评估的MLLMs在多个任务中表现出了不同的弱点。例如,在视觉查询检测任务(VQDv1)中,所有模型在检测多个对象时表现不佳;在计数任务(TallyQA)中,模型在复杂计数问题上的准确率显著下降;在图表理解任务(DVQA)中,模型在推理问题上的表现最差。这些结果揭示了MLLMs在处理复杂视觉任务时的局限性,为未来的模型改进提供了有价值的见解。
SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
➡️ 论文标题:SWIFT:A Scalable lightWeight Infrastructure for Fine-Tuning
➡️ 论文作者:Yuze Zhao, Jintao Huang, Jinghan Hu, Xingjun Wang, Yunlin Mao, Daoze Zhang, Zeyinzi Jiang, Zhikai Wu, Baole Ai, Ang Wang, Wenmeng Zhou, Yingda Chen
➡️ 研究机构: ModelScope Team, Alibaba Group
➡️ 问题背景:近年来,大型语言模型(LLMs)和多模态大型语言模型(MLLMs)利用基于注意力机制的Transformer架构,在性能和泛化能力上取得了显著进展,覆盖了传统学习任务的广泛领域。然而,这些模型的训练和轻量级微调,尤其是基于Transformer架构的模型,变得尤为重要。现有的解决方案虽然在一定程度上解决了大型模型的训练瓶颈,但仍然存在支持模型和技巧有限的问题。
➡️ 研究动机:为了应对大型模型训练和微调的挑战,研究团队开发了SWIFT,一个可定制的一站式大型模型训练基础设施。SWIFT不仅支持超过300个LLMs和50个MLLMs,还集成了预训练、微调、人类对齐等功能,旨在降低大型模型的使用门槛,特别是在多模态模型的训练方面。
➡️ 方法简介:SWIFT框架集成了PEFT和Optimum等库,支持预训练、微调、人类对齐以及量化训练(如QLoRA)。SWIFT支持多种轻量级调优技术,如LISA、GaLore、Q-GaLore等,并且支持模型的量化、LoRA合并、评估、推理和部署等后训练操作。此外,SWIFT还支持多种数据源,包括ModelScope、Hugging Face和用户自定义数据集。
➡️ 实验设计:SWIFT在多个数据集上进行了实验,包括纯文本和多模态数据集。实验评估了不同训练技术的效果,如轻量级调优技术、量化方法等。实验结果表明,SWIFT在多个基准测试中表现出色,特别是在多模态模型的训练和微调方面,显著提高了模型的性能和效率。
A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot
➡️ 论文标题:A Training-Free Framework for Video License Plate Tracking and Recognition with Only One-Shot
➡️ 论文作者:Haoxuan Ding, Qi Wang, Junyu Gao, Qiang Li
➡️ 研究机构: Northwestern Polytechnical University (NPU)
➡️ 问题背景:传统的车牌检测和识别模型通常在封闭的数据集上训练,这限制了它们处理不同地区多样化车牌格式的能力。大规模预训练模型的出现展示了卓越的泛化能力,使得少样本和零样本学习成为可能。然而,现有的方法在处理不同类型的车牌时仍面临挑战,需要针对特定类型的车牌进行专门的开发,增加了数据收集、标注和模型训练的成本。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种无需训练的框架OneShotLP,用于视频中的车牌检测和识别。该框架利用先进的预训练模型,仅需在视频的第一帧中标注车牌的大致位置,即可实现对整个视频序列中车牌的连续跟踪和识别。OneShotLP旨在减少对大量训练数据的依赖,提高对不同车牌样式的适应性,从而降低开发成本并提高应用效率。
➡️ 方法简介:OneShotLP框架包含三个核心模块:跟踪模块、分割模块和识别模块。跟踪模块使用点跟踪技术,从视频的第一帧开始跟踪标注点,生成轨迹提示。分割模块利用可提示的分割模型(如EfficientSAM),根据轨迹提示生成车牌区域的局部掩码。识别模块则使用多模态大语言模型(如QwenLM-7B),对分割出的图像区域进行分析,识别车牌号码。
➡️ 实验设计:研究团队在UFPR-ALPR和SSIG-SegPlate数据集上进行了实验,验证了OneShotLP在不同类型的车牌检测和识别任务中的性能。实验结果表明,OneShotLP在无需任何特定训练数据的情况下,能够实现对多种车牌样式的准确检测和识别,展示了其在智能交通系统中的应用潜力。
Social Debiasing for Fair Multi-modal LLMs
➡️ 论文标题:Social Debiasing for Fair Multi-modal LLMs
➡️ 论文作者:Harry Cheng, Yangyang Guo, Qingpei Guo, Ming Yang, Tian Gan, Liqiang Nie
➡️ 研究机构: 山东大学、新加坡国立大学、蚂蚁集团、哈尔滨工业大学(深圳)
➡️ 问题背景:多模态大语言模型(MLLMs)在视觉-语言理解领域取得了显著进展,但这些模型往往从训练数据集中继承了严重的社会偏见,导致在种族和性别等属性上的不公平预测。例如,一些模型在预测护士性别时,倾向于预测为女性,而非男性。
➡️ 研究动机:现有的研究在缓解MLLMs中的社会偏见问题方面仍处于初步阶段。大多数研究集中在收集属性平衡的视觉-语言反事实数据集上,但这些数据集通常只关注单一的社会概念,如职业,而忽略了多方面的社会刻板印象。此外,直接在平衡数据集上微调模型会导致次优性能,因为这种方法对不同社会偏见的实例赋予了相同的权重。因此,研究团队旨在通过构建一个包含多个社会概念的反事实数据集(CMSC)和提出一种反刻板印象去偏策略(ASD),来更有效地减少MLLMs中的社会偏见。
➡️ 方法简介:研究团队构建了一个包含18个社会概念的高质量反事实数据集CMSC,该数据集在规模和概念丰富度上超过了现有的数据集。此外,团队提出了一种反刻板印象去偏策略(ASD),该策略通过重新采样数据集和调整损失函数,使模型更加关注那些被忽视的社会属性实例,从而有效减少社会偏见。
➡️ 实验设计:研究团队在三个流行的MLLMs上进行了广泛的实验,评估了新收集的去偏数据集的有效性和ASD方法在去偏性能上的优越性。实验结果表明,与现有的去偏方法相比,ASD方法在减少社会偏见方面表现出了显著的优势,同时保持了模型在一般多模态基准上的性能。