多模态大语言模型arxiv论文略读(六十六)

发布于:2025-05-10 ⋅ 阅读:(19) ⋅ 点赞:(0)

请添加图片描述

SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge

➡️ 论文标题:SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge
➡️ 论文作者:Andong Wang, Bo Wu, Sunli Chen, Zhenfang Chen, Haotian Guan, Wei-Ning Lee, Li Erran Li, Chuang Gan
➡️ 研究机构: The University of Hong Kong, MIT-IBM Watson AI Lab, Tsinghua University, AWS AI, UMass Amherst
➡️ 问题背景:当前的视频理解模型在处理现实世界中的常识推理任务时,主要依赖于给定的视觉和语言输入,而较少涉及更广泛的真实世界知识。现有的视频推理基准大多关注事实推理或情境推理,很少涉及开放世界的知识。这限制了模型在复杂现实环境中的推理能力。
➡️ 研究动机:为了更深入地研究动态、开放世界和结构化情境中的常识推理,研究团队构建了一个新的基准(SOK-Bench),旨在评估模型在视频中利用情境知识和一般知识进行推理的能力。该基准包含44K个问题和10K个动态情境,涵盖了12种不同类型的问题,旨在推动模型在真实世界知识上的理解和应用。
➡️ 方法简介:研究团队提出了一种自动且可扩展的方法,通过与大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的多轮对话,自动生成视频问答对和推理过程。该方法包括四个阶段:1) 从视频中提取可观察内容;2) 编译相关常识知识;3) 将情境内容与常识知识对齐,揭示潜在的逻辑联系;4) 整合信息生成问题和答案。此外,研究团队还构建了情境知识图、一般知识图和情境常识知识图,以支持推理过程。
➡️ 实验设计:研究团队在SOK-Bench上评估了主流的LLMs和VideoLLMs,实验设计了多种问题类型(如反事实、贡献、目的等),并分析了模型在不同设置下的表现。实验结果表明,现有的LLMs和VideoLLMs在处理情境开放知识推理任务时仍有显著的改进空间。

Adversarial Robustness for Visual Grounding of Multimodal Large Language Models

➡️ 论文标题:Adversarial Robustness for Visual Grounding of Multimodal Large Language Models
➡️ 论文作者:Kuofeng Gao, Yang Bai, Jiawang Bai, Yong Yang, Shu-Tao Xia
➡️ 研究机构: Tsinghua University、Tencent Security Platform、Peng Cheng Laboratory
➡️ 问题背景:多模态大型语言模型(MLLMs)在各种视觉-语言任务中,包括视觉定位能力方面,已经取得了显著的性能提升。然而,这些模型在面对对抗性攻击时的鲁棒性尚未得到充分探索,特别是在视觉定位任务中。研究发现,通过在输入图像中添加微小且难以察觉的扰动,可以误导MLLMs生成错误的边界框,从而影响其视觉定位能力。
➡️ 研究动机:为了填补这一研究空白,研究团队以指代表达理解(REC)为例,提出了三种对抗性攻击范式,旨在评估MLLMs在视觉定位任务中的对抗性鲁棒性。这些攻击范式包括无目标对抗性攻击、独占目标对抗性攻击和置换目标对抗性攻击,分别用于评估模型在不同攻击条件下的表现。
➡️ 方法简介:研究团队提出了三种对抗性攻击方法,包括无目标对抗性攻击、独占目标对抗性攻击和置换目标对抗性攻击。这些方法通过在图像中添加微小的扰动,来评估MLLMs在视觉定位任务中的鲁棒性。具体来说,无目标对抗性攻击旨在降低边界框预测的准确性;独占目标对抗性攻击使模型将所有对象定位到同一个目标边界框;置换目标对抗性攻击则重新排列图像中所有对象的边界框。
➡️ 实验设计:研究在三个公开数据集上进行了实验,包括RefCOCO、RefCOCO+和RefCOCOg。实验设计了不同的攻击方法和条件,如图像嵌入攻击和文本边界框攻击,以及不同的目标类型(如独占目标和置换目标),以全面评估模型在对抗性攻击下的表现。实验结果表明,所提出的攻击方法能够有效降低MLLMs在视觉定位任务中的性能。

Libra: Building Decoupled Vision System on Large Language Models

➡️ 论文标题:Libra: Building Decoupled Vision System on Large Language Models
➡️ 论文作者:Yifan Xu, Xiaoshan Yang, Yaguang Song, Changsheng Xu
➡️ 研究机构: 中国科学院自动化研究所、鹏城实验室、中国科学院大学人工智能学院
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了卓越的能力,包括多模态对话、交互代理等。然而,这些模型在视觉和语言信息的处理上存在信息不平衡的问题,导致视觉系统的性能受限。
➡️ 研究动机:为了克服现有MLLMs在视觉和语言信息处理上的不平衡问题,研究团队提出了一种新的模型Libra,该模型通过在大型语言模型(LLM)上构建解耦的视觉系统,旨在提高视觉-语言理解能力,同时减少训练数据的需求。
➡️ 方法简介:Libra模型的核心在于解耦的视觉系统设计,包括路由视觉专家模块和跨模态桥接模块。路由视觉专家模块通过在LLM的每一层添加视觉特定的参数,实现视觉信息的独立建模;跨模态桥接模块则通过在计算跨模态注意力时添加额外的可学习投影,实现视觉和语言信息的有效交互。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括视觉问答(VQA)和图像描述(Image Captioning)任务。实验结果表明,Libra模型在仅使用5000万训练数据的情况下,能够在多个多模态基准测试中与现有的大型模型相媲美,展示了其在视觉-语言理解方面的强大能力。

Efficient Multimodal Large Language Models: A Survey

➡️ 论文标题:Efficient Multimodal Large Language Models: A Survey
➡️ 论文作者:Yizhang Jin, Jian Li, Yexin Liu, Tianjun Gu, Kai Wu, Zhengkai Jiang, Muyang He, Bo Zhao, Xin Tan, Zhenye Gan, Yabiao Wang, Chengjie Wang, Lizhuang Ma
➡️ 研究机构: Youtu Lab, Tencent, SJTU, BAAI, ECNU
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在视觉问答、视觉理解和推理等任务中展现了卓越的性能。然而,这些模型的庞大模型规模和高昂的训练与推理成本限制了其在学术界和工业界的广泛应用。因此,研究高效且轻量级的MLLMs具有巨大的潜力,尤其是在边缘计算场景中。
➡️ 研究动机:尽管大规模预训练在人工智能领域取得了显著成功,但其高资源需求阻碍了大型模型的发展和部署。例如,MiniGPT-v2的训练需要超过800个GPU小时。此外,推理过程在资源消耗中占主要部分,这进一步加剧了资源密集型任务的挑战。因此,研究高效MLLMs旨在减少资源消耗,拓宽应用范围,同时尽量减少性能下降。
➡️ 方法简介:研究团队提出了一种系统的方法,通过构建高效MLLMs的架构、视觉编码器、视觉-语言投影器、小型语言模型、视觉令牌压缩和高效结构等模块,来评估和优化MLLMs的性能。此外,研究还探讨了训练方法、数据集和基准测试,以及实际应用。
➡️ 实验设计:研究在多个公开数据集上进行了实验,包括视觉问答(VQA)、文本VQA(TextVQA)、GQA等任务。实验设计了不同因素(如模型架构、视觉编码器、语言模型等)的变化,以及不同类型的任务(如生物医学分析、文档理解、视频理解等),以全面评估模型的性能和资源效率。

Automated Multi-level Preference for MLLMs

➡️ 论文标题:Automated Multi-level Preference for MLLMs
➡️ 论文作者:Mengxi Zhang, Wenhao Wu, Yu Lu, Yuxin Song, Kang Rong, Huanjin Yao, Jianbo Zhao, Fanglong Liu, Yifan Sun, Haocheng Feng, Jingdong Wang
➡️ 研究机构: Baidu Inc.、Tianjin University、The University of Sydney、University of Technology Sydney、Tsinghua University、Chinese Academy of Science
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在视觉-语言理解任务中取得了显著进展,如视觉问答、图像描述和人机对话。然而,这些模型仍然存在“幻觉”问题,即生成的响应与输入图像不一致,这影响了模型的性能并引起了研究者的广泛关注。
➡️ 研究动机:为了缓解MLLMs中的幻觉问题,现有的方法主要采用基于人类反馈的强化学习(RLHF)方法,通过收集人类/AI的偏好并将其整合到MLLMs的优化过程中。然而,现有的RLHF方法主要依赖于二元偏好(即优劣对比),这可能不足以充分优化MLLMs。研究团队提出,采用多级偏好框架可以更有效地减少幻觉,主要因为:1) 缩小相邻级别的差距有助于模型识别细微的幻觉差异;2) 跨级别比较可以提供更多样化的比较,帮助模型更好地学习。
➡️ 方法简介:研究团队提出了自动多级偏好(AMP)框架,包括两个创新点:1) 无需人工或AI标注的多级偏好数据集生成方法,包括多尺寸专家生成(MEG)和增量生成(IG)策略,以及自动检查机制;2) 多级直接偏好优化(MDPO)算法,该算法扩展了传统的直接偏好优化(DPO)算法,以适应多级偏好学习,并引入了特定的惩罚项以确保学习的鲁棒性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括幻觉评估基准POPE、细粒度幻觉基准MMHal-Bench、通用基准LLaVA-Bench,以及新开发的多轮对话幻觉基准MRHal-Bench。实验评估了不同方法在减少幻觉和提高响应质量方面的效果。结果表明,AMP框架在多个基准测试中均表现出色,特别是在减少幻觉方面。


网站公告

今日签到

点亮在社区的每一天
去签到