多模态大语言模型arxiv论文略读(114)

发布于:2025-06-11 ⋅ 阅读:(35) ⋅ 点赞:(0)

在这里插入图片描述

Law of Vision Representation in MLLMs

➡️ 论文标题:Law of Vision Representation in MLLMs
➡️ 论文作者:Shijia Yang, Bohan Zhai, Quanzeng You, Jianbo Yuan, Hongxia Yang, Chenfeng Xu
➡️ 研究机构: Stanford University、UC Berkeley
➡️ 问题背景:当前的多模态大语言模型(MLLMs)通过整合预训练的视觉编码器和强大的语言模型,取得了显著的进展。视觉表示作为MLLMs的核心组件,其选择和优化对于模型性能至关重要。然而,目前视觉表示的选择主要依赖于经验测试,缺乏对影响性能的关键因素的深入理解。
➡️ 研究动机:为了填补这一理解上的空白,研究团队提出了“视觉表示定律”(Law of Vision Representation),旨在解释视觉表示中的关键因素如何影响MLLMs的性能。研究发现,视觉表示的跨模态对齐(Cross-Modal Alignment, A)和对应性(Correspondence, C)与模型性能之间存在强相关性。通过量化这一关系,研究团队提出了一种新的方法,能够在不重新微调语言模型的情况下,高效地选择最优的视觉表示。
➡️ 方法简介:研究团队定义了一个AC分数,用于衡量视觉表示的跨模态对齐和对应性。通过在13种不同的视觉表示设置和8个基准测试上的广泛实验,研究团队发现AC分数与模型性能之间存在线性关系,相关系数达到95.72%。基于这一发现,研究团队提出了一种AC策略(AC Policy),能够在有限的搜索空间内高效地预测最优的视觉表示。
➡️ 实验设计:实验在四个视觉基准测试(MMBench、MME、OKVQA、SEED-Bench)和四个QCR基准测试(MMMU、TextVQA、VizWiz、ScienceQA)上进行。实验设计了不同的视觉表示设置,包括单个视觉编码器和多个视觉编码器的特征组合。通过AC策略,研究团队能够在平均3.88次完整的训练中达到89.69%的Recall@3,显著减少了探索最优视觉表示所需的计算成本。

AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding

➡️ 论文标题:AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding
➡️ 论文作者:Yonghui Wang, Wengang Zhou, Hao Feng, Houqiang Li
➡️ 研究机构: 中国科学技术大学、中国科学院地理空间信息技术处理与应用系统重点实验室、合肥综合性国家科学中心人工智能研究所
➡️ 问题背景:近年来,多模态大语言模型(MLLMs)的发展引起了广泛的研究兴趣,但这些模型在处理文本密集型图像时存在局限性。当前的方法通常依赖于静态分辨率,这可能导致视觉信息的浪费或失真,尤其是在处理不同类型的图像时。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种动态调整输入图像分辨率的方法,以适应不同大小和长宽比的图像。这种方法旨在通过使用适当数量的视觉令牌来确保模型性能的一致性,并减少静态CLIP编码图像的失真。
➡️ 方法简介:研究团队提出了AdaptVision,一种多模态大语言模型,能够动态处理不同分辨率的输入图像。该方法通过一个动态图像分割模块来调整输入图像的分辨率,确保模型在处理自然场景和文本密集型图像时都能保持高效。此外,研究团队还扩展了文本对齐指令跟随数据集,以增强模型在文本相关任务上的表现。
➡️ 实验设计:研究团队在多个数据集上进行了广泛的实验,包括图像描述、通用视觉问答、场景文本中心视觉问答、关键信息提取和文档相关视觉问答等任务。实验结果表明,AdaptVision在处理不同类型的图像时表现出色,特别是在文本密集型场景中。

StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models

➡️ 论文标题:StimuVAR: Spatiotemporal Stimuli-aware Video Affective Reasoning with Multimodal Large Language Models
➡️ 论文作者:Yuxiang Guo, Faizan Siddiqui, Yang Zhao, Rama Chellappa, Shao-Yuan Lo
➡️ 研究机构: Johns Hopkins University, Honda Research Institute USA
➡️ 问题背景:预测和理解视频如何影响人类的情感对于开发社会智能系统至关重要。尽管多模态大语言模型(MLLMs)在视频理解方面表现出色,但它们往往更关注视频的语义内容,而忽视了情感刺激。因此,现有的MLLMs在估计观众的情感反应和提供合理的解释方面存在不足。
➡️ 研究动机:为了克服现有模型的局限性,研究团队提出了StimuVAR,这是一种时空刺激感知框架,用于视频情感推理(VAR)。StimuVAR通过引入事件驱动的帧采样和情感触发的管选择策略,增强了MLLMs的情感推理能力,并通过情感训练进一步提高了模型的解释能力。
➡️ 方法简介:StimuVAR结合了两层刺激感知机制:帧级感知和令牌级感知。帧级感知通过事件驱动的帧采样策略,捕捉最可能引发观众情感的视频帧。令牌级感知通过情感触发的管选择策略,定位情感触发的时空区域,使MLLMs能够集中关注这些区域。此外,研究团队还创建了VAR指令数据,通过情感训练引导MLLMs的情感推理能力。
➡️ 实验设计:研究团队在两个以观众为中心的视频情感分析(VEA)数据集上进行了实验,包括Video Cognitive Empathy (VCE)和VideoEmotion-8 (VE-8)。实验评估了模型在预测准确性和推理质量方面的表现,使用了多种评估指标,包括Top-3准确率、Top-1准确率、情感一致性(Emo-align)、双重正确率(Doubly-right)和CLIPScore。实验结果表明,StimuVAR在预测观众情感反应和提供合理解释方面表现出色。

Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model

➡️ 论文标题:Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model
➡️ 论文作者:Fuqiang Niu, Zebang Cheng, Xianghua Fu, Xiaojiang Peng, Genan Dai, Yin Chen, Hu Huang, Bowen Zhang
➡️ 研究机构: 深圳技术大学、北京大学
➡️ 问题背景:随着社交媒体的普及,用户频繁表达对特定实体或话题的看法,这些数据对于网络挖掘和内容分析具有重要价值。然而,现有的多模态立场检测(MSD)研究主要集中在单一文本-图像对的建模上,忽略了社交媒体中自然发生的多党对话背景,这限制了MSD在对话环境中的应用。
➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。
➡️ 方法简介:研究团队通过收集和标注来自Reddit的多模态对话数据,构建了MmMtCSD数据集。该数据集包含21,340个标注实例,涵盖了文本和图像内容。MLLM-SD框架包括文本编码器、视觉编码器和多模态融合模块,通过这些模块,模型能够整合文本和视觉信息,进行多模态立场检测。
➡️ 实验设计:研究团队在MmMtCSD数据集上进行了实验,验证了MLLM-SD框架的有效性。实验结果表明,该框架在多模态立场检测任务上达到了最先进的性能。此外,研究团队还通过引入不同的模块,验证了框架的适应性和鲁棒性。

Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model

➡️ 论文标题:Multimodal Multi-turn Conversation Stance Detection: A Challenge Dataset and Effective Model
➡️ 论文作者:Fuqiang Niu, Zebang Cheng, Xianghua Fu, Xiaojiang Peng, Genan Dai, Yin Chen, Hu Huang, Bowen Zhang
➡️ 研究机构: 深圳技术大学、北京大学
➡️ 问题背景:随着社交媒体的普及,用户频繁表达对特定实体或话题的看法,这些数据对于网络挖掘和内容分析具有重要价值。然而,现有的多模态立场检测(MSD)研究主要集中在单一文本-图像对的建模上,忽略了社交媒体中自然发生的多党对话背景,这限制了MSD在对话环境中的应用。
➡️ 研究动机:为了克服现有MSD研究的局限性,研究团队构建了一个新的多模态多轮对话立场检测数据集(MmMtCSD),并提出了一个基于多模态大语言模型的立场检测框架(MLLM-SD),旨在更准确地识别用户在多模态对话中的立场。
➡️ 方法简介:研究团队通过收集和标注来自Reddit的多模态对话数据,构建了MmMtCSD数据集。该数据集包含21,340个标注实例,涵盖了文本和图像内容。MLLM-SD框架包括文本编码器、视觉编码器和多模态融合模块,通过这些模块,模型能够整合文本和视觉信息,进行多模态立场检测。
➡️ 实验设计:研究团队在MmMtCSD数据集上进行了实验,验证了MLLM-SD框架的有效性。实验结果表明,该框架在多模态立场检测任务上达到了最先进的性能。此外,研究团队还通过引入不同的模块,验证了框架的适应性和鲁棒性。


网站公告

今日签到

点亮在社区的每一天
去签到