多模态大语言模型arxiv论文略读(七十六)

发布于:2025-05-17 ⋅ 阅读:(18) ⋅ 点赞:(0)

在这里插入图片描述

Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction

➡️ 论文标题:Recognizing Everything from All Modalities at Once: Grounded Multimodal Universal Information Extraction
➡️ 论文作者:Meishan Zhang, Hao Fei, Bin Wang, Shengqiong Wu, Yixin Cao, Fei Li, Min Zhang
➡️ 研究机构: Harbin Institute of Technology (Shenzhen)、National University of Singapore、School of Computer Science, Fudan University、Wuhan University
➡️ 问题背景:信息抽取(Information Extraction, IE)任务通常在不同的模态及其组合中被孤立地研究,这导致了跨模态信息的深度识别和分析存在空白。为了填补这一空白,本文首次引入了基于多模态的通用信息抽取(Multimodal Universal Information Extraction, MUIE)的概念,提供了一个统一的任务框架,用于分析各种模态上的IE任务,以及它们的细粒度定位。
➡️ 研究动机:当前的研究主要集中在单一模态(或某些模态组合)的MIE任务上,这导致了资源浪费和效率低下。此外,大多数现有的MIE研究偏向于文本中心的IE输出,忽视了其他模态的重要性。本文旨在通过提出一个统一的MUIE框架,解决这些问题,实现跨模态信息的全面识别和细粒度定位。
➡️ 方法简介:研究团队开发了一个新的多模态大语言模型(Multimodal Large Language Model, MLLM)——REAMO,该模型能够“一次性从所有模态中识别一切”。REAMO不仅输出所有可能的文本IE标签,还能识别其他模态中的对应定位,包括静态的视觉对象和音频片段,以及动态的视频事件跟踪。技术上,REAMO使用Vicuna作为核心语义推理器,利用ImageBind作为多模态编码器,将图像、视频和音频输入转换为LLM可理解的信号。在解码端,集成SEEM用于视觉定位和跟踪,SHAS用于音频分割,通过结构化的元响应有效地传递信息。
➡️ 实验设计:研究团队设计了多个学习目标来微调REAMO,以增强其MUIE和跨模态定位能力。首先,将现有的文本UIE注释转换为指令格式,用于微调基础LLM以激活UIE能力。然后,进行粗粒度实例级和细粒度定位感知的跨模态对齐学习,增强REAMO在细粒度多模态语义理解方面的能力。此外,还对特定语料库进行指令微调,以构建生成结构化元响应文本的工作行为。为了评估REAMO的性能,研究团队构建了一个包含3,000个实例的高质量测试集,涵盖了9种常见模态组合下的NER、RE和EE任务,进一步标注了模态共享和特定内容,以模拟对齐和不对齐的模态场景。

Understanding Information Storage and Transfer in Multi-modal Large Language Models

➡️ 论文标题:Understanding Information Storage and Transfer in Multi-modal Large Language Models
➡️ 论文作者:Samyadeep Basu, Martin Grayson, Cecily Morrison, Besmira Nushi, Soheil Feizi, Daniela Massiceti
➡️ 研究机构: University of Maryland, Microsoft Research
➡️ 问题背景:多模态大语言模型(Multi-modal Large Language Models, MLLMs)在视觉问答(VQA)等任务中展现出强大的能力,但对其信息存储和传输机制的理解仍相对有限。与纯文本的大语言模型(LLMs)相比,MLLMs在处理多模态输入时的信息存储和传输机制存在显著差异,这些差异影响了模型的性能和可靠性。
➡️ 研究动机:尽管已有研究探讨了LLMs的信息存储和传输机制,但这些研究尚未扩展到MLLMs。鉴于MLLMs在现实世界中的广泛应用,本研究旨在通过事实性视觉问答任务,深入理解MLLMs的信息存储和传输机制,为模型的性能优化和安全性提供理论支持。
➡️ 方法简介:研究团队提出了一种新的多模态因果追踪方法(MULTIMODALCAUSALTRACE),该方法扩展了纯语言模型中的因果追踪技术,用于研究MLLMs的信息存储机制。同时,研究团队还利用注意力贡献方法(Attention Contributions)研究信息传输机制。此外,研究团队构建了一个新的数据集VQA-Constraints,包含9.7K个标注了约束条件的事实性视觉问题,用于支持相关研究。

➡️ 实验设计:研究团队在三个公开数据集(OK-VQA、Movies、Multimodal Known)上进行了实验,通过改变视觉和文本约束条件,评估MLLMs在不同条件下的信息存储和传输性能。实验结果表明,MLLMs主要从早期的MLP和自注意力层中检索信息,而这些信息的传输主要通过视觉编码器输出的特定视觉标记完成。研究团队还提出了一种模型编辑算法MULTEDIT,通过修改早期因果MLP层,可以纠正模型错误并插入新的长尾信息。

Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment

➡️ 论文标题:Everything to the Synthetic: Diffusion-driven Test-time Adaptation via Synthetic-Domain Alignment
➡️ 论文作者:Jiayi Guo, Junhao Zhao, Chaoqun Du, Yulin Wang, Chunjiang Ge, Zanlin Ni, Shiji Song, Humphrey Shi, Gao Huang
➡️ 研究机构: Tsinghua University、SHI Labs @ Georgia Tech
➡️ 问题背景:测试时适应(Test-Time Adaptation, TTA)旨在提高预训练模型在未见过的目标域上的性能。传统TTA方法通过连续更新模型权重来适应目标数据流,但这种方法对数据量和顺序非常敏感。最近,基于扩散模型的TTA方法通过将目标数据投影到合成域来减少这种敏感性,但这些方法仍然存在源域和合成域之间的对齐问题。
➡️ 研究动机:尽管基于扩散模型的TTA方法在减少模型对目标数据流的敏感性方面取得了进展,但这些方法生成的合成数据与源域数据之间存在显著的对齐问题。为了解决这一问题,研究团队提出了一种新的框架——合成域对齐(Synthetic-Domain Alignment, SDA),旨在通过将源模型和目标数据同时对齐到同一个合成域来提高性能。
➡️ 方法简介:研究团队提出了一种新的TTA框架——合成域对齐(SDA)。该框架通过以下步骤实现:首先,使用条件扩散模型生成带有标签的合成数据;然后,使用无条件扩散模型对这些合成数据进行加噪和去噪,以解决条件和无条件模型之间的潜在域对齐问题;最后,通过在生成的合成数据上微调源模型,使其适应合成域。这一过程将跨域TTA任务转化为更简单的域内预测任务。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括ImageNet分类任务、语义分割任务和多模态大语言模型(如LLaVA)。实验设计了不同模型架构(如ResNet-50、Swin-T、ConvNeXt-T等)和不同任务(如分类、分割等),以全面评估SDA框架在不同条件下的性能。实验结果表明,SDA在多个任务上均显著优于现有的基于扩散模型的TTA方法。

GenAI Arena: An Open Evaluation Platform for Generative Models

➡️ 论文标题:GenAI Arena: An Open Evaluation Platform for Generative Models
➡️ 论文作者:Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
➡️ 研究机构: University of Waterloo
➡️ 问题背景:生成式AI在图像和视频生成领域取得了显著进展,但现有的自动评估指标(如FID、CLIP、FVD等)往往无法全面捕捉生成内容的细微质量和用户满意度。这导致了对生成模型性能评估的不全面和不准确。
➡️ 研究动机:为了填补这一空白,研究团队提出了一个开放平台GenAI-Arena,旨在通过用户参与来评估不同的图像和视频生成模型。通过收集用户的反馈和投票,GenAI-Arena旨在提供一个更民主、更准确的模型性能评估方法。
➡️ 方法简介:GenAI-Arena平台支持三个主要任务:文本到图像生成、文本引导的图像编辑和文本到视频生成。平台包括匿名和非匿名的战斗场、直接生成选项卡和排行榜。这些功能设计旨在满足普通用户和研究人员的需求,确保模型性能的民主和准确评估。
➡️ 实验设计:自2024年2月11日以来,GenAI-Arena已收集了超过9000票,涵盖了三个多模态生成任务。平台构建了每个任务的排行榜,并通过这些投票识别出当前最先进的模型。此外,研究团队还进行了详细的分析,包括绘制获胜比例热图和案例研究,以展示用户投票的可靠性。研究结果表明,现有的多模态大语言模型(MLLMs)在评估生成视觉内容方面仍存在不足,即使是最优秀的模型GPT-4o,其平均准确率也仅为49.19%。
➡️ 主要贡献:

  • GenAI-Arena:首个基于用户偏好的多模态生成AI开放评估平台。
  • 用户投票分析:展示了GenAI-Arena的可靠性和用户投票的多样性。
  • GenAI-Bench:公开的基准数据集,用于评估MLLMs在生成任务中的评估能力。

What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models

➡️ 论文标题:What do MLLMs hear? Examining reasoning with text and sound components in Multimodal Large Language Models
➡️ 论文作者:Enis Berk Çoban, Michael I. Mandel, Johanna Devaney
➡️ 研究机构: The Graduate Center, CUNY、Brooklyn College, CUNY
➡️ 问题背景:大型语言模型(LLMs)在连接概念和遵循逻辑规则解决问题方面展现了显著的能力。这些模型已经发展到能够处理多种数据模态,包括声音和图像,即多模态大型语言模型(MLLMs),能够描述图像或声音记录。然而,当MLLMs中的LLM部分被冻结时,音频或视觉编码器仅用于为声音或图像输入生成描述,这限制了LLM部分基于文本的推理能力。研究团队对音频MLLMs在生成音频描述时无法充分利用其LLM的文本推理能力进行了探讨。
➡️ 研究动机:研究团队希望通过实验展示音频MLLMs在生成音频描述时,如何无法充分利用其LLM的文本推理能力。此外,研究还探讨了这种现象是否由于MLLMs分别表示听觉和文本信息,从而切断了从LLM到音频编码器的推理路径。
➡️ 方法简介:研究团队设计了一个描述/分类实验,使用预训练的LTU模型作为基础模型。实验中,模型生成的文本描述与预期标签之间的相似度被用作分类的置信度指标。通过计算标签嵌入和模型输出之间的余弦相似度,来评估模型的分类性能。
➡️ 实验设计:实验在EDANSA生物声学音频数据集上进行,该数据集包含10,782个10秒的样本,总计27小时的音频。研究选择了12个主要事件的标签,每个标签至少有400个样本。实验包括了原始LTU模型的基线性能测试、部分微调(仅微调音频投影层)和完全微调(微调音频编码器和应用LoRA训练LLM)。此外,还测试了不同提示策略对模型性能的影响,包括在提示中提供潜在标签和特定音频描述(如雷鸟叫声)。


网站公告

今日签到

点亮在社区的每一天
去签到