多模态大语言模型arxiv论文略读(七十三)

发布于:2025-05-14 ⋅ 阅读:(12) ⋅ 点赞:(0)

在这里插入图片描述

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis

➡️ 论文标题:Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis
➡️ 论文作者:Chaoyou Fu, Yuhan Dai, Yongdong Luo, Lei Li, Shuhuai Ren, Renrui Zhang, Zihan Wang, Chenyu Zhou, Yunhang Shen, Mengdan Zhang, Peixian Chen, Yanwei Li, Shaohui Lin, Sirui Zhao, Ke Li, Tong Xu, Xiawu Zheng, Enhong Chen, Rongrong Ji, Xing Sun
➡️ 研究机构: USTC、XMU、HKU、PKU、CUHK、ECNU
➡️ 问题背景:多模态大语言模型(MLLMs)在处理静态图像理解方面取得了显著进展,但其在处理序列视觉数据(如视频)方面的能力仍需进一步探索。当前缺乏一个全面、高质量的评估基准来衡量MLLMs在视频分析中的表现。
➡️ 研究动机:现有的视频基准测试在视频类型多样性、时间动态覆盖范围和单一模态关注方面存在局限,这阻碍了对MLLMs的全面评估。因此,研究团队开发了Video-MME,这是首个全面的多模态评估基准,旨在评估MLLMs在视频分析中的表现。
➡️ 方法简介:研究团队构建了一个包含900个视频的多模态数据集,这些视频涵盖了6个主要视觉领域(知识、影视、体育竞赛、生活记录、多语言)和30个细分领域。每个视频都标注了3个高质量的多项选择题,共计2,700个问题。数据集还包括视频的字幕和音频,以评估多模态输入对模型性能的影响。
➡️ 实验设计:研究团队在Video-MME上评估了多种最先进的MLLMs,包括商业模型(如GPT-4系列和Gemini 1.5 Pro)和开源模型(如InternVL-Chat-V1.5和LLaVA-NeXT-Video)。实验设计了不同视频长度(短、中、长)和不同模态输入(视频帧、字幕、音频)的组合,以全面评估模型的性能。实验结果表明,Gemini 1.5 Pro在所有模型中表现最佳,平均准确率为75%,显著优于开源模型。此外,字幕和音频信息的加入显著提升了模型的视频理解能力,尤其是在处理较长视频时。

Artemis: Towards Referential Understanding in Complex Videos

➡️ 论文标题:Artemis: Towards Referential Understanding in Complex Videos
➡️ 论文作者:Jihao Qiu, Yuan Zhang, Xi Tang, Lingxi Xie, Tianren Ma, Pengyu Yan, David Doermann, Qixiang Ye, Yunjie Tian
➡️ 研究机构: University of Chinese Academy of Sciences、University at Buffalo
➡️ 问题背景:现有的多模态大语言模型(Multimodal Large Language Models, MLLMs)在图像理解方面取得了显著进展,但在视频理解方面,尤其是在视频中的目标指代理解(video-based referential understanding)方面,仍存在明显不足。这些模型通常只能理解视频中的单个时刻,而无法全面理解整个视频中的复杂动作和事件。
➡️ 研究动机:为了弥补现有MLLMs在视频理解上的不足,特别是针对复杂视频中的目标指代理解,研究团队提出了Artemis,这是一个能够对视频中的特定目标进行细粒度描述的MLLM。Artemis旨在通过跟踪和选择视频中的目标区域,提供更全面和准确的视频理解。
➡️ 方法简介:Artemis通过跟踪视频中的目标区域(Region of Interest, RoI)并选择具有代表性的RoI来提取目标特定的视频特征。这些特征被输入到一个经过视觉指令调优的多模态大语言模型中,以生成对视频中目标行为的描述。研究团队设计了一个三阶段的训练流程,逐步提高模型的视频-文本对齐能力,最终实现视频中的目标指代理解。
➡️ 实验设计:研究团队在HC-STVG等数据集上进行了实验,评估了Artemis在视频目标指代理解任务上的表现。实验不仅包括定量评估(如BERTScore、BLEU@4等),还包括定性分析,展示了Artemis在描述视频中目标行为时的准确性和全面性。实验结果表明,Artemis在多个评估指标上显著优于现有的MLLMs,尤其是在BLEU@4等指标上表现突出。

An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging

➡️ 论文标题:An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging
➡️ 论文作者:Sulaiman Khan, Md. Rafiul Biswas, Alina Murad, Hazrat Ali, Zubair Shah
➡️ 研究机构: Hamad Bin Khalifa University, Foundation University School of Sciences and Technology, Sohar University
➡️ 问题背景:近年来,多模态大型语言模型(MLLMs)的发展引起了在医疗成像领域应用这些模型的极大兴趣。一方面,这些生成模型可以用于合成逼真的医疗图像数据;另一方面,识别数据池中的合成图像数据同样重要。本研究探讨了Gemini和GPT-4V模型在医疗图像分析中的应用,特别是对肺部X光和视网膜眼底图像的分类和解释。
➡️ 研究动机:尽管MLLMs在自然图像解释和图像到文本或文本到图像的应用中得到了广泛探索,但它们在医疗图像解释中的现有能力尚未被充分研究。本研究旨在通过比较Gemini和GPT-4V在医疗图像分类和解释任务中的表现,为医疗图像分析领域的MLLMs应用提供早期见解。
➡️ 方法简介:研究团队使用了两种医疗图像模态:肺部X光图像和视网膜眼底图像,包括真实和合成样本。通过设计特定的输入提示(prompt),研究团队利用Gemini和GPT-4V对这些图像进行分类和解释。实验设计包括图像分类和解释两个任务,采用NERIF方法来优化提示的设计。
➡️ 实验设计:实验使用了两个公开数据集,包括肺部X光图像和视网膜眼底图像。实验设计了不同的任务,如图像分类和解释,并通过与训练有素的医生的主观评价进行对比,以评估模型的性能。实验结果表明,Gemini在图像分类任务中表现优于GPT-4V,尤其是在解释图像时,Gemini的输出更加具体和自信。
➡️ 结果与讨论:实验结果显示,Gemini在分类真实和合成图像方面表现更佳,尤其是在解释图像时,Gemini的输出更加具体和自信。相比之下,GPT-4V的响应较为通用,且在分类任务中的准确率较低。研究还指出了模型的局限性,包括模型偶尔拒绝处理输入图像,以及实验样本量较小等问题。尽管如此,研究结果为MLLMs在医疗图像分析中的应用提供了有价值的早期见解。

Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration

➡️ 论文标题:Mobile-Agent-v2: Mobile Device Operation Assistant with Effective Navigation via Multi-Agent Collaboration
➡️ 论文作者:Junyang Wang, Haiyang Xu, Haitao Jia, Xi Zhang, Ming Yan, Weizhou Shen, Ji Zhang, Fei Huang, Jitao Sang
➡️ 研究机构: Beijing Jiaotong University、Alibaba Group
➡️ 问题背景:当前的多模态大语言模型(MLLMs)在多种任务中展现了卓越的能力,但在移动设备操作任务中,由于训练数据的限制,这些模型作为操作助手的能力有限。现有的基于MLLMs的代理架构在处理任务进度导航和焦点内容导航时面临挑战,尤其是在单代理架构下,由于输入序列过长和文本-图像数据格式的交织,性能受限。
➡️ 研究动机:为了有效解决移动设备操作任务中的导航挑战,研究团队提出了Mobile-Agent-v2,这是一种多代理架构,旨在通过多代理协作提高移动设备操作助手的导航能力。研究团队设计了三个专门的代理角色:规划代理、决策代理和反思代理,以解决单代理架构中的导航难题。
➡️ 方法简介:Mobile-Agent-v2通过设计规划代理来生成任务进度,决策代理基于任务进度和当前屏幕状态生成操作,反思代理则观察操作前后的屏幕变化,评估操作是否符合预期。此外,研究团队还设计了视觉感知模块和记忆单元,以增强代理的屏幕识别能力和焦点内容导航能力。
➡️ 实验设计:研究团队在两个移动操作系统(Harmony OS和Android OS)上进行了动态评估,分别评估了非英语和英语场景下的能力。实验选择了5个系统应用和5个流行外部应用,每个应用设计了两个基本指令和两个高级指令。此外,还设计了涉及多个应用的基本和高级指令,以评估多应用操作能力。实验结果表明,Mobile-Agent-v2在任务完成率、完成率、决策准确率和反思准确率等方面均显著优于单代理架构的Mobile-Agent。

VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model

➡️ 论文标题:VIP: Versatile Image Outpainting Empowered by Multimodal Large Language Model
➡️ 论文作者:Jinze Yang, Haoran Wang, Zining Zhu, Chenglong Liu, Meng Wymond Wu, Mingming Sun
➡️ 研究机构: Baidu Research、University of Chinese Academy of Sciences、University of Michigan、Beijing Institute of Mathematical Sciences and Applications
➡️ 问题背景:图像外扩(Image Outpainting)任务旨在根据给定图像的中心内容推断并生成周围部分。尽管近年来的研究在图像外扩方面取得了显著进展,但这些方法通常假设给定的子图像是唯一的输入,这限制了它们在实际场景中的应用和可扩展性。此外,许多现有方法都是从头开始训练的,未能充分利用预训练的大规模生成模型(如Stable Diffusion和DALLE)的潜力。
➡️ 研究动机:为了克服现有方法的局限性,研究团队提出了一种新的图像外扩框架,该框架能够根据用户的需求定制生成结果。通过引入文本提示作为语义引导,该方法不仅能够生成多样化的定制结果,还能显著提高生成图像的质量。
➡️ 方法简介:研究团队提出了一种基于扩散模型的图像外扩框架(VIP),该框架利用多模态大语言模型(MLLM)自动生成带有空间信息的文本提示。具体来说,MLLM会生成描述图像中心和周围区域的文本提示,这些提示被用于指导模型生成定制的外扩结果。此外,研究团队设计了一种中心-整体-周围(C-T-S)解耦控制机制,以增强图像和文本提示之间的细粒度交互,从而提高模型的定制能力和泛化能力。
➡️ 实验设计:研究团队在三个常用数据集(Scenery、Building Facades和WikiArt)上进行了实验,验证了所提出方法的有效性。实验设计了不同的掩码类型(如随机掩码和外扩掩码),并使用Frechet Inception Distance (FID) 和 Inception Score (IS) 作为定量评估指标。实验结果表明,所提出的方法不仅在定量指标上显著优于现有方法,还能生成多样化的定制结果。


网站公告

今日签到

点亮在社区的每一天
去签到