多模态大语言模型arxiv论文略读(九十三)

发布于:2025-05-29 ⋅ 阅读:(21) ⋅ 点赞:(0)

在这里插入图片描述

GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing

➡️ 论文标题:GenArtist: Multimodal LLM as an Agent for Unified Image Generation and Editing
➡️ 论文作者:Zhenyu Wang, Aoxue Li, Zhenguo Li, Xihui Liu
➡️ 研究机构: Tsinghua University、Noah’s Ark Lab, Huawei、The University of Hong Kong
➡️ 问题背景:尽管现有的图像生成和编辑方法在图像生成和编辑任务中取得了显著进展,但这些模型在处理复杂问题时仍面临挑战,如复杂的文本提示、缺乏验证和自我修正机制,以及单一模型难以满足所有用户需求。此外,模型在处理复杂文本提示和多步骤编辑指令时表现不佳,且生成的图像有时无法准确反映用户提示的内容,缺乏自主评估和自我修正的能力,导致生成的图像不可靠。
➡️ 研究动机:为了解决上述挑战,研究团队提出了一种统一的图像生成和编辑系统——GenArtist。该系统利用多模态大语言模型(MLLM)作为代理,协调和管理整个生成和编辑过程。通过分解复杂任务、构建规划树并进行逐步验证,GenArtist能够提高用户指令对图像的可控性,并确保生成图像的准确性。
➡️ 方法简介:GenArtist的核心机制包括:1) 复杂文本提示的分解,将复杂问题分解为简单的子问题;2) 构建规划树,通过树结构规划生成、编辑和自我修正任务,并进行逐步验证;3) 位置感知工具执行,通过检测模型自动完成缺失的位置相关输入,确保工具的有效执行。研究团队还构建了一个包含多种生成和编辑工具的工具库,以支持系统的多功能性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括T2I-CompBench和MagicBrush等基准测试。实验设计了多种任务,如文本到图像生成、图像编辑和多轮交互式图像生成,以全面评估GenArtist在不同任务中的性能。实验结果表明,GenArtist在多个任务中均表现出色,超越了现有的模型,如SDXL和DALL-E 3。

Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports

➡️ 论文标题:Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports
➡️ 论文作者:Yutong Zhang, Yi Pan, Tianyang Zhong, Peixin Dong, Kangni Xie, Yuxiao Liu, Hanqi Jiang, Zhengliang Liu, Shijie Zhao, Tuo Zhang, Xi Jiang, Dinggang Shen, Tianming Liu, Xin Zhang
➡️ 研究机构: 西北工业大学医学研究所、美国佐治亚大学计算学院、电子科技大学生命科学与技术学院、西北工业大学自动化学院、西北工业大学电子与信息学院、上海科技大学生物医学工程学院、临港实验室、上海联影智能医疗科技有限公司、上海临床研究与试验中心
➡️ 问题背景:医学影像和放射学报告对于医生诊断疾病至关重要,强调了临床决策中定量分析的必要性。然而,这些数据的多样性和跨源异质性给当前数据挖掘方法的通用性带来了重大挑战。近年来,多模态大语言模型(MLLMs)在多个领域中取得了革命性的进展,显著影响了医疗领域。Gemini-Vision系列(Gemini)和GPT-4系列(GPT-4)模型在计算机视觉领域展示了范式转变,展现了其在生物医学领域的潜力。
➡️ 研究动机:尽管MLLMs在零样本/少样本推理中表现出色,但在处理视觉信息时面临挑战,因为它们只能理解离散的文本。本研究旨在评估Gemini、GPT-4以及4个流行的大型模型在14个医学影像数据集和3个放射学报告数据集上的表现,涵盖疾病分类、病变分割、解剖定位、疾病诊断、报告生成和病变检测等任务。研究旨在揭示这些模型的优势和局限性,并为未来的优化提供见解。
➡️ 方法简介:研究团队设计了一系列严格的测试,评估模型在解释和利用视觉信息进行生物医学分析时的准确性、效率和适应性。通过比较GPT-4和Gemini在医学影像分类、异常检测和数据合成等任务中的表现,研究突出了每个模型的优势和局限性,并提供了优化这些MLLMs以适应专业生物医学应用的见解。
➡️ 实验设计:实验在14个医学影像数据集和3个放射学报告数据集上进行,涵盖了5个医学影像类别(皮肤科、放射科、牙科、眼科和内窥镜)和3个放射学报告数据集。实验设计了多种任务,包括疾病分类、病变分割、解剖定位、疾病诊断、报告生成和病变检测,以全面评估模型在不同任务中的表现。实验结果表明,Gemini系列模型在报告生成和病变检测方面表现出色,但在疾病分类和解剖定位方面面临挑战。相反,GPT系列模型在病变分割和解剖定位方面表现出色,但在疾病诊断和病变检测方面遇到困难。此外,Gemini系列和GPT系列中的一些模型在生成效率方面表现出色。尽管这些模型在减轻医生工作负担、缓解有限医疗资源的压力以及促进临床实践者与人工智能技术之间的合作方面具有潜力,但在临床部署前仍需进行重大改进和全面验证。

Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition

➡️ 论文标题:Cross-domain Few-shot In-context Learning for Enhancing Traffic Sign Recognition
➡️ 论文作者:Yaozong Gan, Guang Li, Ren Togo, Keisuke Maeda, Takahiro Ogawa, Miki Haseyama
➡️ 研究机构: Hokkaido University (Graduate School of Information Science and Technology, Education and Research Center for Mathematical and Data Science, Faculty of Information Science and Technology, Data-Driven Interdisciplinary Research Emergence Department)
➡️ 问题背景:交通标志识别(TSR)是交通安全的重要组成部分,尤其是在复杂天气和道路条件下。传统的TSR方法依赖于手工特征和传统图像处理技术,而基于卷积神经网络(CNN)的方法虽然在特定国家的数据集上表现良好,但对不同国家的交通标志识别存在局限性。最近,多模态大语言模型(MLLM)如GPT-4o和GPT-4v在自动驾驶领域展现出巨大潜力,但其对交通标志的细粒度识别能力仍有待探索。
➡️ 研究动机:为了提高交通标志识别的性能,减少对大规模训练数据的依赖,并解决跨国家交通标志识别的差异问题,研究团队提出了一种基于MLLM的跨域少样本情境学习方法。该方法通过生成描述文本,利用MLLM的多模态感知和推理能力,提高对交通标志的细粒度识别能力。
➡️ 方法简介:研究团队提出了一种交通标志检测(TSD)网络,该网络基于Vision Transformer Adapter和提取模块,从原始道路图像中提取交通标志。为了减少跨域差异,研究团队引入了一种基于MLLM的跨域少样本情境学习方法,通过生成描述文本,优化MLLM对交通标志的识别能力。该方法仅需简单的文本指示,无需大规模的交通标志图像和标签。
➡️ 实验设计:研究团队在四个数据集上进行了实验,包括德国交通标志识别基准数据集(GTSRB)、比利时交通标志数据集(BTSD)以及两个来自日本的实际道路图像数据集(札幌城市道路数据集和横滨城市道路数据集)。实验评估了不同方法在这些数据集上的Top-k准确率,结果表明,所提出的方法在所有数据集上均显著提高了交通标志识别的性能。

Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps

➡️ 论文标题:Multimodal Chain-of-Thought Reasoning via ChatGPT to Protect Children from Age-Inappropriate Apps
➡️ 论文作者:Chuanbo Hu, Bin Liu, Minglei Yin, Yilu Zhou, Xin Li
➡️ 研究机构: University at Albany, West Virginia University, Fordham University
➡️ 问题背景:移动应用(Apps)可能向儿童展示不适宜的主题,如性内容、暴力和药物使用。成熟度评级系统为潜在用户,特别是监护人,提供了一种快速有效的方法来评估应用的成熟度水平。然而,现有的成熟度评级方法要么不准确(如开发者自报评级),要么成本高昂(如人工审查)。此外,大多数研究仅基于文本挖掘,未能充分利用应用描述和截图中的多模态信息。
➡️ 研究动机:为了提高应用成熟度评级的准确性和可靠性,研究团队提出了一种利用多模态大型语言模型(MLLMs)的方法,特别是结合了链式思维(CoT)推理的ChatGPT-4 Vision,以系统地处理应用的多模态数据(文本描述和截图),并引导模型通过逻辑步骤来确定应用的成熟度评级。
➡️ 方法简介:研究团队设计了一种链式思维(CoT)推理增强的提示方法,使ChatGPT-4 Vision能够按照一系列逻辑步骤来推导应用的成熟度评级。具体步骤包括:1) 从截图中提取成熟度内容及其强度;2) 结合排名最高的截图和文本描述,确定最终的成熟度评级。
➡️ 实验设计:研究团队在从App Store收集的数据集上进行了广泛的实验,数据集包含1,281个应用,分为4+、9+、12+和17+四个年龄组。实验比较了不同大型语言模型(如Vicuna、GPT-3.5、GPT-4、LLaVa-1.5和GPT-4V)的性能,评估了不同模态(仅截图、仅文本描述和双模态)的处理效果。实验结果表明,所提出的方法在多模态融合策略下显著优于所有基线模型。

Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding

➡️ 论文标题:Hypergraph Multi-modal Large Language Model: Exploiting EEG and Eye-tracking Modalities to Evaluate Heterogeneous Responses for Video Understanding
➡️ 论文作者:Minghui Wu, Chenxu Zhao, Anyang Su, Donglin Di, Tianyu Fu, Da An, Min He, Ya Gao, Meng Ma, Kun Yan, Ping Wang
➡️ 研究机构: Peking University、Mininglamp Technology、Shanghai Artificial Intelligence Laboratory
➡️ 问题背景:当前的视频理解领域存在几个主要问题:1) 现有基准数据集的模态和答案长度有限;2) 视频内容过于单调,无法支持对视频创意和隐含因素的深入探索;3) 指令标签的长度受限,无法评估大型语言模型(LLMs)的发散性和分析能力。为了弥补这些不足,研究团队引入了一个大规模的主观反应指标数据集(SRI-ADV),该数据集通过收集不同人群在观看广告视频时的脑电图(EEG)和眼动追踪数据,提供了丰富的模态信息和全面的问答对,以评估视频的吸引力和隐含因素。
➡️ 研究动机:现有的视频理解数据集和模型主要关注视频的客观和显性特征,而忽略了主观和隐性因素。为了更全面地理解视频内容,研究团队开发了一个新的大规模数据集SRI-ADV,并提出了一个超图多模态大型语言模型(HMLLM),旨在通过整合视频、EEG和眼动追踪数据,进行逻辑推理和语义分析,从而填补视频理解领域的空白。
➡️ 方法简介:研究团队通过收集不同人群在观看广告视频时的EEG和眼动追踪数据,构建了SRI-ADV数据集。该数据集不仅包括视频内容,还包括详细的模态标签,如性别、年龄、参与者的脑电波活动和眼动比率。基于此数据集,研究团队开发了HMLLM,该模型利用超图结构来捕捉视频元素、EEG信号和眼动追踪数据之间的复杂关系,从而实现跨模态信息的整合和逻辑推理。
➡️ 实验设计:研究团队在SRI-ADV数据集和其他视频问答数据集上进行了广泛的实验评估。实验设计了不同的任务和协议,包括主观任务(评估视频内容对不同用户群体的主观反应指标)和客观任务(评估视频内容的叙事连贯性和对目标受众的吸引力)。实验结果表明,HMLLM在处理多模态数据和进行逻辑推理方面具有显著优势。


网站公告

今日签到

点亮在社区的每一天
去签到