多模态大语言模型arxiv论文略读(八十四)

发布于:2025-05-21 ⋅ 阅读:(22) ⋅ 点赞:(0)

在这里插入图片描述

Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events

➡️ 论文标题:Using Multimodal Large Language Models for Automated Detection of Traffic Safety Critical Events
➡️ 论文作者:Mohammad Abu Tami, Huthaifa I. Ashqar, Mohammed Elhenawy
➡️ 研究机构: Arab American University, Jenin, Palestine; Columbia University, NY, USA; Queensland University of Technology, Brisbane, Australia
➡️ 问题背景:传统的自动驾驶系统安全事件分析依赖于复杂的机器学习模型和大量的数据集以实现高精度和可靠性。然而,多模态大语言模型(MLLMs)的出现提供了一种新的方法,通过整合文本、视觉和音频模态,实现对驾驶视频的自动化分析。这些模型能够提供准确、可靠且可操作的洞察,用于危险检测。
➡️ 研究动机:尽管大型语言模型(LLMs)在自动驾驶领域的应用取得了显著进展,但在安全关键事件分析方面仍存在显著差距。现有研究主要集中在通过改进感知和决策过程来增强自动驾驶能力,而没有专门解决安全关键情况下的独特挑战。本研究旨在通过引入一个专门设计的多模态大语言模型(MLLM)框架来填补这一空白,该框架能够提供对动态驾驶环境的全面理解,并生成用于危险检测和响应的可操作洞察。
➡️ 方法简介:研究团队提出了一种多阶段的问答(Q/A)框架,用于从驾驶视频中检测安全关键事件。该框架包括从视频中提取帧、进行危险检测、以及通过“是什么”、“哪一个”和“在哪里”三个阶段的查询来进一步探查威胁的性质。此外,研究还探讨了两种视频分析策略:滑动窗口帧捕获和文本上下文表示,以及数据增强策略,以提高模型的鲁棒性和准确性。
➡️ 实验设计:实验在DRAMA数据集上进行,该数据集包含约17,000个不同的驾驶场景,特别适合评估多模态大语言模型(MLLMs)在复杂驾驶情况下的表现。实验设计了不同的数据处理方法,包括滑动窗口大小的变化、文本上下文表示的使用,以及图像增强技术的应用,以全面评估模型在不同条件下的性能。实验结果表明,Gemini-pro-vision 1.5在零样本学习和多阶段问答任务中表现出色,而Llava-7B 1.5在某些任务中也显示出潜力,但总体性能略低。

The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications

➡️ 论文标题:The Use of Multimodal Large Language Models to Detect Objects from Thermal Images: Transportation Applications
➡️ 论文作者:Huthaifa I. Ashqar, Taqwa I. Alhadidi, Mohammed Elhenawy, Nour O. Khanfar
➡️ 研究机构: Arab American University Jenin, Columbia University, Al-Ahliyya Amman University, Queensland University of Technology
➡️ 问题背景:热成像技术在自动驾驶系统和智能交通系统(ITS)应用中扮演着关键角色,尤其是在行人检测等安全相关任务中。然而,现有的研究和应用主要集中在单一模态的数据处理上,如仅使用RGB图像或热成像。多模态大型语言模型(MLLMs)的出现为融合不同模态的数据提供了新的可能,这可能显著提高自动驾驶系统的安全性和功能性。
➡️ 研究动机:尽管多模态大型语言模型在处理图像和文本方面表现出色,但它们在处理热成像数据时的能力尚未得到充分探索。本研究旨在评估MLLMs(如GPT-4和Gemini)在热成像数据处理中的表现,特别是在物体检测和场景一致性识别方面的能力。研究团队希望通过实验验证MLLMs是否能够有效地理解和处理来自不同模态的数据,从而为自动驾驶技术的发展提供支持。
➡️ 方法简介:研究团队使用了Teledyne FLIR Free ADAS Thermal Dataset v2数据集,该数据集包含了大量的热成像和可见光图像。研究设计了三个主要实验:1) 评估MLLMs在热成像中的物体检测能力;2) 评估MLLMs在识别两个不同模态图像是否来自同一场景的能力;3) 评估MLLMs在结合热成像和RGB图像进行物体检测的能力。实验采用了零样本学习和链式思维技术,以评估模型在不同任务中的表现。
➡️ 实验设计:实验在三个主要任务上进行了评估:1) 物体检测,通过计算不同物体类别的真阳性率(TPR)和假阳性率(FPR)来评估模型的检测能力;2) 场景一致性识别,通过计算模型在相同场景和不同场景下的精度和召回率来评估模型的识别能力;3) 双模态物体检测,通过结合热成像和RGB图像来评估模型的综合检测能力。实验结果表明,MLLMs在处理热成像数据时表现出了一定的能力,尤其是在检测大型物体(如汽车)方面。然而,模型在处理小型物体(如摩托车)时的性能仍有待提高。

Towards Event-oriented Long Video Understanding

➡️ 论文标题:Towards Event-oriented Long Video Understanding
➡️ 论文作者:Yifan Du, Kun Zhou, Yuqi Huo, Yifan Li, Wayne Xin Zhao, Haoyu Lu, Zijia Zhao, Bingning Wang, Weipeng Chen, Ji-Rong Wen
➡️ 研究机构: 中国人民大学高瓴人工智能学院、中国人民大学信息学院、中国科学院自动化研究所、百川公司
➡️ 问题背景:当前的视频多模态大语言模型(Video MLLMs)在视频理解任务中展现了卓越的能力。然而,现有的评估数据集由于缺乏丰富的事件,可能受到“捷径偏差”的影响,即答案可以从少数几帧中推断出来,而无需观看整个视频。这影响了评估的可靠性。
➡️ 研究动机:为了克服现有数据集的局限性,研究团队提出了一个事件导向的长视频理解基准(Event-Bench),旨在全面评估视频 MLLMs 的事件理解能力。此外,研究团队还提出了一种低成本的方法——视频指令合并(VIM),通过合并事件密集的视频指令来增强视频 MLLMs 的性能。
➡️ 方法简介:研究团队设计了一个自动化的数据收集管道,从现有数据集中收集无偏见的测试实例,并统一格式,过滤低质量数据。此外,他们还基于 YouTube 上的事件密集型长视频进行了人工标注,以覆盖复杂的现实场景。VIM 方法通过合并相似的视频指令,生成新的、事件密集的视频指令,以减少人工标注的成本。
➡️ 实验设计:研究团队在 Event-Bench 上进行了广泛的实验,评估了多个开源和商业模型的性能。实验结果表明,最佳模型 GPT-4o 在整体准确率上达到了 53.33%,显著优于最佳开源模型。VIM 方法在 Event-Bench 上的表现超过了所有开源模型和 GPT-4V。

E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion

➡️ 论文标题:E-ANT: A Large-Scale Dataset for Efficient Automatic GUI NavigaTion
➡️ 论文作者:Ke Wang, Tianyu Xia, Zhangxuan Gu, Yi Zhao, Shuheng Shen, Changhua Meng, Weiqiang Wang, Ke Xu
➡️ 研究机构: Ant Group、Tsinghua University
➡️ 问题背景:近年来,随着大型语言模型(LLM)和多模态大型语言模型(MLLM)的快速发展,这些模型在自动化任务执行,尤其是移动设备上的GUI导航任务中展现出巨大潜力。然而,现有的MLLM需要高质量的数据来提高其根据人类用户输入做出正确导航决策的能力。当前的GUI导航数据集主要集中在英文上,缺乏全面的中文GUI导航数据集,且现有数据集在标注质量上存在不足,影响了下游GUI导航活动的决策精度。
➡️ 研究动机:为了填补中文GUI导航数据集的空白,并提供高质量的标注数据,研究团队开发了E-ANT数据集。该数据集包含超过40,000个用户操作轨迹,涵盖了20,000多个不同的小程序和URL,旨在为多模态和自动GUI导航社区做出贡献。
➡️ 方法简介:研究团队设计了一个注释系统,用于记录真实用户在小程序上的行为。该系统与后端的Android模拟器实时连接,注释者通过前端的移动界面和任务描述与系统交互。数据收集过程包括同步截图、记录操作、同步操作坐标和文本等步骤。每个操作轨迹包含操作目的、是否达成目的的指示以及一系列操作步骤。每个操作步骤提供页面截图、页面布局分析结果和相应的操作。
➡️ 实验设计:研究团队在E-ANT数据集上评估了当前主流的LLM/MLLM在不同推理方法下的GUI导航性能。评估方法包括零样本推理、微调和数据增强微调。实验结果表明,数据增强微调方法在提高模型导航决策的准确性方面表现最佳。

From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking

➡️ 论文标题:From LLMs to MLLMs: Exploring the Landscape of Multimodal Jailbreaking
➡️ 论文作者:Siyuan Wang, Zhuohan Long, Zhihao Fan, Zhongyu Wei
➡️ 研究机构: University of Southern California、Fudan University、Alibaba Inc.
➡️ 问题背景:大型语言模型(LLMs)和多模态大型语言模型(MLLMs)的快速发展暴露了它们对各种对抗性攻击的脆弱性。本文提供了针对LLMs和MLLMs的越狱攻击研究的全面概述,强调了评估基准、攻击技术和防御策略的最新进展。与单模态越狱攻击相比,多模态领域的研究仍处于探索阶段。
➡️ 研究动机:尽管LLMs的越狱攻击研究较为成熟,但MLLMs的越狱攻击研究仍相对不足。本文旨在通过对比LLMs和MLLMs的越狱攻击研究,总结MLLMs越狱攻击的局限性和潜在研究方向,以期激发未来研究并进一步增强MLLMs的鲁棒性和安全性。
➡️ 方法简介:研究团队系统地介绍了针对LLMs和MLLMs的越狱攻击和防御方法,包括非参数攻击和参数攻击。非参数攻击通过操纵输入提示(和/或输入图像)进行语义攻击,而参数攻击则通过访问模型权重或logits进行非语义攻击。此外,研究还探讨了评估数据集的构建,包括单模态和多模态越狱数据集。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括单轮和多轮对话任务。实验设计了不同类型的攻击方法,如行为限制、上下文虚拟化、注意力分散、域转移和混淆等,以全面评估模型对越狱攻击的敏感性和抗干扰能力。