Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models
➡️ 论文标题:Seeing is Deceiving: Exploitation of Visual Pathways in Multi-Modal Language Models
➡️ 论文作者:Pete Janowczyk, Linda Laurier, Ave Giulietta, Arlo Octavia, Meade Cleti
➡️ 研究机构: University of Wisconsin - Madison, USA、Hampton College, USA、Texas A&M University, USA、Liberty University, USA、Arizona State University, USA
➡️ 问题背景:多模态语言模型(MLLMs)通过结合视觉和文本数据,显著提升了人工智能的能力,使得图像描述、视觉问答和多模态内容生成等应用成为可能。然而,这种多模态数据的融合也增加了安全风险,攻击者可以通过操纵视觉或文本输入,甚至同时操纵两者,使模型产生非预期或有害的响应。
➡️ 研究动机:视觉攻击向量对MLLMs构成了严重威胁,通过微妙地改变图像或视频,可以误导模型生成不准确或有害的文本,而这些变化往往对人类来说是不可察觉的。这些攻击不仅削弱了数据的解释和安全性,还在高风险领域如自动驾驶和医疗健康中带来了安全隐患。本文旨在全面回顾视觉路径在MLLMs中的利用方式,分析不同类型的视觉攻击,评估其对模型性能和安全的影响,并探讨当前的防御机制及其局限性,以支持更安全可靠的多模态AI系统的开发。
➡️ 方法简介:研究团队首先概述了MLLMs的架构和视觉-文本融合机制,分析了视觉处理中的漏洞,包括OCR组件的利用、跨模态训练的弱点以及集成点作为攻击表面。接着,文章分类介绍了不同类型的视觉攻击,包括低成本视觉操纵、跨模态攻击集成、高级攻击框架(如VLATTACK、HADES、Sparse Adversarial Video Attacks、Manifold-Aided Adversarial Examples、AnyAttack、VT-Attack、InstructTA、PG-Attack和DO-UAP)等。
➡️ 实验设计:研究通过多个实验评估了不同攻击方法对MLLMs的影响,包括对抗性扰动攻击、跨模态攻击和高级攻击框架。实验设计了不同的攻击场景,如低成本视觉操纵、跨模态攻击集成、以及针对视觉和文本组件的高级攻击,以全面评估模型在面对这些攻击时的脆弱性和防御能力。
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
➡️ 论文标题:Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
➡️ 论文作者:Jaeyoo Park, Jin Young Choi, Jeonghyung Park, Bohyung Han
➡️ 研究机构: Seoul National University (ECE & IPAI)、Samsung SDS
➡️ 问题背景:当前的多模态大语言模型(Multimodal Large Language Models, MLLMs)在多种任务中展现了卓越的能力,如视觉问答、图像描述、图像-文本检索等。然而,这些模型在处理文档理解任务时面临挑战,尤其是在处理多尺度文档图像时,传统的OCR方法难以应对复杂的布局和多样的字体。
➡️ 研究动机:现有的OCR-free文档理解模型虽然减少了对外部OCR引擎的依赖,但在处理多尺度文档图像时仍存在局限性,如信息丢失和计算成本高。为了提高模型在处理多尺度文档图像时的性能,研究团队提出了一种新的框架,通过多尺度视觉特征聚合(Hierarchical Visual Feature Aggregation, HVFA)模块和相对文本位置预测任务,来增强模型的文本阅读能力和布局理解能力。
➡️ 方法简介:研究团队提出了一种基于预训练多模态大语言模型的OCR-free文档理解框架。该框架通过多尺度视觉特征聚合模块(HVFA)来处理不同分辨率的文档图像,减少输入到语言模型的视觉特征数量,同时保持信息的完整性。此外,团队还引入了相对文本位置预测任务,以提高模型的文本阅读能力和布局理解能力。
➡️ 实验设计:实验在多个公开数据集上进行,包括DocVQA、InfographicsVQA、DeepForm、KleisterCharity、WikiTableQuestions、TabFact、ChartQA、VisualMRC、TextVQA和TextCaps。实验评估了模型在不同任务上的性能,包括视觉问答、信息提取、表格理解、图表理解等。实验结果表明,该框架在多个文档理解基准测试中显著优于现有的OCR-free模型。
From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing
➡️ 论文标题:From Pixels to Prose: Advancing Multi-Modal Language Models for Remote Sensing
➡️ 论文作者:Xintian Sun, Benji Peng, Charles Zhang, Fei Jin, Qian Niu, Junyu Liu, Keyu Chen, Ming Li, Pohsun Feng, Ziqian Bi, Ming Liu, Yichao Zhang
➡️ 研究机构: Simon Fraser University, Canada; AppCubic, USA; University of Minnesota - Twin Cities, USA; Depth LLC, USA; Kyoto University, Japan; Georgia Institute of Technology, USA; National Taiwan Normal University, ROC; Purdue University, USA; The University of Texas at Dallas, USA
➡️ 问题背景:遥感技术已从简单的图像采集发展为复杂的系统,能够整合和处理视觉和文本数据。多模态语言模型(MLLMs)在遥感中的应用,特别是其在解释和描述卫星图像方面的能力,已成为研究的热点。这些模型通过自然语言处理卫星图像,显著提升了自动化地球观测分析的效率和准确性,广泛应用于环境监测、城市规划和灾害响应等领域。
➡️ 研究动机:尽管MLLMs在遥感中的应用取得了显著进展,但其技术基础、当前应用、数据集资源、挑战和未来发展方向仍需深入探讨。本文综述了MLLMs在遥感中的发展和应用,旨在提供一个全面的概述,识别进一步研究和应用的领域。
➡️ 方法简介:本文首先介绍了MLLMs的技术基础,包括双编码器架构、Transformer模型、自监督学习和对比学习、以及跨模态融合技术。随后,文章分析了遥感数据的特性,如空间分辨率、光谱信息和时间变化,这些特性对MLLMs的性能有重要影响。接着,文章讨论了MLLMs在遥感中的关键应用,包括场景描述、目标检测、变化检测、文本到图像检索、图像到文本生成和视觉问答。最后,文章总结了现有的数据集和资源,以及面临的挑战和未来的研究方向。
➡️ 实验设计:本文未进行具体的实验设计,而是通过综述的方式,系统地分析了MLLMs在遥感中的技术基础、应用实例、数据集资源、挑战和未来发展方向。文章引用了多个研究和数据集,如ChatEarthNet、RS5M和RSICap,以支持其分析和结论。
Harmful YouTube Video Detection: A Taxonomy of Online Harm and MLLMs as Alternative Annotators
➡️ 论文标题:Harmful YouTube Video Detection: A Taxonomy of Online Harm and MLLMs as Alternative Annotators
➡️ 论文作者:Claire Wonjeong Jo, Miki Wesołowska, Magdalena Wojcieszak
➡️ 研究机构: University of California, Davis, University of Warsaw
➡️ 问题背景:随着短视频平台(如YouTube、Instagram、TikTok)的全球普及,用户接触到有害内容的问题日益严重,这些内容包括点击诱饵、身体伤害、错误信息和网络仇恨等。然而,由于对何为有害内容缺乏一致的理解,以及人工标注的资源和心理负担,检测有害视频仍然面临巨大挑战。
➡️ 研究动机:为了解决上述问题,本研究旨在通过开发一个全面的在线伤害分类体系,以及利用多模态大型语言模型(MLLMs)作为可靠的有害视频标注工具,来改进有害内容的检测方法。研究团队希望通过这种方法,不仅能够提高有害内容检测的效率和准确性,还能减少对人工标注的依赖,从而减轻相关工作人员的心理负担。
➡️ 方法简介:研究团队首先整合了现有的在线伤害分类体系和平台社区指南,提出了一个包含六个非互斥类别的在线伤害分类体系:信息伤害、仇恨与骚扰伤害、成瘾伤害、点击诱饵伤害、性伤害和身体伤害。每个类别都设计为可以在多模态环境中(结合文本、音频和图像数据)识别。随后,研究团队使用GPT-4-Turbo API对19,422个YouTube视频进行了标注,并与人工标注者(包括众包工作者和领域专家)的标注结果进行了比较,以评估GPT-4-Turbo的性能。
➡️ 实验设计:实验在YouTube视频数据集上进行,包括14个视频帧、1个缩略图和文本元数据。实验设计了不同的因素(如视频帧的选择、文本元数据的使用)和不同类型的伤害类别(如信息伤害、仇恨与骚扰伤害等),以全面评估GPT-4-Turbo在多模态和多标签分类任务中的表现。研究结果表明,GPT-4-Turbo在二分类(有害与无害)和多标签分类任务中均优于众包工作者。
An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models
➡️ 论文标题:An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models
➡️ 论文作者:Fatemeh Shiri, Xiao-Yu Guo, Mona Golestan Far, Xin Yu, Gholamreza Haffari, Yuan-Fang Li
➡️ 研究机构: Monash University、University of Adelaide、University of Queensland
➡️ 问题背景:大型多模态模型(LMMs)在视觉和语言任务中表现出色,但其空间推理能力尚未得到充分研究。现有的研究显示,这些模型在理解空间关系方面存在不足,尤其是在处理从人类视角提出的问题时表现不佳。
➡️ 研究动机:为了深入研究LMMs的空间推理能力,特别是从人类视角和相机视角提出的问题,研究团队构建了一个新的VQA数据集——Spatial-MM,旨在全面评估LMMs的空间理解和推理能力。此外,研究还探讨了边界框和场景图等额外的符号视觉信息如何影响模型性能。
➡️ 方法简介:研究团队构建了Spatial-MM数据集,该数据集包含两个子集:Spatial-Obj和Spatial-CoT。Spatial-Obj用于评估模型对图像中一个或两个对象之间空间关系的理解,而Spatial-CoT则包含多跳推理问题。研究通过提供合成的边界框和场景图来增强模型的空间推理能力,并分析了不同模型在处理不同复杂度问题时的表现。
➡️ 实验设计:实验在Spatial-MM和GQA-spatial两个数据集上进行,评估了四个顶级LMMs在不同条件下的表现。实验设计了不同的因素,如边界框和场景图的使用,以及问题的复杂度(如单对象问题和双对象问题),以全面评估模型的空间推理能力。研究发现,边界框和场景图可以显著提高模型的空间推理能力,尤其是在处理双对象问题时。然而,模型在处理从人类视角提出的问题时表现较差,尤其是在多跳推理任务中。