多模态大语言模型arxiv论文略读（九十二）-EW帮帮网

在这里插入图片描述

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis

➡️ 论文标题：MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis
➡️ 论文作者：Lei Chen, Feng Yan, Yujie Zhong, Shaoxiang Chen, Zequn Jie, Lin Ma
➡️ 研究机构: Meituan
➡️ 问题背景：多模态大语言模型（MLLM）在文档分析领域取得了显著进展。然而，现有的基准测试通常仅关注提取文本和简单的布局信息，忽视了结构化文档（如思维导图和流程图）中元素之间的复杂交互。这种评估上的局限性阻碍了我们对模型在复杂现实场景中表现的全面理解和评估。
➡️ 研究动机：为了解决现有基准测试的不足，研究团队提出了一个新的基准测试——MindBench，专门用于结构化文档的分析和解析。MindBench不仅包括精心构建的双语真实或合成图像、详细的注释、评估指标和基线模型，还特别设计了五种类型的结构化理解和解析任务，旨在全面评估模型解析文本和图像信息、识别元素间关系以及理解整体结构的能力。
➡️ 方法简介：研究团队构建了一个包含高分辨率图像、丰富文档内容和多样结构变化的双语思维导图数据集。基于此数据集，设计了五个结构化理解和解析任务，包括全解析、部分解析、位置相关解析、结构化视觉问答（VQA）和位置相关VQA。这些任务全面评估了模型在解析文本和图像信息、识别元素间关系以及理解整体结构方面的能力。此外，还建立了特定的评估指标，包括字段级F1分数和基于树编辑距离（TED）的解析任务准确性，以及VQA任务的F1分数。
➡️ 实验设计：在MindBench数据集上进行了广泛的实验，包括全解析、部分解析、位置相关解析、结构化VQA和位置相关VQA任务。实验设计了不同因素的变化，如图像分辨率、节点数量和深度，以及不同类型的VQA问题，以全面评估模型在处理高分辨率复杂图形图像和长结构化文档信息方面的能力。实验结果表明，当前模型在处理这些任务时仍有显著的改进空间。

Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps

➡️ 论文标题：Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps
➡️ 论文作者：Zhe Liu, Cheng Li, Chunyang Chen, Junjie Wang, Mengzhuo Chen, Boyu Wu, Yawen Wang, Jun Hu, Qing Wang
➡️ 研究机构: 中国科学院软件研究所、德国慕尼黑工业大学、中国科学院大学
➡️ 问题背景：随着移动应用的普及，其图形用户界面（GUI）页面中包含的丰富视觉信息对用户理解应用程序逻辑起到了重要作用。然而，这些复杂的视觉和功能逻辑给软件测试带来了新的挑战。现有的自动化GUI测试方法主要受限于缺乏可靠的测试标准，只能检测具有明显异常信号的崩溃错误。因此，许多非崩溃功能错误（如意外行为和逻辑错误）往往被当前技术所忽视。这些非崩溃功能错误不仅影响功能，还可能导致各种领域和日常生活中的严重后果。
➡️ 研究动机：尽管这些非崩溃功能错误可能表现出视觉线索，但检测它们需要理解GUI页面之间的操作逻辑，这对传统技术来说是一个重大挑战。为了解决这一问题，研究团队提出了Trident，这是一种基于视觉驱动的多代理协作自动化GUI测试方法，用于检测非崩溃功能错误。Trident通过利用多模态大语言模型（MLLM）来理解GUI页面的视觉信息和功能逻辑，旨在提高非崩溃功能错误的检测效率和准确性。
➡️ 方法简介：Trident由三个代理组成：Explorer（探索者）、Monitor（监控者）和Detector（检测者）。Explorer代理通过导航应用、捕获视图层次结构和截图来引导探索，专注于应用的功能。Monitor代理监督测试过程，记录探索历史，并在适当时间触发Detector代理。Detector代理通过检查GUI页面变化中的逻辑转换来识别潜在的功能错误。研究团队还解决了三个主要挑战：1）对齐视觉和文本信息以供MLLM输入；2）实现功能导向的探索；3）推断非崩溃错误的测试标准。
➡️ 实验设计：研究团队在590个非崩溃错误上评估了Trident，并与12个常用和最先进的基线方法进行了比较。实验结果表明，Trident在平均召回率和精确率上分别提高了14%-112%和108%-147%。此外，Trident在Google Play上的187个应用中检测到了43个新的非崩溃错误，其中31个已被修复，12个得到了开发者的确认。

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

➡️ 论文标题：Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge
➡️ 论文作者：Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip Torr, Lu Yuan
➡️ 研究机构: University of Oxford、Microsoft
➡️ 问题背景：近年来，多模态大型语言模型（Multimodal Large Language Models, MLLMs）通过训练大量高质量的图像-文本数据集，显著提升了对图像的理解能力。然而，这些模型在处理需要细粒度或空间密集信息的任务时，如对象计数或特定对象的精确位置输出，仍面临挑战。主要原因是文本本身难以准确传达高度细粒度或空间密集的信息，导致当前的MLLMs在解释图像局部区域的像素级内容时表现不佳，进而影响整体图像理解能力，造成“幻觉”问题。
➡️ 研究动机：为了克服这一挑战，研究团队提出了一种新的视觉提示方法，将从专门的视觉模型（如实例分割/OCR模型）中提取的细粒度外部知识直接嵌入MLLMs中。这种方法旨在提高MLLMs对细粒度视觉内容的理解能力，而无需额外的训练数据。与现有方法不同，该方法不将外部知识转换为附加的文本提示，而是直接将细粒度知识信息嵌入到空间嵌入图中作为视觉提示，从而减少模型学习视觉内容与文本坐标对应关系的复杂性。
➡️ 方法简介：研究团队提出了一种系统的方法，通过利用全景分割模型和OCR检测模型生成像素级文本嵌入，作为MLLMs的局部上下文信息。这些文本嵌入随后以空间方式添加到原始视觉提示中，形成增强的视觉提示。该方法可以轻松集成到各种MLLMs中，如LLaVA和Mipha，显著提高了模型的视觉理解性能。
➡️ 实验设计：研究团队在LLaVA-1.5数据集上训练了一系列MLLMs，并在九个基准测试中进行了评估。实验结果表明，即使在参数量为30亿的模型上，该方法也能显著优于现有的70亿和130亿参数的MLLMs，且无需额外的训练数据。实验还通过消融研究验证了不同视觉提示方法的有效性，包括特征融合和特征添加两种方式。

LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts

➡️ 论文标题：LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts
➡️ 论文作者：Yijia Xiao, Edward Sun, Tianyu Liu, Wei Wang
➡️ 研究机构: University of California, Los Angeles (UCLA)、Yale University
➡️ 问题背景：近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在多种任务中展示了接近人类专家级别的性能，包括基于图像创作诗歌、进行数学推理等。然而，目前缺乏对MLLMs在逻辑推理任务上的系统评估，这些任务对于导航和解谜等活动至关重要。现有的多模态数据集主要集中在感知任务上，而复杂的多模态推理任务，如解释图表、日常推理、批判性思维和问题解决等，需要感知和逻辑推理的结合。
➡️ 研究动机：为了填补这一空白，研究团队提出了LogicVista，这是一个评估MLLMs在视觉上下文中综合逻辑推理能力的基准。LogicVista涵盖了5种逻辑推理任务，包括9种不同的能力，旨在提供一个全面的评估框架，以更好地理解MLLMs在逻辑推理任务上的表现。
➡️ 方法简介：研究团队构建了LogicVista数据集，包含448个多选题，每个问题都标注了正确答案和人类编写的推理过程。数据集涵盖了5种逻辑推理技能（归纳、演绎、数值、空间和机械推理）和9种多模态能力（图表、OCR、模式、图表、表格、3D形状、谜题、序列和物理）。通过这种方式，LogicVista能够全面评估MLLMs在不同任务中的表现。
➡️ 实验设计：研究团队使用8种代表性的MLLMs在LogicVista数据集上进行了评估。评估方法包括多选题评估和开放式评估。多选题评估通过LLM提取器将模型的开放性回答转换为多选题答案，而开放式评估则通过人类编写的解释来评估模型的推理过程。评估结果不仅提供了总体得分，还详细展示了模型在每种推理技能和多模态能力上的表现。

VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool

➡️ 论文标题：VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool
➡️ 论文作者：Yan Wang, Yawen Zeng, Jingsheng Zheng, Xiaofen Xing, Jin Xu, Xiangmin Xu
➡️ 研究机构: 华南理工大学、字节跳动、琶洲实验室
➡️ 问题背景：多模态大语言模型（MLLMs）正在蓬勃发展，但主要集中在图像上，对视频的关注较少，特别是在提示工程、视频链式思维（Video Chain-of-Thought, CoT）和指令调优等领域。因此，研究团队尝试探索视频CoT数据集的收集，以促进视频开放问答（OpenQA）并提高MLLMs的推理能力。
➡️ 研究动机：现有的研究主要集中在图像上，视频研究相对较少。视频CoT具有多方面的优势，包括促进开放问答、增强理解能力和提高MLLMs的推理能力。然而，创建视频CoT数据集是一项复杂的任务，人工标注既繁琐又昂贵，而机器生成的数据又不可靠。为了解决这些问题，研究团队开发了一种结合机器和人类专家的自动标注工具，采用主动学习范式，以减少人工标注的工作量并保证数据集的质量。
➡️ 方法简介：研究团队提出了一种自动标注工具，该工具结合了机器和人类专家，采用主动学习范式。该工具通过训练一个提示生成器来引导大语言模型（LLMs）生成复杂的CoT，并通过质量评分机制自动评估生成的CoT。低质量的CoT将由人类专家进行修改，修改后的CoT将用于训练提示生成器，以生成更合理的CoT。
➡️ 实验设计：研究团队在三个数据集上进行了实验，包括VideoCoT、TopicQA和TopicCoT。实验评估了不同因素（如视频描述、问题和答案的复杂性）对生成CoT的影响，并通过多个维度（如流畅性、背景描述、时空变化、对象关系和总结）对生成的CoT进行了质量评估。实验结果表明，该方法能够有效提高生成CoT的质量，并在视频问答任务中表现出色。

多模态大语言模型arxiv论文略读（九十二）

MindBench: A Comprehensive Benchmark for Mind Map Structure Recognition and Analysis

Seeing is Believing: Vision-driven Non-crash Functional Bug Detection for Mobile Apps

Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge

LogicVista: Multimodal LLM Logical Reasoning Benchmark in Visual Contexts

VideoCoT: A Video Chain-of-Thought Dataset with Active Annotation Tool

网站公告

今日签到

热门文章

最新发布