MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions
➡️ 论文标题:MIRAGE: Multimodal Identification and Recognition of Annotations in Indian General Prescriptions
➡️ 论文作者:Tavish Mankash, V. S. Chaithanya Kota, Anish De, Praveen Prakash, Kshitij Jadhav
➡️ 研究机构: HKUST (GZ)、BJUT、Drexel University、University of Oxford
➡️ 问题背景:印度医院仍然依赖手写医疗记录,尽管有电子医疗记录(EMR)系统,这导致了统计分析和记录检索的复杂性。手写记录的识别需要专门的数据来训练模型,以识别药物及其推荐模式。传统的手写识别方法使用2-D LSTM,而最近的研究探索了使用多模态大语言模型(MLLMs)进行OCR任务。
➡️ 研究动机:现有的手写处方识别模型在实际应用中准确率较低,主要受限于数据集的不足、对医疗缩写的训练不足、对非文本和剂量信息的忽视以及词级分割方法的局限性。本研究旨在通过使用MLLMs和大规模模拟数据集来提高手写处方识别的准确率。
➡️ 方法简介:研究团队提出了MIRAGE方法,通过细调QWEN VL、LLaVA 1.6和Idefics2模型,使用743,118张高分辨率的模拟医疗记录图像进行训练。这些图像由1,133名印度医生提供,涵盖了52个不同的专业领域。研究团队还评估了数据集大小和字符间距对模型性能的影响。
➡️ 实验设计:实验在三个公开数据集上进行,包括手写处方识别任务。实验设计了不同的因素(如数据集大小、字符间距)的变化,以及不同类型的输入信息(如医生的专业、患者的年龄和性别、医生最常开具的15种药物),以全面评估模型的性能。实验结果显示,Idefics2在提取药物名称和剂量方面表现最佳,达到了82%的F1分数。
LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models
➡️ 论文标题:LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models
➡️ 论文作者:Han Qiu, Jiaxing Huang, Peng Gao, Qin Qi, Xiaoqin Zhang, Ling Shao, Shijian Lu
➡️ 研究机构: Nanyang Technological University, Shanghai Artificial Intelligence Laboratory, Zhejiang University of Technology, UCAS-Terminus AI Lab, UCAS
➡️ 问题背景:多模态大语言模型(MLLMs)在理解多模态内容方面取得了显著进展,能够生成详细的图像描述和进行复杂的连续对话。然而,这些模型经常出现幻觉问题,即生成的文本与图像内容不一致,这严重影响了MLLMs在各种视觉-语言任务和应用中的可靠性和适用性。现有的幻觉评估基准存在一些限制,如问题过于简单、评估方法计算密集且不稳定等。
➡️ 研究动机:为了更有效地测量MLLMs的幻觉水平,研究团队提出了LongHalQA,这是一个无需大语言模型(LLM)的幻觉评估基准,包含6000个长且复杂的幻觉文本。LongHalQA通过引入两个新任务——幻觉辨别和幻觉完成,将判别性和生成性评估统一到同一个多项选择题形式中,从而实现更可靠和高效的评估。
➡️ 方法简介:研究团队设计了LongHalQA,该基准由GPT4V生成的幻觉数据组成,这些数据与各种现实场景高度一致。LongHalQA包含两个任务:幻觉辨别和幻觉完成。幻觉辨别任务要求MLLMs判断给定文本是否包含幻觉,并选择正确的幻觉原因;幻觉完成任务则要求MLLMs继续文本,并选择不包含幻觉的正确选项。此外,研究团队还提出了LongHallGen,一个用于生成长上下文幻觉数据的自动化管道,通过修改提示模板,可以调整生成的幻觉类型、内容主题和数据格式。
➡️ 实验设计:研究团队在LongHalQA上评估了十个主流的MLLMs,包括不同规模的模型。实验结果显示,MLLMs在处理长文本幻觉时存在多种挑战,尤其是在辨别和解释长文本幻觉以及在完成长文本时生成幻觉内容方面。此外,研究发现,简单的幻觉缓解方法(如Chain-Of-Thought)在处理长文本幻觉时效果不佳,这表明MLLMs在处理长上下文时的能力有限。
Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation
➡️ 论文标题:Spatial-Aware Efficient Projector for MLLMs via Multi-Layer Feature Aggregation
➡️ 论文作者:Shun Qian, Bingquan Liu, Chengjie Sun, Zhen Xu, Baoxun Wang
➡️ 研究机构: Harbin Institute of Technology, Tencent PCG
➡️ 问题背景:多模态语言模型(MLLMs)在处理视觉和语言任务中表现出强大的能力。然而,现有的投影器(projector)在将视觉特征转换为语言模型的嵌入空间时,往往忽略了视觉特征的固有空间差异,导致模型在处理视觉任务时的效率和理解能力受限。此外,减少视觉令牌数量以提高计算效率的方法通常会牺牲模型的空间理解能力。
➡️ 研究动机:为了同时提高多模态语言模型的计算效率和空间理解能力,研究团队提出了一种新的投影器——空间感知高效投影器(Spatial-Aware Efficient Projector, SAEP)。该投影器通过多层特征聚合,不仅能够显著减少视觉令牌的数量,还能显著提升模型的空间理解能力。
➡️ 方法简介:SAEP方法通过在多层视觉特征上应用修改后的深度可分离卷积模块,增强了视觉令牌的空间信息。具体来说,SAEP首先将视觉特征序列重新组织成2D特征图,然后应用卷积操作来压缩局部特征,从而保留空间知识。此外,SAEP还引入了多层视觉特征,以提供更详细的局部视觉线索,增强特征多样性,而不会增加额外的计算开销。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括视觉-语言空间任务(如MME、MMBench、SEED-Bench等)和通用多模态任务(如VQAv2、GQA、Vizwiz等)。实验结果表明,SAEP投影器不仅在减少视觉令牌数量方面表现出色,还能显著提高模型的空间理解能力和视觉定位任务的性能。此外,SAEP投影器在通用多模态任务上的表现也优于现有的高效投影器。
Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models
➡️ 论文标题:Automatically Generating Visual Hallucination Test Cases for Multimodal Large Language Models
➡️ 论文作者:Zhongye Liu, Hongbin Liu, Yuepeng Hu, Zedian Shao, Neil Zhenqiang Gong
➡️ 研究机构: Duke University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理包含图像和问题的提示时,可能会生成包含错误视觉细节的响应,这种现象称为视觉幻觉(Visual Hallucination, VH)。现有的VH测试方法主要依赖于人工标注,通常以三元组形式(图像、问题、答案)存在。这些方法在规模和全面性上存在局限,无法充分测试MLLMs对VH的脆弱性。
➡️ 研究动机:为了克服现有VH测试方法的局限,研究团队提出了VHExpansion,这是首个自动化生成VH测试用例的方法。VHExpansion通过否定问题和答案以及对图像进行常见和对抗性扰动,自动扩展初始VH测试用例。此外,研究团队还提出了一种新的评估指标——对称准确率(Symmetric Accuracy),以更准确地衡量MLLMs的性能。
➡️ 方法简介:VHExpansion通过以下步骤生成新的VH测试用例:1) 否定问题和答案;2) 对图像进行常见扰动(如高斯噪声、亮度调整、散焦模糊和JPEG压缩);3) 对图像进行对抗性扰动。研究团队还提出了一种新的评估指标——对称准确率,该指标衡量模型在原始测试用例及其否定版本上的正确回答比例。
➡️ 实验设计:研究团队在三个公开的VH数据集(MMVP、VHTest和POPE)上进行了实验,评估了七种MLLMs的性能。实验设计了不同类型的扰动(如常见扰动和对抗性扰动),以及不同类型的测试用例(如存在性VH测试用例)。实验结果表明,VHExpansion能够有效识别更多的VH测试用例,并且对称准确率在评估MLLMs对VH的脆弱性方面比传统准确率更具优势。此外,研究团队还展示了在扩展的VH数据集上微调MLLMs可以显著减轻VH,同时保持模型在其他VQA数据集上的性能。
Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
➡️ 论文标题:Difficult Task Yes but Simple Task No: Unveiling the Laziness in Multimodal LLMs
➡️ 论文作者:Sihang Zhao, Youliang Yuan, Xiaoying Tang, Pinjia He
➡️ 研究机构: The Chinese University of Hong Kong, Shenzhen
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在处理复杂任务时表现出强大的能力,但在一些简单的视觉问答(VQA)问题上却经常出错。例如,模型可能无法正确回答关于图像的简单是/否问题,即使它们能够准确描述图像内容。这种现象被称为“模型懒惰”。
➡️ 研究动机:研究团队希望通过构建一个基准数据集(LazyBench)来系统地研究MLLMs在简单任务上的懒惰现象,以揭示这种现象的普遍性和背后的原因,并探索缓解方法。
➡️ 方法简介:研究团队构建了LazyBench数据集,该数据集包含了一系列图像、基础事实陈述以及四种不同类型的问题(是/否问题、选择题、简答题和描述题)。通过这些数据,研究团队评估了不同MLLMs在处理不同类型问题时的表现,特别是它们在简单任务上的懒惰现象。
➡️ 实验设计:研究团队在LazyBench数据集上评估了多个先进的MLLMs,包括GPT-4o、GPT-4V、Gemini-1.5-pro、Claude 3、LLaVA-1.5、LLaVA-1.6和QWen-VL。实验结果表明,这些模型在描述任务上的表现显著优于在是/否问题和选择题上的表现。此外,研究团队还提出了一种基于“思维链”(Chain of Thought, CoT)的方法,通过先让模型完成描述任务再回答简单问题,有效缓解了模型的懒惰现象。