多模态大语言模型arxiv论文略读(150)

发布于:2025-07-08 ⋅ 阅读:(12) ⋅ 点赞:(0)

在这里插入图片描述

Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models

➡️ 论文标题:Advancing Fine-Grained Visual Understanding with Multi-Scale Alignment in Multi-Modal Models
➡️ 论文作者:Wei Wang, Zhaowei Li, Qi Xu, Linfeng Li, YiQing Cai, Botian Jiang, Hang Song, Xingcan Hu, Pengyu Wang, Li Xiao
➡️ 研究机构: 中国科学技术大学、字节跳动、复旦大学
➡️ 问题背景:多模态大语言模型(MLLMs)在细粒度视觉理解任务中取得了显著成功。然而,由于细粒度知识对齐不足,这些模型在准确捕捉局部细节和实现全面的全局感知方面面临挑战。尽管最近的研究在对齐对象表达与定位信息方面取得了进展,但它们通常缺乏对对象图像的显式整合,而这些图像包含丰富的信息,超越了简单的文本或坐标。
➡️ 研究动机:现有的多模态模型在细粒度对齐方面存在显著不足,尤其是在处理对象文本、坐标和图像的多尺度表示时。为了克服这一限制,研究团队提出了一种新的细粒度视觉知识对齐方法,旨在通过多尺度对齐和整合对象的文本、坐标和图像,提高模型的细粒度视觉理解和全局感知能力。
➡️ 方法简介:研究团队提出了一种三阶段训练策略,从易到难逐步提升模型的细粒度视觉理解能力。第一阶段是对象和关系感知预训练,使模型能够理解多模态输入,识别图像中的对象及其关系。第二阶段是多尺度细粒度局部知识对齐,通过数据驱动的方法实现对象文本描述、边界框坐标和图像特征的高精度对齐。第三阶段是详细的全局知识对齐,通过整合细粒度信息,增强模型的全局理解能力。此外,研究团队还开发了一个多尺度细粒度增强数据合成管道,生成了超过300K的细粒度对齐数据。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括RefCOCO、RefCOCO+和RefCOCOg,评估了TinyGroundingGPT在图像定位任务中的表现。实验结果表明,TinyGroundingGPT在多个数据集上均表现出色,尤其是在细粒度视觉理解和对象定位任务中,其性能与更大规模的模型相当,甚至在某些基准上超过了它们。此外,TinyGroundingGPT在对象幻觉评估中也表现出色,显著降低了幻觉率。

Seeing Clearly by Layer Two: Enhancing Attention Heads to Alleviate Hallucination in LVLMs

➡️ 论文标题:Seeing Clearly by Layer Two: Enhancing Attention Heads to Alleviate Hallucination in LVLMs
➡️ 论文作者:Xiaofeng Zhang, Yihao Quan, Chaochen Gu, Chen Shen, Xiaosong Yuan, Shaotian Yan, Hao Cheng, Kaijie Wu, Jieping Ye
➡️ 研究机构: Shanghai Jiao Tong University, Alibaba Group, Beijing Jiaotong University
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)在跨模态任务中取得了显著进展,尤其是在处理文本和图像模态方面。然而,幻觉问题(hallucination)仍然是一个持续的挑战,尤其是在视觉问答(VQA)和图像描述等任务中。尽管图像标记在输入序列中占大多数,但关于图像标记与幻觉之间关系的研究有限。
➡️ 研究动机:现有的研究主要集中在改变解码策略、引入外部知识库或重新训练模型以减少幻觉,但这些方法通常需要大量的资源和时间。为了更深入地理解幻觉问题,研究团队分析了模型各层和各注意力头的图像标记注意力分布,发现幻觉与图像标记的注意力汇聚模式密切相关。基于这一发现,研究团队提出了一种无需训练的方法——增强注意力头(Enhancing Attention Heads, EAH),旨在通过增强浅层图像标记的注意力汇聚来减轻幻觉问题。
➡️ 方法简介:研究团队通过分析不同模型(如LLaVA1.5、Minigpt4、MiniGemini和Intern-VL)的注意力头在浅层的分布,发现密集的视觉汇聚头(dense vision sink heads)与较少的幻觉输出相关。EAH方法通过识别具有最密集视觉汇聚的注意力头,并将其注意力分布广播到同一层的其他头,从而增强模型对图像的关注度,减少幻觉。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括POPE、CHAIR、MME-Bench、VizWiz、VQAv2、SEED、GQA和Blink等,评估了EAH在减少幻觉和提高视觉-语言任务性能方面的效果。实验结果表明,EAH在不同模型和任务上均表现出显著的幻觉减轻效果,且无需额外的计算成本。

Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning

➡️ 论文标题:Visual-Linguistic Agent: Towards Collaborative Contextual Object Reasoning
➡️ 论文作者:Jingru Yang, Huan Yu, Yang Jingxin, Chentianye Xu, Yin Biao, Yu Sun, Shengfeng He
➡️ 研究机构: Carnegie Mellon University、Zhejiang University、Beijing Institute of Petrochemical Technology、TikTok、Sealand Technology Inc.、Singapore Management University
➡️ 问题背景:当前的对象检测模型在大规模数据集上取得了显著成功,但这些模型主要关注生成高质量的区域提案,而忽视了对象之间的空间和逻辑关系,导致检测结果缺乏上下文一致性。另一方面,多模态大语言模型(MLLMs)在描述图像内容方面表现出色,但在精确对象定位方面存在不足。
➡️ 研究动机:研究团队观察到,结合MLLMs的推理能力和传统对象检测模型的精确定位能力,可以显著提高对象检测的准确性和上下文一致性。因此,提出了Visual-Linguistic-Agent (VLA)框架,旨在通过多模态协作增强对象检测的上下文连贯性。
➡️ 方法简介:VLA框架包括三个关键阶段:1) 全局场景理解和对象检测,2) 理性分析和错误过滤,3) 针对性错误纠正。在第一阶段,视觉代理(如YOLO)生成对象检测结果,同时语言代理(MLLM)生成场景描述。第二阶段,语言代理评估检测结果的合理性,并标记错误检测。第三阶段,分类视觉代理对错误检测进行纠正,确保最终检测结果的准确性和上下文一致性。
➡️ 实验设计:研究团队在COCO数据集上进行了实验,评估了VLA框架与多种对象检测模型(如Faster R-CNN、YOLOX、YOLOv11、DETR、DINO)的集成效果。实验指标包括平均精度(mAP)及其子指标(AP50:95、AP50、AP75、APs、APm、APl),以及错误标签的纠正率。实验结果表明,VLA框架在所有模型上均显著提升了检测性能,特别是在AP50:95指标上,最高提升了3%。

Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization

➡️ 论文标题:Mitigating Hallucination in Multimodal Large Language Model via Hallucination-targeted Direct Preference Optimization
➡️ 论文作者:Yuhan Fu, Ruobing Xie, Xingwu Sun, Zhanhui Kang, Xirong Li
➡️ 研究机构: 中国人民大学、腾讯机器学习平台部
➡️ 问题背景:多模态大语言模型(MLLMs)在多种任务中表现出色,但它们容易产生幻觉,这限制了其在实际应用中的可靠性,尤其是在关键任务如自动驾驶和医疗任务中。现有的缓解方法虽然取得了一定成效,但未能在所有类型的幻觉任务中实现一致的改进。
➡️ 研究动机:为了更有效地解决MLLMs的幻觉问题,研究团队提出了一种新的方法——幻觉针对性直接偏好优化(HDPO),旨在从视觉能力不足、长上下文生成困难和多模态冲突三个方面全面解决幻觉问题。
➡️ 方法简介:研究团队通过构建三种类型的偏好对数据,针对不同的幻觉原因设计了具体的策略。具体包括:1) 对于视觉能力不足,通过保留注意力得分最低的视觉标记来生成负面样本,促使模型关注更有效的视觉信息;2) 对于长上下文生成困难,通过截断长文本的后两句话并引导模型继续生成,模拟长文本幻觉;3) 对于多模态冲突,通过在提示中加入与图像内容冲突的信息来生成负面样本,训练模型在面对冲突信息时仍能正确响应。
➡️ 实验设计:研究团队在多个数据集上进行了实验,包括CHAIR、POPE和AMBER,评估了模型在不同任务中的表现。实验结果表明,HDPO在减少幻觉方面表现出色,超越了大多数现有方法。此外,消融研究和深入分析进一步验证了方法的有效性,并指出了通过扩大规模进一步改进的潜力。

Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization

➡️ 论文标题:Enhancing the Reasoning Ability of Multimodal Large Language Models via Mixed Preference Optimization
➡️ 论文作者:Weiyun Wang, Zhe Chen, Wenhai Wang, Yue Cao, Yangzhou Liu, Zhangwei Gao, Jinguo Zhu, Xizhou Zhu, Lewei Lu, Yu Qiao, Jifeng Dai
➡️ 研究机构: OpenGVLab (Shanghai AI Laboratory)、Fudan University、Nanjing University、The Chinese University of Hong Kong、Tsinghua University、SenseTime Research
➡️ 问题背景:现有的开源多模态大语言模型(MLLMs)通常采用预训练和监督微调(SFT)的训练流程。然而,这些模型在多模态推理方面,尤其是在链式思维(Chain-of-Thought, CoT)任务中,表现受限。研究发现,SFT损失引入的分布偏移是导致这一问题的主要原因。具体来说,SFT依赖于教师强制(teacher forcing),即模型基于先前的真实标记进行预测,而在推理阶段,模型必须基于自身先前的输出进行预测,这导致了训练和推理之间的分布偏移。这种偏移在CoT推理中尤为严重,因为CoT推理涉及生成较长的推理过程,而直接回答只需简短的响应。
➡️ 研究动机:为了克服MLLMs在CoT推理中的局限性,研究团队从最近的自然语言处理(NLP)方法中汲取灵感,这些方法使用偏好优化(PO)技术来使模型输出与期望的推理模式对齐。尽管PO技术在减少幻觉方面已有所应用,但在增强多模态推理能力方面仍处于探索阶段。因此,本研究旨在系统地探讨如何利用PO技术来增强MLLMs的多模态推理能力。
➡️ 方法简介:研究团队从数据和模型两个方面提出了解决方案。在数据方面,设计了一个自动化的偏好数据构建管道,创建了MMPR,一个高质量、大规模的多模态推理偏好数据集。在模型方面,探索了多种PO方法,并提出了一种简单而有效的方法——混合偏好优化(MPO),该方法通过结合偏好损失、质量损失和生成损失来提升多模态CoT推理性能,无需奖励模型。
➡️ 实验设计:研究团队在多个基准数据集上进行了实验,包括多模态推理任务和幻觉减少任务。实验设计了不同的数据生成方法,如Dropout Next Token Prediction (DropoutNTP) 和基于正确性的管道,以评估模型在不同条件下的表现。实验结果表明,MPO方法显著提升了模型的多模态推理能力,尤其是在MathVista基准上,InternVL2-8B-MPO模型的准确率达到了67.0%,比基线模型InternVL2-8B提高了8.7个百分点,性能接近10倍大的InternVL2-76B模型。


网站公告

今日签到

点亮在社区的每一天
去签到