CVPR 2025 | 优化SAM:高效无监督Prompt与偏好对齐驱动的半监督医学分割
论文信息
- 标题:Enhancing SAM with Efficient Prompting and Preference Optimization for Semi-supervised Medical Image Segmentation
- 作者:Aishik Konwer, Zhijian Yang, Erhan Bas, Cao Xiao, Prateek Prasanna, Parminder Bhatia, Taha Kass-Hout
- 单位:Stony Brook University, GE Healthcare
- 会议:CVPR 2025
背景简介
Segment Anything Model(SAM)等基础模型已成为医学图像分割的重要工具,但仍依赖大量人工标注或专家prompt,难以充分利用无标注大数据,且人工成本高昂。现有自监督/弱监督提升方案要么仅用于训练伪标签,要么缺乏高效的偏好对齐,仍未实现真正低标注、高性能的自动化医学分割。
创新方法
高效无监督Prompt生成
- 融合BiomedCLIP、MedVInT(VQA)、GPT-4等多模态大模型,自动生成融合语义、定位、形状等关键信息的bounding box和文本prompt,无需人工参与。
- 视觉prompt基于CLIP生成显著性图+CRF优化,提取目标区域坐标;文本prompt融合疾病/器官通用描述和VQA输出。
偏好对齐的直接优化(Direct Preference Optimization, DPO)
- 训练初期用少量标注数据微调prompt模块,后续在无标注数据上,通过“虚拟标注员”对多组掩码候选进行评分/排序,直接优化模型对偏好分割的正确性,无需显式reward建模或真实人工反馈。
- DPO损失函数可自动奖励高分候选,惩罚低分候选,实现端到端半监督优化。
方法流程
- 阶段一(Prompt微调):用10%有标注数据,联合视觉(BiomedCLIP)+文本(MedVInT+GPT-4)prompt指导SAM-Med2D主干微调。
- 阶段二(偏好对齐训练):剩余无标注数据,自动生成多组分割候选,用IoU分数(与真实掩码对比模拟虚拟评分)分为4档,依照DPO损失优化模型,使其输出更贴合高评分分割。
- 端到端无需Reward模型:全流程无需人工反馈或reward函数训练,极简实现,高效易用。
主要实验与结果
- 数据集:涵盖胸部X光肺分割、乳腺超声肿瘤分割、Abdominal CT多器官分割,支持X-ray、US、CT等多模态。
- 少标注强性能:仅用10-20%标注数据,性能大幅优于U-Net、nnU-Net、SAM、SAM-Med2D、Self-prompt等SOTA方法,在20%数据下胸片Dice达到78.87,远超同类。
- 半监督优势明显:在50%数据量下,半监督DPO模型Dice可达89.68,接近全监督prompt-only模型(91.42)。
- 边界精度与泛化:分割边界更精细,肿瘤/肺/多器官实验中对小结构和难分割区域表现突出。
- 鲁棒性:评分噪声(虚拟评分误差)下性能损失极小,体现方法稳健性。
消融实验
- 各模块贡献明确:无监督prompt、VQA、GPT-4等模块叠加显著提升性能。
- 不同Preference策略:排名优于单独评分和“只优化最好”候选,且无监督数据越多,提升越大。
- 参数选择:DPO损失中的权重参数经实验证明最优为β1=1, β2=0.5。
总结与展望
本方法实现了面向半监督医学图像分割的高效无监督prompt+偏好对齐优化,极大降低对人工标注和专家干预的依赖,泛化性和实用性突出。未来可拓展至3D/时序医学影像、更多大模型prompt融合与真实用户偏好采集。
欢迎关注,获取更多CVPR 2025医学AI前沿论文解读!