想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659
视觉提示技术在高效微调预训练视觉模型中展现出广泛潜力,但现有方法普遍忽视 token 间的功能差异,导致特征表达同质、判别能力受限。针对这一问题,北京大学联合华中科技大学、亚马逊公司提出了一种即插即用的 token 协同提示注意力(Token Coordinated Prompt Attention,TCPA)模块,通过为不同 token 动态匹配不同提示进行注意力交互,以 3% 的计算开销,提升高效微调方法对多样化鉴别性信息的提取能力。
图 1 展示了传统视觉提示方法(如 VPT)与 TCPA 在注意力分配上的差异。在传统方法中,由于所有 token 使用相同提示,导致不同 token 提取的特征缺乏多样性和完整性。而 TCPA 通过为不同 token 选择相应的提示并进行注意力交互,显著提升了提取信息的多样性和区分能力。这种差异清晰地表明,TCPA 能够更好地利用不同 token 的独特功能,从而提高模型的表示能力。
论文链接:
https://arxiv.org/abs/2505.02406
代码链接:
https://github.com/zhoujiahuan1991/ICML2025-TCPA
TCPA 模块的设计与实现
TCPA 通过为不同 token 分配针对性的协同提示,实现更精细的基于注意力的交互,使每个提示都能在判别性与完整性信息的提取中发挥作用。
图 2 为 TCPA 的整体架构,揭示了其工作机制。对于每个输入样本,首先通过嵌入层获取每个图像块的嵌入向量。随后,CLS 和图像 token 会从对应的 CLS 提示池和图像提示池中自适应地选择合适的提示,并生成一个二进制掩码。该掩码被输入到注意力模块中,用于屏蔽注意力图中的某些值,从而实现不同 token 与不同提示之间的注意力交互。这一架构设计确保了每个 token 都能根据其特定功能和所含信息,与最合适的提示进行交互,进而提升特征提取的精准度和多样性。
CLS 和 Image Token 间的协同注意力
考虑到 CLS token 用于聚合全局信息,而图像 token 侧重于局部特征提取,TCPA 设计了专门对应 CLS token 和图像 token 的 CLS 提示与图像提示,并在 Transformer 的注意力模块中分别与其独立交互,从而提升所提取特征的判别能力。通过这种方式,CLS token 和图像 token 能够更好地发挥各自的功能,分别专注于全局信息的聚合和局部特征的提取。
不同 Image Token 间的协同注意力
由于不同图像 token 对应的图像区域各异、所需提取的信息不同,TCPA 进一步将 CLS 提示与图像提示分别扩展为 CLS 提示池和图像提示池,每个池中包含多个提示。系统可为每个 token 自动分配最合适的协同提示,进而提升特征中的判别信息多样性。这种设计使得不同图像 token 能够根据其对应的图像区域和所需提取的信息,动态地选择最合适的提示进行注意力交互,从而增强了模型对多样化鉴别性信息的提取能力。
图 3 呈现了传统视觉提示方法 VPT 和 TCPA 的 3D 及 2D 注意力图。从中可以看出,传统方法中不同提示的注意力区域高度相似,导致 CLS 和图像 token 提取的特征几乎相同。而 TCPA 则通过为不同 token 选择不同提示并进行注意力交互,促使模型提取出更为多样化和全面的鉴别性信息。这表明 TCPA 能够有效避免注意力机制的冗余和重复,使模型对图像中不同区域和特征的关注更加均衡和精准。
实验结果与分析
在 HTA 测试基准上的结果显示,在引入 TCPA 后,DAMVP 在十个数据集上的整体平均性能提升了 1.4%。类似的性能增益也在其他方法中得到验证:VP + TCPA 在十个数据集上提升 0.9% - 2.8%,VPT + TCPA 提升 0.2% - 2.2%,AutoVP + TCPA 提升 0.6% - 3.1%,VFPT + TCPA 也获得了 0.5% - 2.0% 的性能提升。这一效果主要得益于 TCPA 对 CLS token 与图像 token 在功能角色和注意力机制中差异的显式建模,使得提示的使用更加精细化,从而更充分地学习下游任务相关知识,并提升判别信息的提取能力,最终有效推动模型性能提升。
TCPA 的应用价值与未来展望
TCPA 具备以下几方面的重要应用价值:其一,轻量可插拔,部署友好,无需更改原有模型结构,能够灵活集成于主流视觉提示框架中,降低了实际部署成本;其二,资源友好,适合边缘设备,通过提升特征判别力、减少冗余交互,有效降低计算与存储开销,适合资源受限的设备与应用环境;其三,具备工程推广潜力,对已有提示方法进行增强,易于在工业界模型迁移与快速部署中落地实施。
面向未来,TCPA 模块在以下几个方向具有广阔的研究与拓展空间:其一,拓展至多模态任务,可进一步应用于图文匹配、视觉问答等跨模态场景,增强不同模态间的语义对齐;其二,融合参数高效化技术,探索与 LoRA、提示压缩等技术的结合,在保证性能的同时进一步减小模型体积;其三,向通用视觉学习拓展,未来可将该机制推广至开放域识别与增量学习任务,推动视觉提示学习朝着更智能、更高效的方向发展。