图像分类(Image Classification)
模型名 |
特点 |
备注 |
ConvNeXt V2 |
卷积改进,媲美 Transformer |
强于 ResNet、EfficientNet |
Vision Transformer (ViT) |
全 Transformer 架构 |
开创图像 transformer 浪潮 |
Swin Transformer V2 |
局部注意力 + 金字塔结构 |
更强的多尺度能力 |
CoaT / CMT / EfficientFormer |
卷积+注意力结合 |
提高效率,兼顾性能 |
目标检测(Object Detection)
模型名 |
类型 |
特点 |
YOLOv8 |
单阶段 |
快速轻量,工业实用 |
RT-DETR |
Transformer |
实时 DETR,端到端快 |
DINO |
Transformer |
DETR 系列最强,效果极佳 |
Sparse R-CNN |
Region-based |
不用 anchor,更精炼 |
Deformable DETR |
Transformer + 可变卷积 |
提高收敛速度 |
实例分割(Instance Segmentation)
模型名 |
基础架构 |
特点 |
Mask R-CNN |
Faster R-CNN + mask head |
经久不衰的经典方案 |
SOLOv2 / YOLACT |
单阶段 |
实时分割方案 |
Mask2Former |
Transformer + 全任务统一 |
分割任务通吃(语义/实例/全景) |
语义分割(Semantic Segmentation)
模型名 |
特点 |
数据集 |
SegFormer |
高效的 transformer 分割 |
Cityscapes, ADE20K |
HRNet |
高分辨率保持 |
多尺度信息并行 |
DeepLabv3+ |
空洞卷积 |
曾是标准方法 |
Mask2Former |
通用分割架构 |
适配所有分割类型 |
视频理解(Video Understanding)
模型名 |
任务 |
特点 |
VideoMAE |
视频分类 |
自监督预训练,表现强 |
TimeSFormer |
Transformer |
分离时空 attention |
SlowFast |
动作识别 |
快慢路径建模动作变化 |
多模态视觉(Vision + Language)
模型名 |
类型 |
特点 |
BLIP / BLIP-2 |
图文生成/理解 |
支持图像描述、VQA、跨模态检索 |
OFA |
One-For-All |
统一多模态任务 |
GIT |
图文 Transformer |
图像 → 文本,轻量高效 |
MiniGPT-4 / LLaVA |
类 GPT-4V |
图文对话,基于视觉 encoder + LLM |
自动驾驶/3D 检测(3D Detection / Perception)
模型名 |
特点 |
数据集 |
BEVFormer |
bird’s-eye-view Transformer |
NuScenes, Waymo |
PointRCNN |
基于点云的 R-CNN |
KITTI |
PV-RCNN |
高效的两阶段点云检测 |
3D 识别 SOTA 多次 |
CenterPoint |
anchor-free + center-based |
快速稳定 |
视觉基础模型(视觉大模型,VLM)
模型名 |
类型 |
特点 |
CLIP |
图文对齐 |
开创多模态预训练 |
DINOv2 |
视觉表示学习 |
强大的通用视觉表征 |
SAM (Segment Anything) |
万能分割器 |
Promptable 分割范式 |
SEEM |
Everything Model |
多模态提示泛化分割 |
Florence / BEiT-3 |
微软大模型 |
文本图像联合建模 |
文本分类 / 情感分析(Text Classification / Sentiment Analysis)
模型 |
特点 |
常用数据集 |
RoBERTa |
BERT 的优化版,泛化更强 |
SST-2, AGNews |
DeBERTa V3 |
解耦注意力,表现顶级 |
GLUE, IMDb |
ERNIE 3.0 |
知识增强预训练 |
中文任务强 |
ELECTRA |
GAN 式训练,高效收敛 |
- |
文本生成(Text Generation)
模型 |
特点 |
应用方向 |
GPT-4 |
多模态,推理能力强 |
通用文本生成 |
LLaMA 2 |
开源强模型,适合微调 |
Chat、创作等 |
GLM-4 |
中英文表现均衡,开放模型 |
中英生成、对话 |
T5 / FLAN-T5 |
任务统一建模 |
可调教生成模型 |
阅读理解 / 问答(Reading Comprehension / QA)
模型 |
特点 |
数据集 |
UnifiedQA |
多任务问答统一架构 |
SQuAD, HotpotQA |
Macaw |
开放域 QA |
可解答常识、多步问题 |
GPT 系列 + Retrieval |
检索增强生成 |
RAG, WebQA 等 |
ChatGPT (GPT-3.5/4) |
多轮推理能力 |
多任务泛化强 |
语言建模 / 通用 LLM
模型 |
说明 |
GPT-4 / ChatGPT |
多任务通用模型,表现全面 |
Claude 3 |
强推理与安全性兼顾 |
Gemini |
Google 的多模态旗舰 |
LLaMA 2 |
高性价比开源 LLM |
GLM 系列 |
中文支持强,开源友好 |
Mistral / Mixtral |
小模型高性能,MoE 架构代表 |
文本摘要(Summarization)
模型 |
特点 |
任务类型 |
PEGASUS |
预训练专为摘要设计 |
abstractive summarization |
BART / mBART |
编码解码 + 噪声建模 |
多语言支持强 |
T5 / FLAN-T5 |
任务统一建模 |
任意格式摘要 |
ChatGPT / GPT-4 |
长文摘要能力优秀 |
长文+结构保持 |
信息抽取(NER / RE / Event Extraction)
模型 |
特点 |
BERT-MRC / UIE(统一信息抽取) |
提示式信息抽取(统一问答框架) |
LayoutLMv3 |
文档抽取 + 视觉增强 |
DyGIE++ |
实体 + 关系 + 事件联合抽取 |
ChatGLM + Prompt |
用于小样本 Prompt NER |
机器翻译(Machine Translation)
模型 |
特点 |
来源 |
mBART / mT5 |
多语言预训练 |
Facebook / Google |
NLLB-200 |
支持 200 多种语言 |
Meta |
DeepL + GPT-4 |
实用最强组合 |
商业翻译+润色 |
ChatGPT |
润色式翻译优于通用 NMT |
|
推理任务(自然语言推理 NLI / 多跳问答 / 多步推理)
模型 |
特点 |
数据集 |
DeBERTa / RoBERTa |
NLI 经典强者 |
MNLI |
GPT-4 |
多步链式推理能力强 |
Chain-of-Thought |
ReAct / CoT Prompting |
结合工具和思考的推理范式 |
HotpotQA, OpenBookQA |
多语言 NLP(Multilingual NLP)
模型 |
特点 |
mBERT / XLM-R |
多语言预训练的经典 |
mT5 / mBART50 |
多语言翻译 + NLU 支持 |
NLLB-200 |
特别适合低资源语言 |
视觉定位概览
过去几年,视觉定位领域从基于 DETR 的模块化检测-定位框架发展到大规模多模态预训练,再到结合大型语言模型的多粒度生成式方法。早期代表作 MDETR(2021)首次将检测与定位端到端统一;随后 GLIP(2021)通过语言——图像对齐预训练在 COCO 上取得 60.8 AP 的 SOTA 成绩;GLIPv2(2022)进一步拓展到实例分割与多任务跨模态理解。2023 年,Grounding DINO 在零样本检测与定位上刷新记录;2024 年底的 OneRef 与 HiVG 引入了生成式和层次化多模态策略;最新的Ferret(ICLR 2024)将定位能力嵌入到多模态 LLM,实现任意形状的开放词汇定位;甚至 3D 视觉定位领域也涌现出 SeeGround(2024 12)等零样本框架。
从基于 DETR 的端到端方法(如 MDETR)➔区域–短语对齐预训练(如 GLIP/GLIPv2)➔零样本&开放词汇定位(GroundingDINO 及其 Pro 版本)➔生成式&统一框架(OneRef、Generative VLM)➔多模态大模型(Ferret、Kosmos-2)的融合应⽤。
1. 基于 DETR 的端到端定位模型
- MDETR (2021):首个将目标检测与自然语言定位统一在 DETR 框架下,通过多模态编码器-解码器端到端训练,实现对 RefCOCO 系列基准的领先表现。
- LightMDETR (2024):轻量化版本,P@1 在 RefCOCO(85.92%)与 RefCOCOg(80.97%)上略超原始 MDETR,验证了“低成本”端到端方法的可行性
- Position-guided Text Prompt:在预训练阶段通过“分块+填空”机制强化图文位置对齐,有效提升下游定位精度。
- RefFormer(NIPS 2024):通过“查询适配(Referential Query)”模块,将 CLIP 作为背靠骨干,生成初始查询以减轻多模态解码难度,在五个视觉定位基准上超越此前 SOTA。
2. 区域—短语对齐预训练
- GLIP (CVPR 2022):Grounded Language-Image Pre-training 模型,统一目标检测与短语定位预训练,实现 60.8 AP on COCO val,并展现强zero-shot、few-shot 能力。
- GLIPv2 (2022):在 GLIP 基础上,增加实例分割与多任务理解,统一 Localization 与 Vision–Language Pre-training,使单一模型同时达到检测、分割与定位的 SOTA 水平。
- CLIP-VG (TMM 2023):利用 CLIP 生成伪语言标签并自适应课程学习,在 RefCOCO/+/g 上的全/弱监督与无监督场景均刷新了当时记录。
3. 零样本与开放词汇定位
- GroundingDINO (ECCV 2024):将 DINO 检测器与 grounded pre-training 结合,实现开放词汇检测与定位的零样本 SOTA,在 COCO、LVIS 及 ODinW 等基准上表现优异。
- GroundingDINO 1.6 Pro (2025 Q1):对 1.5 版本进一步优化,尤其是在 LVIS “rare” 类的零样本迁移上取得更大提升。
- Florence-2-large-ft:在 Papers With Code Leaderboard 上,Florence-2-large-ft 在 RefCOCO+、RefCOCO、RefCOCOg 多个拆分上均居榜首。
4. 生成式统一与层次化多模态策略
- OneRef (NeurIPS 2024):通过生成式定位机制,实现端到端从文本到检测框的“一步到位” Referring Expression Comprehension,通过 Mask Referring Modeling(MRefM)在 RefCOCOg/Flickr30K 上刷新记录。
- Learning Visual Grounding from Generative VLM (Jul 2024):利用大规模生成式 VLM 自动构建 1M+ 对应表达的 Grounding 数据集,零样本迁移到 RefCOCO 系列便大幅超越人标方
- HiVG (ACM MM 2024):采用层次化多模态细粒度特征融合,进一步提升复杂表达式下的定位准确率。
5. 大型多模态语言模型融合
- Ferret (ICLR 2024):将混合离散坐标与连续特征的区域表示融合到 MLLM 中,支持任意形状、开放词汇的精细化视觉定位。
- Kosmos-2 (2023):通过 Markdown 链接式表达
[text span](bounding boxes)
,基于大规模 GrIT 语义-视觉对齐数据集训练,将定位能力内嵌到通用多模态 LLM,实现多任务跨模态理解与定位。
- BLIP-2 (2023):利用冻结的图像与语言模型,通过轻量级查询器桥接两者,实现低成本预训练并在包括定位在内的多项视觉-语言任务上刷新 SOTA。
6. 3D 场景定位
- SeeGround (2024 12):零样本 3D 视觉定位框架,将 2D 预训练 VLM 扩展至 3D 场景,通过多视角渲染与空间描述融合,超越弱监督和部分监督 SOTA。
视觉定位的 SOTA 模型已覆盖从端到端 DETR、区域–短语预训练、零样本开放词汇、生成式一体化,到多模态大模型等全栈技术路线。选型应根据下游需求(精度 vs. 效率、零/少样本、生成能力、LLM 集成)进行权衡。
模型名称 |
参数量 (B) |
RefCOCO (val / testA / testB) |
RefCOCO+ (val / testA / testB) |
RefCOCOg (val / test) |
KOSMOS-2 |
1.6 |
52.32 / 57.42 / 47.26 |
45.48 / 50.73 / 42.24 |
60.57 / 61.65 |
MDETR-R101 |
– |
86.75 / 89.58 / 81.41 |
79.52 / 84.09 / 70.62 |
81.64 / 80.89 |
NExT-Chat |
7 |
85.50 / 90.00 / 77.90 |
77.20 / 84.50 / 68.00 |
80.10 / 79.80 |
MDETR-ENB3 |
– |
87.51 / 90.40 / 82.67 |
81.13 / 85.52 / 72.96 |
83.35 / 83.31 |
Shikra |
7 |
87.01 / 90.61 / 80.24 |
81.60 / 87.36 / 72.12 |
82.27 / 82.19 |
Ferret |
7 |
87.49 / 91.35 / 82.45 |
80.78 / 87.38 / 73.14 |
83.93 / 84.76 |
GroundingGPT |
7 |
88.02 / 91.55 / 82.47 |
81.61 / 87.18 / 73.18 |
81.67 / 81.99 |
PixelLLM |
4 |
89.80 / 92.20 / 86.40 |
83.20 / 87.00 / 78.90 |
84.60 / 86.00 |
SimVG-DB-Base |
0.18 |
91.47 / 93.65 / 87.94 |
84.83 / 88.85 / 79.12 |
86.30 / 87.26 |
COMM-7B |
7 |
91.73 / 94.06 / 88.85 |
87.21 / 91.74 / 81.39 |
87.32 / 88.33 |
SimVG-DB-Large |
0.61 |
92.87 / 94.35 / 89.46 |
87.28 / 91.64 / 82.41 |
87.99 / 89.15 |