CV与NLP的一些对比

发布于：2025-08-06 ⋅ 阅读:(20) ⋅ 点赞:(0)

1) 任务与标注

CV 名词	通俗解释	NLP 对应	通俗解释	迁移要点
图像分类	给整张图贴标签	文本分类	给整段文本贴标签	一样用交叉熵、准确率；注意类别不平衡用权重/分层采样
目标检测	找框+类别	NER / 片段抽取	找文本里的“实体片段”+类别	“框”→“字符区间”；mAP 的思想≈span 级 Precision/Recall
语义分割	每像素一个类	序列标注（BIO）	每个 token 一个类（B/I/O）	mIoU 的思想≈token 级 F1；边界错位=标注问题
实例分割	像素+实例区分	共指/指代消解	区分“同名不同实体”的出现	需要跨句上下文，长依赖明显
关键点/姿态	结构化点位	抽取结构化槽位	从文本抽“字段表”	评测用 Slot-F1
检索/图文检索	给定查询找图	文本检索/RAG	给定问题找段落	Recall@k、nDCG；随后再生成回答
图像描述	生成一句话	文本生成	生成摘要/改写/答复	解码策略直接影响效果

2) 模型与套件

CV	是什么	NLP 对应	是什么	迁移要点
ResNet/ConvNeXt/ViT	主干网络	Transformer（解码器为主）	生成式主干	重点理解注意力、残差、LayerNorm
timm	预置模型/训练脚手架	🤗Transformers	模型/分词器/训练器	用它做加载、微调、推理
MMDetection/MMSeg	任务库	TRL/PEFT + Datasets	偏好训练/LoRA + 数据集	常用：`transformers + peft + datasets`
预训练→微调	先学通用再下游	预训练 LM → 指令微调（SFT）	一样的路线	低算力用 LoRA/QLoRA
数据集格式 COCO	统一标注	指令/对话 JSONL	统一 I/O 模板	固定 `{"instruction","input","output"}` 模板

3) 损失与训练技巧

CV	NLP 对应	说明
Cross Entropy	Cross Entropy（SFT）	基本一样，只对输出 token 计损失
Focal Loss	类别权重/重采样	文本长尾类用 class weight/分层采样
Smooth L1/GIoU	span 级 F1/EM	片段抽取更关心是否命中与边界
SGD/AdamW + Cosine/Warmup	AdamW + Warmup（1–3%）	超参迁移思路相同
AMP/DDP/EMA	AMP/DDP、梯度检查点	大模型需 grad checkpointing、accumulate steps

4) 数据与增广

CV 增广	NLP 增广（慎用）	说明
Flip/ColorJitter	同义改写、模板改写	不破坏语义；少量高质 > 海量粗糙
MixUp/CutMix	拼接/遮挡（span dropout）	适度即可，避免语病
马赛克/多尺度	长度裁剪/滑窗	控制最大 token 长度，防 OOM
数据清洗	去重/统一标点/去广告	防泄漏：同源文本不要跨 train/test

5) 指标与评测

CV 指标	通俗解释	NLP 指标	通俗解释
Top-1/Top-5	分类命中率	Accuracy/F1	文本分类命中
mAP(50:95)	检测综合准确率	NER/抽取的 Precision/Recall/F1	按片段命中算
mIoU	像素重叠比	Token F1	token 级别的一致性
PR 曲线	阈值-效果曲线	ROC/PR、阈值-效果	用于拒答/置信度
—	—	ROUGE/BLEU	基于 n-gram 的生成相似
—	—	BERTScore/BLEURT	语义相似度
—	—	偏好胜率 / LLM-as-judge	开放生成时的人机/机机对比

6) 推理与部署

CV	NLP 对应	说明
ONNX/TensorRT	ONNX/TensorRT/vLLM	导出与加速思路一致
量化 INT8/4	量化 INT8/4 + KV Cache	量化后做质量回归
NMS/阈值	解码约束/拒答阈值	`no_repeat_ngram_size`、`repetition_penalty`、最低相关度阈值
多线程/流水线	批处理/流式输出	流式能提升交互体验

7) 推理解码 = NLP 的新开关（CV 没有）

名词	做什么	推荐起点
Temperature	随机性	准确型 0.2–0.3；创意型 0.8–1.0
Top-p（核采样）	取概率前 p 的词	0.9 常用
Beam Search	多路径贪心	3–5；注意易模板化
长度/复读惩罚	防啰嗦/重复	`length_penalty≈1.0`、`repetition_penalty 1.1–1.2`

8) cv与nlp建模对照

流程阶段	CV（分类/检测/分割为例）	NLP（分类/生成/抽取为例）	关键差异
导库	`torch / timm / torchvision / albumentations`；(检测/分割用 MMDet/MMSeg)	`transformers / datasets / peft (LoRA) / accelerate`	NLP 多了 tokenizer 与解码
数据清洗	去重、坏图过滤、统一尺寸/色彩空间、按“主体/视频”分层切分	去重、统一标点/空白、表情/广告清理、按来源分层切分（防泄漏）	文本需来源隔离更严格
预处理	Resize/Normalize、数据增强(MixUp/CutMix/Mosaic)	分词 tokenization、截断/填充、模板化指令	文本长度直接影响显存
搭网络	`timm.create_model('resnet50')`；或 MMDet/MMSeg 配置化	`AutoModel…`（分类/抽取）或 `AutoModelForCausalLM`（生成）；LoRA/QLoRA	生成任务多用 Decoder-only Transformer
损失/优化	CE/Focal、Dice/IoU；`SGD/AdamW + Cosine + warmup`	交叉熵（SFT）、（可选）DPO/SimPO；`AdamW + warmup`，LoRA lr 较高	生成只对输出 token计损失
训练细节	AMP、DDP、EMA、梯度裁剪	AMP、DDP、梯度检查点、梯度累积、LoRA	LLM 常需梯度检查点
评价指标	Top-1/Top-5、mAP(50:95)、mIoU、PR 曲线	分类 Acc/F1；抽取 span-F1；生成 ROUGE/BERTScore/偏好胜率 + 小样人审	生成需人工小样辅证
推理/输出	ONNX/TensorRT、NMS 阈值、可视化框/掩码	解码参数（temperature/top-p/beam）、INT8/4 + KV cache、流式输出	NLP 的“解码 preset”很关键
产出物	指标表、混淆矩阵、可视化图、部署引擎	指标表、示例生成对照、失败类型卡、推理解码 preset、数据卡	两边都要数据卡/复现实验脚本