1) 任务与标注
CV 名词 | 通俗解释 | NLP 对应 | 通俗解释 | 迁移要点 |
---|---|---|---|---|
图像分类 | 给整张图贴标签 | 文本分类 | 给整段文本贴标签 | 一样用交叉熵、准确率;注意类别不平衡用权重/分层采样 |
目标检测 | 找框+类别 | NER / 片段抽取 | 找文本里的“实体片段”+类别 | “框”→“字符区间”;mAP 的思想≈span 级 Precision/Recall |
语义分割 | 每像素一个类 | 序列标注(BIO) | 每个 token 一个类(B/I/O) | mIoU 的思想≈token 级 F1;边界错位=标注问题 |
实例分割 | 像素+实例区分 | 共指/指代消解 | 区分“同名不同实体”的出现 | 需要跨句上下文,长依赖明显 |
关键点/姿态 | 结构化点位 | 抽取结构化槽位 | 从文本抽“字段表” | 评测用 Slot-F1 |
检索/图文检索 | 给定查询找图 | 文本检索/RAG | 给定问题找段落 | Recall@k、nDCG;随后再生成回答 |
图像描述 | 生成一句话 | 文本生成 | 生成摘要/改写/答复 | 解码策略直接影响效果 |
2) 模型与套件
CV | 是什么 | NLP 对应 | 是什么 | 迁移要点 |
---|---|---|---|---|
ResNet/ConvNeXt/ViT | 主干网络 | Transformer(解码器为主) | 生成式主干 | 重点理解注意力、残差、LayerNorm |
timm | 预置模型/训练脚手架 | 🤗Transformers | 模型/分词器/训练器 | 用它做加载、微调、推理 |
MMDetection/MMSeg | 任务库 | TRL/PEFT + Datasets | 偏好训练/LoRA + 数据集 | 常用:transformers + peft + datasets |
预训练→微调 | 先学通用再下游 | 预训练 LM → 指令微调(SFT) | 一样的路线 | 低算力用 LoRA/QLoRA |
数据集格式 COCO | 统一标注 | 指令/对话 JSONL | 统一 I/O 模板 | 固定 {"instruction","input","output"} 模板 |
3) 损失与训练技巧
CV | NLP 对应 | 说明 |
---|---|---|
Cross Entropy | Cross Entropy(SFT) | 基本一样,只对输出 token 计损失 |
Focal Loss | 类别权重/重采样 | 文本长尾类用 class weight/分层采样 |
Smooth L1/GIoU | span 级 F1/EM | 片段抽取更关心是否命中与边界 |
SGD/AdamW + Cosine/Warmup | AdamW + Warmup(1–3%) | 超参迁移思路相同 |
AMP/DDP/EMA | AMP/DDP、梯度检查点 | 大模型需 grad checkpointing、accumulate steps |
4) 数据与增广
CV 增广 | NLP 增广(慎用) | 说明 |
---|---|---|
Flip/ColorJitter | 同义改写、模板改写 | 不破坏语义;少量高质 > 海量粗糙 |
MixUp/CutMix | 拼接/遮挡(span dropout) | 适度即可,避免语病 |
马赛克/多尺度 | 长度裁剪/滑窗 | 控制最大 token 长度,防 OOM |
数据清洗 | 去重/统一标点/去广告 | 防泄漏:同源文本不要跨 train/test |
5) 指标与评测
CV 指标 | 通俗解释 | NLP 指标 | 通俗解释 |
---|---|---|---|
Top-1/Top-5 | 分类命中率 | Accuracy/F1 | 文本分类命中 |
mAP(50:95) | 检测综合准确率 | NER/抽取的 Precision/Recall/F1 | 按片段命中算 |
mIoU | 像素重叠比 | Token F1 | token 级别的一致性 |
PR 曲线 | 阈值-效果曲线 | ROC/PR、阈值-效果 | 用于拒答/置信度 |
— | — | ROUGE/BLEU | 基于 n-gram 的生成相似 |
— | — | BERTScore/BLEURT | 语义相似度 |
— | — | 偏好胜率 / LLM-as-judge | 开放生成时的人机/机机对比 |
6) 推理与部署
CV | NLP 对应 | 说明 |
---|---|---|
ONNX/TensorRT | ONNX/TensorRT/vLLM | 导出与加速思路一致 |
量化 INT8/4 | 量化 INT8/4 + KV Cache | 量化后做质量回归 |
NMS/阈值 | 解码约束/拒答阈值 | no_repeat_ngram_size 、repetition_penalty 、最低相关度阈值 |
多线程/流水线 | 批处理/流式输出 | 流式能提升交互体验 |
7) 推理解码 = NLP 的新开关(CV 没有)
名词 | 做什么 | 推荐起点 |
---|---|---|
Temperature | 随机性 | 准确型 0.2–0.3;创意型 0.8–1.0 |
Top-p(核采样) | 取概率前 p 的词 | 0.9 常用 |
Beam Search | 多路径贪心 | 3–5;注意易模板化 |
长度/复读惩罚 | 防啰嗦/重复 | length_penalty≈1.0 、repetition_penalty 1.1–1.2 |
8) cv与nlp建模对照
流程阶段 | CV(分类/检测/分割为例) | NLP(分类/生成/抽取为例) | 关键差异 |
---|---|---|---|
导库 | torch / timm / torchvision / albumentations ;(检测/分割用 MMDet/MMSeg) |
transformers / datasets / peft (LoRA) / accelerate |
NLP 多了 tokenizer 与 解码 |
数据清洗 | 去重、坏图过滤、统一尺寸/色彩空间、按“主体/视频”分层切分 | 去重、统一标点/空白、表情/广告清理、按来源分层切分(防泄漏) | 文本需来源隔离更严格 |
预处理 | Resize/Normalize、数据增强(MixUp/CutMix/Mosaic) | 分词 tokenization、截断/填充、模板化指令 | 文本长度直接影响显存 |
搭网络 | timm.create_model('resnet50') ;或 MMDet/MMSeg 配置化 |
AutoModel… (分类/抽取)或 AutoModelForCausalLM (生成);LoRA/QLoRA |
生成任务多用 Decoder-only Transformer |
损失/优化 | CE/Focal、Dice/IoU;SGD/AdamW + Cosine + warmup |
交叉熵(SFT)、(可选)DPO/SimPO;AdamW + warmup ,LoRA lr 较高 |
生成只对输出 token计损失 |
训练细节 | AMP、DDP、EMA、梯度裁剪 | AMP、DDP、梯度检查点、梯度累积、LoRA | LLM 常需 梯度检查点 |
评价指标 | Top-1/Top-5、mAP(50:95)、mIoU、PR 曲线 | 分类 Acc/F1;抽取 span-F1;生成 ROUGE/BERTScore/偏好胜率 + 小样人审 | 生成需人工小样辅证 |
推理/输出 | ONNX/TensorRT、NMS 阈值、可视化框/掩码 | 解码参数(temperature/top-p/beam)、INT8/4 + KV cache、流式输出 | NLP 的“解码 preset”很关键 |
产出物 | 指标表、混淆矩阵、可视化图、部署引擎 | 指标表、示例生成对照、失败类型卡、推理解码 preset、数据卡 | 两边都要数据卡/复现实验脚本 |