CV与NLP的一些对比

发布于:2025-08-06 ⋅ 阅读:(20) ⋅ 点赞:(0)

1) 任务与标注

CV 名词 通俗解释 NLP 对应 通俗解释 迁移要点
图像分类 给整张图贴标签 文本分类 给整段文本贴标签 一样用交叉熵、准确率;注意类别不平衡用权重/分层采样
目标检测 找框+类别 NER / 片段抽取 找文本里的“实体片段”+类别 “框”→“字符区间”;mAP 的思想≈span 级 Precision/Recall
语义分割 每像素一个类 序列标注(BIO) 每个 token 一个类(B/I/O) mIoU 的思想≈token 级 F1;边界错位=标注问题
实例分割 像素+实例区分 共指/指代消解 区分“同名不同实体”的出现 需要跨句上下文,长依赖明显
关键点/姿态 结构化点位 抽取结构化槽位 从文本抽“字段表” 评测用 Slot-F1
检索/图文检索 给定查询找图 文本检索/RAG 给定问题找段落 Recall@k、nDCG;随后再生成回答
图像描述 生成一句话 文本生成 生成摘要/改写/答复 解码策略直接影响效果

2) 模型与套件

CV 是什么 NLP 对应 是什么 迁移要点
ResNet/ConvNeXt/ViT 主干网络 Transformer(解码器为主) 生成式主干 重点理解注意力、残差、LayerNorm
timm 预置模型/训练脚手架 🤗Transformers 模型/分词器/训练器 用它做加载、微调、推理
MMDetection/MMSeg 任务库 TRL/PEFT + Datasets 偏好训练/LoRA + 数据集 常用:transformers + peft + datasets
预训练→微调 先学通用再下游 预训练 LM → 指令微调(SFT) 一样的路线 低算力用 LoRA/QLoRA
数据集格式 COCO 统一标注 指令/对话 JSONL 统一 I/O 模板 固定 {"instruction","input","output"} 模板

3) 损失与训练技巧

CV NLP 对应 说明
Cross Entropy Cross Entropy(SFT) 基本一样,只对输出 token 计损失
Focal Loss 类别权重/重采样 文本长尾类用 class weight/分层采样
Smooth L1/GIoU span 级 F1/EM 片段抽取更关心是否命中与边界
SGD/AdamW + Cosine/Warmup AdamW + Warmup(1–3%) 超参迁移思路相同
AMP/DDP/EMA AMP/DDP、梯度检查点 大模型需 grad checkpointing、accumulate steps

4) 数据与增广

CV 增广 NLP 增广(慎用) 说明
Flip/ColorJitter 同义改写、模板改写 不破坏语义;少量高质 > 海量粗糙
MixUp/CutMix 拼接/遮挡(span dropout) 适度即可,避免语病
马赛克/多尺度 长度裁剪/滑窗 控制最大 token 长度,防 OOM
数据清洗 去重/统一标点/去广告 防泄漏:同源文本不要跨 train/test

5) 指标与评测

CV 指标 通俗解释 NLP 指标 通俗解释
Top-1/Top-5 分类命中率 Accuracy/F1 文本分类命中
mAP(50:95) 检测综合准确率 NER/抽取的 Precision/Recall/F1 按片段命中算
mIoU 像素重叠比 Token F1 token 级别的一致性
PR 曲线 阈值-效果曲线 ROC/PR、阈值-效果 用于拒答/置信度
ROUGE/BLEU 基于 n-gram 的生成相似
BERTScore/BLEURT 语义相似度
偏好胜率 / LLM-as-judge 开放生成时的人机/机机对比

6) 推理与部署

CV NLP 对应 说明
ONNX/TensorRT ONNX/TensorRT/vLLM 导出与加速思路一致
量化 INT8/4 量化 INT8/4 + KV Cache 量化后做质量回归
NMS/阈值 解码约束/拒答阈值 no_repeat_ngram_sizerepetition_penalty、最低相关度阈值
多线程/流水线 批处理/流式输出 流式能提升交互体验

7) 推理解码 = NLP 的新开关(CV 没有)

名词 做什么 推荐起点
Temperature 随机性 准确型 0.2–0.3;创意型 0.8–1.0
Top-p(核采样) 取概率前 p 的词 0.9 常用
Beam Search 多路径贪心 3–5;注意易模板化
长度/复读惩罚 防啰嗦/重复 length_penalty≈1.0repetition_penalty 1.1–1.2

8) cv与nlp建模对照

流程阶段 CV(分类/检测/分割为例) NLP(分类/生成/抽取为例) 关键差异
导库 torch / timm / torchvision / albumentations;(检测/分割用 MMDet/MMSeg) transformers / datasets / peft (LoRA) / accelerate NLP 多了 tokenizer解码
数据清洗 去重、坏图过滤、统一尺寸/色彩空间、按“主体/视频”分层切分 去重、统一标点/空白、表情/广告清理、按来源分层切分(防泄漏) 文本需来源隔离更严格
预处理 Resize/Normalize、数据增强(MixUp/CutMix/Mosaic) 分词 tokenization、截断/填充、模板化指令 文本长度直接影响显存
搭网络 timm.create_model('resnet50');或 MMDet/MMSeg 配置化 AutoModel…(分类/抽取)或 AutoModelForCausalLM(生成);LoRA/QLoRA 生成任务多用 Decoder-only Transformer
损失/优化 CE/Focal、Dice/IoU;SGD/AdamW + Cosine + warmup 交叉熵(SFT)、(可选)DPO/SimPO;AdamW + warmup,LoRA lr 较高 生成只对输出 token计损失
训练细节 AMP、DDP、EMA、梯度裁剪 AMP、DDP、梯度检查点、梯度累积、LoRA LLM 常需 梯度检查点
评价指标 Top-1/Top-5、mAP(50:95)、mIoU、PR 曲线 分类 Acc/F1;抽取 span-F1;生成 ROUGE/BERTScore/偏好胜率 + 小样人审 生成需人工小样辅证
推理/输出 ONNX/TensorRT、NMS 阈值、可视化框/掩码 解码参数(temperature/top-p/beam)、INT8/4 + KV cache、流式输出 NLP 的“解码 preset”很关键
产出物 指标表、混淆矩阵、可视化图、部署引擎 指标表、示例生成对照、失败类型卡、推理解码 preset、数据卡 两边都要数据卡/复现实验脚本


网站公告

今日签到

点亮在社区的每一天
去签到