有哪些任务可以使用无监督的方式训练深度学习模型?

发布于:2025-09-08 ⋅ 阅读:(14) ⋅ 点赞:(0)

下面是一份按“任务 → 方法 → 神经网络结构 → 输入/输出 → 数据来源”展开的系统化整理。也把“自监督学习”纳入广义“无监督学习”(不依赖人工标签,标签由数据本身构造)来介绍,便于覆盖现代主流做法。希望对你选型和落地都有帮助 😊

快速术语提示

  • 无监督 vs 自监督:二者都不需要人工标注;自监督是无监督的一种,通过数据内在结构构造训练目标(如掩码重建、对比学习、预测下一个token)。
  • “输入来源”既包含公开数据集,也包含企业/项目中常见的无标签数据采集渠道。

总览(任务家族与代表方法)

任务家族 代表无监督/自监督方法 常见网络结构 主要输入/输出 常见数据来源
表征学习(视觉/文本/音频/时间序列/图) 对比学习(SimCLR/MoCo/BYOL/DINO/SimCSE/GRACE)、掩码建模(MAE/BEiT/BERT/wav2vec2/GraphMAE) CNN/ViT/Transformer、Siamese/双塔、GNN 输入原始样本或掩码版本;输出嵌入或被掩码部分 无标注图像、文本语料、音频、时间序列、图结构数据
生成建模 VAE、GAN(DCGAN/StyleGAN)、扩散模型(DDPM/LDM/UNet)、自回归(PixelCNN/WaveNet/GPT)、流模型(Glow/RealNVP) 编码器-解码器、生成器-判别器、UNet、Transformer、可逆网络 输入x或噪声z;输出重建x、生成x或噪声估计 大规模无标签图像/文本/音频/视频
聚类/分布估计/降维 DeepCluster、SwAV、DEC/IDEC、DGI、GAE/VGAE、Flow/EBM、Autoencoder CNN/ViT、GNN、AE/VAE、可逆流 输入x;输出聚类分配、低维嵌入或密度 同上(无需标签)
异常检测 AE/VAE重建误差、Deep SVDD、流模型密度阈值、CPC/TS2Vec特征偏离 AE/VAE、CNN/Transformer、Flow 输入正常样本;输出重建/密度/距离 传感器/日志/行为数据
时间序列建模 CPC、TS2Vec、TNC、Masked TS(MTM)、PatchTST预训练 CNN/Transformer/混合 输入序列窗口或掩码序列;输出未来/掩码值或嵌入 传感器、IoT、金融、运维
图与网络 DeepWalk/Node2Vec(+Skip-gram)、GraphSAGE(unsup)、DGI、GRACE、GAE/VGAE、GraphMAE GCN/GAT/GraphSAGE、对比/掩码 输入图结构与节点特征;输出节点/图嵌入或重建 社交/商品共现/知识图谱/OGB
多模态对齐 CLIP/ALIGN(图文对比)、FLAVA/BEiT-3(掩码多模态) 双塔编码器、跨模态Transformer 输入多模态对(图-文/视-音);输出对齐嵌入/掩码预测 网络抓取的配对数据(自然弱标签)
强化学习的无监督预训练 CURL、DrQ、World Models(PlaNet/Dreamer)、I-D预训练 编码器+对比头、世界模型(时序VAE/Transformer) 输入轨迹;输出潜在状态、重建/预测 代理与环境交互生成

一、哪些任务可以用无监督方式训练?

  • 学习通用表征(embedding):用于下游分类/检索/分割/实体识别/推荐。
  • 生成与合成:图像/文本/音频/视频的生成、修复、去噪、超分等。
  • 聚类、密度估计与异常检测:发现群组、评估样本罕见性、检测异常。
  • 降维与可视化:将高维数据映射到低维以便理解与可视化。
  • 时间序列建模:自监督预训练提升预测、异常检测与表示质量。
  • 图/网络分析:节点/边/子图表示学习、社区发现、链路预测。
  • 多模态对齐:图文、视听等跨模态语义对齐与检索。
  • 强化学习表征:无奖励或弱奖励场景下通过自监督提升策略学习。

二、这些任务分别可以使用哪些无监督训练方法(含结构、输入/输出、数据来源)

A. 计算机视觉(图像/视频)

  1. 表征学习
  • 对比学习:SimCLR、MoCo v2、BYOL、DINO/DINOv2、SwAV
    • 结构:Siamese/双塔编码器(ResNet/ViT)+ 投影MLP;MoCo含动量编码器与队列;SwAV含原型/聚类头。
    • 输入:同一图像的两种增强视图(随机裁剪、颜色抖动、翻转、遮挡)。
    • 输出:图像嵌入;训练用对比/聚类损失,不需标签。
    • 数据来源:无标签图像(ImageNet不看标签、OpenImages、LAION、COCO、Places365、公司图片库/相册/拍照/抓取图片)。
  • 掩码重建:MAE、BEiT、I-JEPA
    • 结构:ViT编码器只看未掩码patch;轻量解码器重建图像像素或视觉token;I-JEPA用预测嵌入而非像素。
    • 输入:随机掩码后的图像patch序列。
    • 输出:重建的像素/视觉token或目标区域嵌入。
    • 数据来源:同上。
  1. 生成建模
  • 扩散模型:DDPM/UNet、Latent Diffusion(LDM,Stable Diffusion背后的思路)
    • 结构:UNet噪声预测器 + 时间步嵌入;LDM在VAE潜空间上做扩散(更省算)。
    • 输入:加噪后的图像和时间步t(可无条件,也可加文本/类条件)。
    • 输出:噪声估计(或去噪后的样本);采样时逐步去噪生成图像。
    • 数据来源:无标签大规模图像(LAION、COCO、公司图库)。
  • GAN:DCGAN、StyleGAN2/3
    • 结构:生成器(反卷积/Style MLP注入风格)+ 判别器(CNN)。
    • 输入:随机噪声z;判别器输入为真/假图像。
    • 输出:生成的图像;判别器输出真伪概率。
    • 数据来源:同上。
  • VAE / Autoregressive(PixelCNN/PixelRNN)
    • 结构:VAE为编码器-解码器;PixelCNN为像素级自回归卷积。
    • 输入:图像x。
    • 输出:重建或逐像素条件分布。
    • 数据来源:同上。
  • 流模型:Glow、RealNVP
    • 结构:可逆耦合层,精确似然。
    • 输入/输出:x ↔ z一一可逆。
    • 数据来源:同上。
  1. 聚类与降维
  • DeepCluster / SwAV:交替k-means或在线原型分配作为伪标签进行训练。
    • 结构:CNN/ViT + 原型层/聚类步骤。
    • 输入:图像增强视图。
    • 输出:特征和聚类指派。
  • DEC/IDEC:先AE预训练,再用KL散度细化聚类中心。
    • 结构:Autoencoder + 聚类中心优化。
    • 输入:图像。
    • 输出:聚类分配。
  • 数据来源:无标签图像库。
  1. 异常检测
  • AE/VAE重建误差、流模型密度、Deep SVDD(最小化到超球中心的距离)
    • 结构:AE/VAE/CNN或ViT编码器;Flow;一类分类网络。
    • 输入:主要为正常样本。
    • 输出:重建误差/密度/距离作为异常分数。
    • 数据来源:生产线质检图、设备巡检图、监控图像等。

B. 自然语言处理(文本)

  1. 表征预训练与生成
  • 自回归语言模型:GPT系列
    • 结构:Transformer Decoder-only。
    • 输入:token序列(字/词/子词)。
    • 输出:下一token的概率分布;生成文本。
    • 数据来源:Wikipedia、BookCorpus、Common Crawl(C4/The Pile)、新闻/论坛/文档库(注意版权与合规)。
  • 掩码语言模型:BERT/roBERTa
    • 结构:Transformer Encoder-only。
    • 输入:掩码后的token序列。
    • 输出:被掩码token的分布。
    • 数据来源:同上。
  • 句向量(无监督):SimCSE(unsup)、ConSERT
    • 结构:Siamese Transformer + 投影头。
    • 输入:同一句通过dropout/增强得到的两个视图。
    • 输出:句向量;对比损失。
    • 数据来源:大规模句子/段落语料。
  1. 主题聚类/检索
  • 方法:BERT/SimCSE等嵌入 + k-means/HDBSCAN;或Top2Vec、BERTopic(无监督主题模型)。
    • 结构:Encoder + 聚类/主题建模。
    • 输入:文档/句子。
    • 输出:聚类标签/主题词。
    • 数据来源:企业文档库、客服工单、论坛/评论爬取。

C. 语音/音频

  1. 自监督表征
  • wav2vec 2.0、HuBERT、data2vec、CPC
    • 结构:CNN特征编码器 + Transformer上下文;量化器(w2v2),或伪标签聚类(HuBERT)。
    • 输入:原始波形(掩码时间步)。
    • 输出:被掩码位置的离散码/伪标签预测或对比目标。
    • 数据来源:LibriSpeech、LibriLight、VoxCeleb、CommonVoice、YouTube播客/有声书(合规抓取)。
  1. 生成与增强
  • WaveNet/HiFi-GAN、扩散音频模型(DiffWave)
    • 结构:自回归卷积/UNet扩散。
    • 输入:噪声或条件(谱、文本)。
    • 输出:波形或谱。
    • 数据来源:同上。

D. 时间序列(传感器/IoT/运维/金融)

  1. 表征与预测预训练
  • CPC、TS2Vec、TNC、Masked Time-Series Modeling、PatchTST预训练
    • 结构:CNN/Transformer/时序ViT + 对比/掩码任务。
    • 输入:时序片段、不同增广视图或掩码片段。
    • 输出:未来步/掩码值预测或时序嵌入。
    • 数据来源:设备传感器、工业控制、日志、KPI、交易数据;公开集:UCR/UEA、ETT、电力/交通数据等。
  1. 异常检测
  • AE/VAE/Flow重建与密度、One-Class(Deep SVDD)、对比方法(TS2Vec偏离)
    • 结构:与上类似。
    • 数据来源:NAB、Yahoo A1、NASA SMAP/MSL、SMD、服务器监控。

E. 图数据/网络与推荐

  1. 节点/图表征与聚类
  • DeepWalk/Node2Vec + Skip-gram(传统但强大)、GraphSAGE(unsup损失)、DGI/InfoGraph(互信息最大化)、GRACE/GCL(图对比)、GAE/VGAE(图自编码)、GraphMAE(掩码节点)
    • 结构:GNN(GCN/GAT/GraphSAGE)或随机游走 + 词向量。
    • 输入:图的邻接与节点特征;图增广(删边/扰动/掩码)。
    • 输出:节点/图嵌入、重建邻接或特征、对比相似度。
    • 数据来源:社交网络、知识图谱、商品共现图、日志构建的点击/会话图;公开OGB(ogbn-arxiv/products/papers100M)、Reddit。
  1. 链路预测与推荐预训练
  • GAE/VGAE重建边、对比学习增强鲁棒性;BPR是弱监督,纯无监督可用共现、序列自监督构造目标。
    • 结构:GNN或序列模型(SASRec式自监督)+ 对比目标。
    • 输入/输出:用户-物品图或序列;输出嵌入/重建边。
    • 数据来源:站内行为日志、交易/浏览/播放记录。

F. 多模态对齐(图文/视听)

  • 图文对比:CLIP、ALIGN
    • 结构:双塔编码器(图像CNN/ViT + 文本Transformer),InfoNCE对比。
    • 输入:成对的图像-文本(天然弱标签:同一网页中的图文对)。
    • 输出:跨模态对齐的嵌入空间。
    • 数据来源:LAION-5B/400M、CC12M、WIT、公司商品图-标题、稿件-配图(合规抓取/清洗)。
  • 多模态掩码建模:FLAVA、BEiT-3、data2vec-multimodal
    • 结构:单模态编码器 + 跨模态Transformer/对齐模块。
    • 输入:图像+文本(含掩码)。
    • 输出:掩码token/patch预测与跨模态一致性。
    • 数据来源:同上,外加视频-语音/字幕(HowTo100M等)。

G. 强化学习中的无监督/自监督表征

  • 对比与重建:CURL、DrQ-v2
    • 结构:视觉编码器 + 对比头;数据来自回放缓冲。
    • 输入:观测帧增广视图。
    • 输出:状态嵌入,相似视图对齐。
    • 数据来源:代理与环境交互数据(无奖励或弱奖励)。
  • 世界模型:PlaNet、Dreamer
    • 结构:编码器 + 潜在动态模型(RNN/Transformer)+ 解码器(时序VAE风格)。
    • 输入:观测序列(图像/状态)。
    • 输出:重建、预测下一个潜在状态/观测。
    • 数据来源:同上。

三、典型方法的“结构/输入/输出/来源”要点清单

  • Autoencoder(AE)
    • 结构:Encoder-Decoder(CNN/MLP/Transformer)。
    • 输入:x;输出:重建x。
    • 来源:任何无标签数据(图像/文本向量化/时序/图特征)。
  • Variational Autoencoder(VAE)
    • 结构:Encoder产生q(z|x)参数,重参数化采样,Decoder生成p(x|z)。
    • 输入:x;输出:重建x并学习潜变量z。
    • 来源:同上。
  • 对比学习(SimCLR/MoCo/GRACE/SimCSE)
    • 结构:Siamese编码器 + 投影头;可能有动量编码器/记忆队列。
    • 输入:同一实例的两种增广视图。
    • 输出:嵌入;最大化正样相似、最小化负样。
    • 来源:对应模态的无标签大数据。
  • 掩码建模(MAE/BERT/wav2vec2/GraphMAE)
    • 结构:编码器只看未掩码部分,解码器/预测头复原掩码区域。
    • 输入:掩码后的序列/patch/节点。
    • 输出:掩码内容预测。
    • 来源:同上。
  • GAN
    • 结构:生成器G、判别器D对抗训练。
    • 输入:G接噪声z,D接真/假样本。
    • 输出:生成样本与真伪判别。
    • 来源:无标签样本集合。
  • 扩散模型(DDPM/LDM)
    • 结构:UNet噪声预测器,时间嵌入;可在潜空间操作(LDM)。
    • 输入:加噪样本和时间步。
    • 输出:噪声/残差估计。
    • 来源:同上。
  • 正则化密度估计(Flow/EBM)
    • 结构:可逆耦合层(Flow)或能量函数(EBM)。
    • 输入:x(或z)。
    • 输出:精确似然/能量。
    • 来源:同上。
  • 图自编码/对比(GAE/VGAE/DGI/GRACE)
    • 结构:GNN编码器,重建邻接/特征或对比全局-局部。
    • 输入:图与增广图。
    • 输出:节点/图嵌入、重建或对比目标。
    • 来源:图数据。

四、无监督训练的数据来源建议(按模态列举一些公开集)

  • 图像/视频
    • 图像:ImageNet(不用标签)、OpenImages、LAION-400M/5B、COCO、Places365、CelebA、FFHQ。
    • 视频:Kinetics、YouTube-8M、Something-Something、HowTo100M(含文本弱标签)。
    • 企业:产品图、质检图、监控画面、用户上传图。
  • 文本
    • Wikipedia、BookCorpus、Common Crawl(C4/The Pile)、OpenWebText2、新闻/论坛(合规)。
    • 企业:客服对话、日志消息、工单、知识库。
  • 语音/音频
    • LibriSpeech、LibriLight、Common Voice、VoxCeleb、AudioSet、GigaSpeech。
    • 企业:呼叫中心录音、设备声音、播客/课程(合规)。
  • 时间序列
    • UCR/UEA、ETT(电力变压器温度)、M4/M5、Yahoo A1、NAB、SMAP/MSL、SMD。
    • 企业:设备传感器、运维KPI、APM日志、金融指标。
  • 图/网络
    • OGB(ogbn-arxiv/products/papers100M)、Reddit、citation/co-purchase/知识图谱。
    • 企业:用户-物品、好友关系、点击/会话构图。
  • 多模态
    • LAION、CC12M、WIT、Conceptual Captions、HowTo100M。
    • 企业:商品图-标题/描述、新闻图-稿、视频-字幕/旁白。

五、落地小贴士

  • 数据清洗很关键:去重、格式统一、质量/安全过滤(敏感信息、版权)。
  • 增广策略决定上限:视觉(裁剪/颜色/遮挡)、语音(时频遮挡/速度扰动)、文本(dropout/截断)、图(删边/特征扰动)、时序(裁剪/抖动/遮挡)。
  • 评估方式:线性探测(冻结特征做线性分类)、k-NN、下游微调、检索mAP、异常AUC等。
  • 选择建议:
    • 视觉通用表征:MAE/DINOv2;极致生成:扩散模型。
    • 文本:BERT(理解)、GPT式LM(生成)、SimCSE(句向量)。
    • 语音:wav2vec 2.0/HuBERT。
    • 时间序列:TS2Vec/CPC + PatchTST预训练。
    • 图:GRACE/DGI + GAE/VGAE或GraphMAE。
    • 跨模态检索:CLIP。

如果你告诉我你的具体场景(数据类型、规模、算力、目标任务),我可以帮你挑选最合适的一两种方法,并给出更具体的网络配置和训练细节 😉

🌟 无监督深度学习全景图

下面按照「可做的任务 → 典型方法 → 结构/输入输出/数据来源」的顺序,层层展开。为了避免信息轰炸,先给一张总览表,随后逐项详细解释。

任务 典型无监督方法 代表网络结构 输入 → 输出 数据来源示例
表示学习 / 预训练(图像) AutoEncoder、SimCLR、MoCo、BYOL、MAE CNN / Vision Transformer (ViT) / Siamese 双塔 原图 → 重构图或对比特征 ImageNet (只用图像,不看标签)、LAION-400M、自己爬取
语言模型 GPT (自回归)、BERT/ERNIE (掩码)、RoBERTa Transformer Encoder / Decoder 文本片段 → 下一个词 or 掩码词 Wikipedia、CommonCrawl、书籍语料
语音表示 / 合成 CPC、HuBERT、Wav2Vec 2.0, VQ-VAE 1D CNN + Transformer 原始音频 → 未来帧/量化码本 LibriSpeech、YouTube Audio
图像生成 VAE、GAN、Diffusion 卷积VAE、DCGAN、StyleGAN、UNet(扩散) 噪声 / 随机向量 → 图像 CelebA、FFHQ、场景照片
图像到图像 CycleGAN, Denoising, Colorization 生成对抗网络、U-Net 单通道图 → 彩色图 等 BW 图书扫描件、历史照片
聚类 / 分割 DeepCluster, DEC, SwAV CNN + 聚类头 原图 → 聚类中心 or 伪标签 未标注图片
异常检测 AE、VAE、One-Class GAN 卷积AE / VAE 输入 → 重构 生产线传感器图片、日志
时序预测 TCN / 自回归变体、Masked Transformer TCN / Transformer 历史序列 → 未来序列 股票、IoT 传感器
图学习 Graph AutoEncoder, DGI, Graph Contrastive GCN / GAT 邻接 & 特征 → 图嵌入 引文网络、社交图
多模态对齐 CLIP, ALIGN ViT + 文本 Transformer 双塔 图像 / 文本 → 对齐向量 alt-text 图文对,网络抓取
其他 (强化式预训练) World Models (VAE + RNN) VAE + RNN 观测 → 潜在状态 游戏画面、机器人传感器

1️⃣ 表示学习 / 预训练(图像)

1.1 AutoEncoder (AE / VAE)

  • 结构:Encoder (CNN) + Bottleneck (潜在向量 z) + Decoder (反卷积)
  • 输入→输出:原图 → 重构图
  • 数据来源:只要是无标注图像即可,ImageNet 原图常用。

1.2 对比学习 SimCLR / MoCo / BYOL

  • 结构:Siamese 双塔 (共享 CNN / ViT) + 投影头 (MLP)
  • 输入→输出:同一张图的两种随机增广 → 特征向量;损失为 NT-Xent/InfoNCE
  • 数据来源:同上,大规模抓图就行,无须标签。

1.3 MAE(Masked Autoencoder)

  • 结构:ViT Encoder 只看 25% patch,Decoder 复原全部 patch
  • 输入→输出:被随机 mask 的 patch 序列 → 原始 patch 像素
  • 数据来源:任意无标注图。

2️⃣ 语言模型 (NLP)

2.1 自回归 GPT 系列

  • 结构:Transformer Decoder 堆叠
  • 输入→输出:前 n 个 token → 预测第 n+1 个 token
  • 数据来源:CommonCrawl、书籍语料、维基百科。数据只需文本文件即可。

2.2 掩码语言模型 (BERT, RoBERTa)

  • 结构:Transformer Encoder
  • 输入→输出:加了 [MASK] 的句子 → 预测被 mask 的 token
  • 数据来源:同上。

3️⃣ 语音表示 / 合成

3.1 Contrastive Predictive Coding (CPC)

  • 结构:1D CNN Encoder → GRU/Transformer Autoregressor
  • 输入→输出:过去音频帧 → 对比未来 k 帧 表征
  • 数据来源:LibriSpeech 原始 wav、YouTube 无字幕音频。

3.2 Wav2Vec 2.0

  • 结构:CNN 特征提取 → Transformer → Contrastive 量化
  • 输入→输出:掩码的 latent → 预测真实 latent
  • 数据来源:大量未标注语音 (100h–60k h)

4️⃣ 图像生成

4.1 VAE

  • 结构:CNN Encoder → 均值/方差 → 采样 z → CNN Decoder
  • 输入→输出:随机抽样或图像 → 新图 / 重构图
  • 数据来源:CelebA 人脸、手写数字。

4.2 GAN / StyleGAN

  • 结构:Generator (Deconv or Style blocks) + Discriminator (CNN)
  • 输入→输出:随机向量 z → 逼真图像
  • 数据来源:同上。

4.3 Diffusion Model (DDPM, Stable Diffusion)

  • 结构:UNet + 时间嵌入 + Attention
  • 输入→输出:高斯噪声 → 清晰图像 (通过反向扩散)
  • 数据来源:大规模高清图 + 文本 (若做文本条件扩散)。

5️⃣ 图像到图像(自监督)

5.1 CycleGAN

  • 结构:两个 GAN + cycle consistency
  • 输入→输出:域 A 图 → 域 B 图 (反之亦然)
  • 数据来源:两批未配对数据,如 马↔斑马、夏天↔冬天。

5.2 Denoising / Colorization

  • 结构:U-Net
  • 输入→输出:加噪 / 灰度图 → 干净 / 彩色图
  • 数据来源:任意彩色图像,训练时自己加噪声或转灰阶。

6️⃣ 聚类 / 分割

6.1 DeepCluster

  • 结构:CNN Backbone → k-means 聚类 → 把聚类ID当伪标签再训练
  • 输入→输出:图像 → 伪标签重复迭代
  • 数据来源:未标注图像集合。

6.2 SwAV

  • 结构:多视角 + Prototypes (聚类中心) + online clustering
  • 输入→输出:多增强图 → 相同 prototype
  • 数据来源:同上。

7️⃣ 异常检测

7.1 Reconstruction-based AutoEncoder

  • 结构:CNN AE 或 VAE
  • 输入→输出:正常样本 → 重构样本;用重构误差判断异常
  • 数据来源:只需「正常」数据,如工厂良品照片。

7.2 One-Class GAN

  • 结构:GAN but only normal data; discriminator score → 异常度
  • 输入→输出:噪声 → 重构;D分数高则异常
  • 数据来源:同上。

8️⃣ 时序预测 / 增强

8.1 Masked Time-series Transformer

  • 结构:Transformer + 时间编码
  • 输入→输出:掩码的时间点 → 重建值 / 未来值
  • 数据来源:金融 OHLCV、IoT 传感器流。

8.2 TCN 自回归

  • 结构:Dilated 1D CNN (TCN)
  • 输入→输出:过去窗口 → 未来窗口
  • 数据来源:公开股票数据、气象观测数据。

9️⃣ 图学习 (Graph)

9.1 Graph AutoEncoder (GAE)

  • 结构:GCN Encoder → inner product Decoder
  • 输入→输出:节点特征+邻接 → 重建邻接
  • 数据来源:Cora、PubMed 引文网络。

9.2 Deep Graph Infomax (DGI)

  • 结构:GCN + 全局读出;对比原图 vs 打乱图
  • 输入→输出:局部节点表征 → 全局向量,优化 InfoNCE
  • 数据来源:同上或社交网络图。

🔟 多模态对齐

10.1 CLIP

  • 结构:图像塔 ViT + 文本塔 Transformer;共享对比损失
  • 输入→输出:图像/文本 → 共享向量空间
  • 数据来源:网络图文对 (约4亿),alt-text 抓取。

1️⃣1️⃣ World Models (RL 前的无监督)

  • 结构:VAE (观测编码) + RNN (动态) + Controller (后期强化)
  • 输入→输出:游戏帧 → 潜在编码;预测下一帧潜在变量
  • 数据来源:OpenAI Gym 视频帧、unity simulation。

📌 常见数据来源简表

模态 公开大规模无标签集 备注
图像 ImageNet-1k raw, LAION, YFCC100M 可直接下载
文本 Wikipedia dump, CommonCrawl, BooksCorpus Crawl 前需清洗
音频 LibriSpeech (无标签部分), VoxCeleb, YouTube crawl 版权注意
视频 Kinetics-700 (只看帧), YouTube-8M, HowTo100M 适合自监督
图数据 OGB 数据集, SNAP 社交图 研究常用
时间序列 Yahoo S5, UCI 电力负荷, AlphaVantage API 异常检测或预测

💡 小结

  1. 无监督 ≠ 没目标,而是利用「数据本身的结构」产生学习信号:重构、对比、预测、聚类、生成…
  2. 关键技巧:
    • 数据增广 (Augmentation)
    • 对比损失 (InfoNCE)
    • 掩码 / 预测未来 (Mask & Predict)
    • 循环伪标签 (DeepCluster)
  3. 拿到原始数据 ➜ 设计自监督任务 ➜ 训练得到通用表征 ➜ 可迁移到下游监督任务或直接推断。

希望这份清单能给你一个系统的「无监督深度学习地图」🗺️!如果还想深入某个方法或代码实现,随时告诉我~


网站公告

今日签到

点亮在社区的每一天
去签到