【深度学习基础】概率论-EW帮帮网

深度学习研究者必读：概率论基础知识

“深度学习其实就是用概率语言去描述高维非线性映射。”

0. 阅读指南

本文面向已具备本科概率论基础的读者。
每个知识点给出：
- 为什么需要（Why）
- 核心概念 & 公式（What）
- 在 DL 里的典型用例（Where）
- 进一步阅读（Next）
章节之间呈“由浅入深”的拓扑序；可边看边查 Wikipedia 或 D2L 对应章节。

1. 概率三元组与测度论直觉

Why
现代深度学习大量使用测度论语言（e.g. Wasserstein GAN、Diffusion）。不懂 σ-代数，很多论文的定理看不懂。
What
概率空间 $(\Omega,\mathcal{F},P)$ 中
- $\Omega$ ：样本空间
- $\mathcal{F}$ ：事件 σ-代数
- $P$ ：概率测度，满足可数可加性
- 随机变量 $X:\Omega\to\mathbb{R}$ 是 $\mathcal{F}/\mathcal{B}(\mathbb{R})$ 可测函数
Where
- 证明 GAN 的“最优判别器”存在性（Radon-Nikodym 导数）。
- 分析 Diffusion Model 的逆过程（Doob-Dynkin 引理）。
Next
- [Williams, Probability with Martingales] 第 1–3 章
- [Klenke, Probability Theory] 1.1–1.4

2. 条件概率 & Bayes 定理

Why
所有后验推断、变分推断、Bayesian Neural Network 的根基。
What
条件概率：
$P(A|B)=\frac{P(A\cap B)}{P(B)}$
全概率公式：
$P(A)=\sum_i P(A|B_i)P(B_i)$
Bayes：
$P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)}$
Where
- Variational Auto-Encoder 的 ELBO：
  $\log p_\theta(x)\geq \mathbb{E}_{q_\phi(z|x)}\!\left[\log\frac{p_\theta(x,z)}{q_\phi(z|x)}\right]$
- Bayesian Neural Network 的权重后验推断。
Next
- [Bishop, PRML] 1.2, 2.1

3. 期望、方差、协方差 & 矩

Why
优化目标几乎都是期望；梯度估计的方差决定收敛速度。
What
- 期望： $\mathbb{E}[X]=\int_\Omega X(\omega)\,dP(\omega)$
- 方差： $\mathrm{Var}[X]=\mathbb{E}[(X-\mathbb{E}[X])^2]$
- 协方差矩阵： $\mathrm{Cov}(\mathbf{x})=\mathbb{E}[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top]$
- 高阶矩： $\mathbb{E}[X^k]$ 决定尾行为（heavy-tailed vs sub-Gaussian）。
Where
- Adam 的 bias-correction： $\hat{m}_t = m_t/(1-\beta_1^t)$ 利用期望迭代公式。
- StyleGAN 的 Perceptual Path Length 基于协方差矩阵的迹。
Next
- [Casella & Berger, Statistical Inference] 2.2–2.3

4. 常见分布族速查表

名称	密度/概率	与 DL 的羁绊
Bernoulli	$p^k(1-p)^{1-k}$	二元分类输出
Categorical	$\prod_i p_i^{x_i}$	Softmax 输出
Gaussian	$\mathcal{N}(x	\mu,\sigma^2)$
Dirichlet	$\frac{1}{B(\boldsymbol{\alpha})}\prod_i x_i^{\alpha_i-1}$	Topic Model 先验
Gumbel & Concrete	$\exp(-(-\log p + G))$	Gumbel-Softmax 重参数化
Laplace	$\frac{1}{2b}\exp!\left(-\frac{	x-\mu
Student-t	$\frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)}\left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2}$	鲁棒回归

Next
- [Murphy, Machine Learning: A Probabilistic Perspective] 2.4

5. 信息论三件套

Why
损失函数（Cross-Entropy、KL、ELBO）全部是信息论量。
What
- 熵： $H(p)=-\sum_x p(x)\log p(x)$
- 交叉熵： $H(p,q)=-\sum_x p(x)\log q(x)$
- KL 散度： $D_{\text{KL}}(p\|q)=\sum_x p(x)\log\frac{p(x)}{q(x)}$
- 互信息： $I(X;Y)=D_{\text{KL}}(p(x,y)\|p(x)p(y))$
Where
- CLIP 训练目标： $\mathcal{L}=-\frac{1}{N}\sum_{i,j} \log\frac{\exp(\mathbf{z}_i^\top \mathbf{z}_j/\tau)}{\sum_k \exp(\mathbf{z}_i^\top \mathbf{z}_k/\tau)}$ 本质是最小化对称交叉熵。
- VAE 的 KL 正则项。
Next
- [Cover & Thomas, Elements of Information Theory] 2.1–2.5

6. 多元高斯 & 高斯过程

Why
高斯假设让线性模型变成“核技巧”，让深度特征空间变成“高维高斯云”。
What
- 多元高斯 PDF：
  $\mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$
- 条件高斯：
  $p(\mathbf{x}_a|\mathbf{x}_b)=\mathcal{N}(\boldsymbol{\mu}_{a|b},\boldsymbol{\Sigma}_{a|b})$
  其中 $\boldsymbol{\mu}_{a|b}=\boldsymbol{\mu}_a+\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b)$
- 高斯过程：任意有限维分布为联合高斯的函数先验。
Where
- StyleGAN2 的 $W +$ 空间用高斯假设做 editing。
- GP-LSTM 结合 RNN 与 GP 建模不确定性。
Next
- [Rasmussen & Williams, Gaussian Processes for Machine Learning]

7. 变分推断（VI）

Why
把“后验”转成“优化”，让 Bayes 神经网络可训练。
What
- ELBO 分解：
  $\log p(x)\geq \mathcal{L}(q)=\mathbb{E}_{q(z)}\log p(x,z)-\mathbb{E}_{q(z)}\log q(z)$
- Mean-field： $q(z)=\prod_i q_i(z_i)$
- Amortized VI： $q_\phi(z|x)$ 用神经网络参数化。
Where
- VAE、β-VAE、NVAE、Diffusion-VI。
Next
- [Zhang et al., Advances in Variational Inference] (2019)

8. 蒙特卡洛方法

Why
高维积分无法解析，只能采样。
What
- 简单 MC： $\mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N f(x_i)$
- 重要性采样： $\mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N \frac{p(x_i)}{q(x_i)}f(x_i)$
- MCMC：Metropolis-Hastings、Hamiltonian MC、Langevin Dynamics。
Where
- PixelCNN++ 用重要性采样估计离散分布的交叉熵。
- Diffusion Model 的 DDPM 反向采样即 MCMC。
Next
- [Neal, MCMC Handbook]

9. 重参数化技巧（Reparameterization Trick）

Why
让随机节点可反向传播。
What
若 $z\sim q_\phi(z|x)$ 可写成 $z=g_\phi(x,\epsilon),\;\epsilon\sim p(\epsilon)$ ，则
$\nabla_\phi \mathbb{E}_{q_\phi}[f(z)]=\mathbb{E}_{p(\epsilon)}\!\left[\nabla_\phi f(g_\phi(x,\epsilon))\right]$
Where
- VAE 的 encoder $q_\phi(z|x)=\mathcal{N}(z|\mu_\phi(x),\sigma^2_\phi(x))$ 用 $z=\mu+\sigma\odot\epsilon$ 。
- Normalizing Flow 的耦合层。
Next
- [Kingma & Welling, Auto-Encoding Variational Bayes]

10. Copula & 高阶依赖

Why
建模多元非线性、非高斯依赖，提升生成质量。
What
- Sklar 定理：任意联合分布 $F(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d))$
- Gaussian Copula、Vine Copula、Implicit Copula。
Where
- Tabular GAN（CTGAN、TVAE）用 Copula 处理混合类型特征。
Next
- [Joe, Dependence Modeling with Copulas]

11. 随机过程 & 随机微积分

Why
扩散模型、随机最优控制、SDE-GAN 的数学基础。
What
- 布朗运动 $W_t$ ： $W_t-W_s\sim\mathcal{N}(0,t-s)$
- Itô 引理：
  $df(t,X_t)=\frac{\partial f}{\partial t}\!dt+\frac{\partial f}{\partial x}\!dX_t+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}\!(dX_t)^2$
- SDE： $dX_t=\mu(X_t,t)\,dt+\sigma(X_t,t)\,dW_t$
Where
- DDPM 的逆向 SDE：
  $d\mathbf{x}=[f(\mathbf{x},t)-g(t)^2\nabla_\mathbf{x}\log p_t(\mathbf{x})]\,dt+g(t)\,d\bar{W}_t$
Next
- [Øksendal, Stochastic Differential Equations]

12. 大数定律 & 中心极限定理

Why
训练误差为何收敛？batch size 如何影响方差？
What
- LLN： $\frac{1}{n}\sum_{i=1}^n X_i\xrightarrow{\text{a.s.}}\mathbb{E}[X]$
- CLT： $\sqrt{n}\left(\frac{1}{n}\sum X_i-\mu\right)\xrightarrow{d}\mathcal{N}(0,\sigma^2)$
Where
- SGD 噪声分析： $\boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_t-\eta_t(\nabla L+\boldsymbol{\xi}_t)$ ，其中 $\boldsymbol{\xi}_t$ 近似高斯。
Next
- [Vershynin, High-Dimensional Probability]

13. 泛化误差与 PAC-Bayes

Why
解释为什么大模型不 overfit。
What
- PAC-Bayes 界：
  $\mathbb{E}_{Q}[L_D(f)]\leq \mathbb{E}_{Q}[L_S(f)]+\sqrt{\frac{D_{\text{KL}}(Q\|P)+\log\frac{n}{\delta}}{2(n-1)}}$
- 其中 $Q$ 为后验分布， $P$ 为先验。
Where
- 解释 Sharpness-Aware Minimization (SAM) 的泛化界。
Next
- [Dziugaite & Roy, Computing Nonvacuous Generalization Bounds]

14. 尾不等式 & 高维集中

Why
控制 dropout、mixup、label smoothing 的偏差。
What
- Hoeffding： $\mathbb{P}\!\left(\left|\frac{1}{n}\sum X_i-\mu\right|\geq t\right)\leq 2\exp\!\left(-\frac{2nt^2}{(b-a)^2}\right)$
- McDiarmid：有界差分 ⇒ 集中
- Azuma：鞅差序列 ⇒ 集中
Where
- 证明 Mixup 的期望风险上界。
Next
- [Boucheron et al., Concentration Inequalities]

15. Optimal Transport & Wasserstein 距离

Why
GAN 的 JS 散度会梯度消失，Wasserstein 距离不会。
What
- $W_p(\mu,\nu)=\left(\inf_{\gamma\in\Pi(\mu,\nu)}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|^p\right)^{1/p}$
- Kantorovich-Rubinstein 对偶：
  $W_1(\mu,\nu)=\sup_{\|f\|_L\leq 1}\mathbb{E}_\mu[f]-\mathbb{E}_\nu[f]$
Where
- WGAN-GP 的 gradient penalty。
Next
- [Peyré & Cuturi, Computational Optimal Transport]

16. 自回归模型 & 因果推断

Why
Transformer 的 Mask、Diffusion 的 Causal 链式法则。
What
- 链式法则： $p(x_{1:n})=\prod_{i=1}^n p(x_i|x_{<i})$
- 干预分布： $p(y|\text{do}(X=x))$
Where
- GPT 的 left-to-right 因子分解。
Next
- [Pearl, Causality]

17. 隐变量模型 & EM 算法

Why
GMM、HMM、VAE 的底层框架。
What
- 隐变量 $z$ ： $p(x)=\int p(x|z)p(z)\,dz$
- EM：
  E 步： $q^{(t)}(z)=p(z|x,\theta^{(t)})$
  M 步： $\theta^{(t+1)}=\arg\max_\theta \mathbb{E}_{q^{(t)}}[\log p(x,z|\theta)]$
Where
- 深度高斯混合 VAE。
Next
- [Bishop, PRML] 9.2–9.4

18. 非参数 Bayes

Why
让模型大小随数据增长，避免手动调参。
What
- Dirichlet Process： $G\sim\mathrm{DP}(\alpha,G_0)$
- Chinese Restaurant Process：先验聚类数无限。
Where
- Infinite Mixture VAE。
Next
- [Ghahramani, Nonparametric Bayesian Methods]

19. 随机矩阵理论

Why
解释神经正切核（NTK）的谱分布、初始化方差。
What
- Marchenko-Pastur 分布：
  $f_\lambda(x)=\frac{1}{2\pi\lambda x}\sqrt{(b-x)(x-a)},\;a,b=(1\mp\sqrt{\lambda})^2$
Where
- 计算 Xavier/Kaiming 初始化的临界方差。
Next
- [Tao, Topics in Random Matrix Theory]

20. 强化学习中的 Bellman 方程

Why
Actor-Critic、Soft-Q-Learning 是概率推断的特例。
What
- Bellman 最优： $Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')|s,a]$
- 概率视角： $\log p(\tau)\propto\sum_{t=0}^T\log\pi(a_t|s_t)+\log p(r_t|s_t,a_t)$
Where
- Soft Actor-Critic 的熵正则化等价于变分推断。
Next
- [Levine, Reinforcement Learning and Control as Probabilistic Inference]

21. 前沿工具箱

工具	场景
Pyro	深度概率编程
TensorFlow Probability	可微分布 & Bijector
NumPyro	JAX 加速
OTT	Optimal Transport Toolbox

22. 一条可行的学习路径

通读 [Bishop, PRML] 第 1–5 章 → 建立框架
边读 D2L 概率章节边复现 VAE → 实战
深入 [Wainwright & Jordan, Graphical Models, Exponential Families, and Variational Inference] → 理论
选择方向：
- 扩散 → 补 SDE
- GAN → 补 OT & 博弈
- Bayes → 补 PAC-Bayes & 非参

23. 小结

概率论之于深度学习，就像微积分之于物理。
你不需要一次性吃完整张地图，但每遇到“为什么”时，知道去哪里查，就能避免把炼丹当玄学。

附录：符号表

符号	含义
$\mathbb{E}[\cdot]$	期望
$\mathcal{N}(\mu,\Sigma)$	高斯分布
$D_{\text{KL}}(\cdot\|\cdot)$	KL 散度
$\xrightarrow{d}$	依分布收敛
$\sim$	服从分布

【深度学习基础】概率论

深度学习研究者必读：概率论基础知识

0. 阅读指南

1. 概率三元组与测度论直觉

2. 条件概率 & Bayes 定理

3. 期望、方差、协方差 & 矩

4. 常见分布族速查表

5. 信息论三件套

6. 多元高斯 & 高斯过程

7. 变分推断（VI）

8. 蒙特卡洛方法

9. 重参数化技巧（Reparameterization Trick）

10. Copula & 高阶依赖

11. 随机过程 & 随机微积分

12. 大数定律 & 中心极限定理

13. 泛化误差与 PAC-Bayes

14. 尾不等式 & 高维集中

15. Optimal Transport & Wasserstein 距离

16. 自回归模型 & 因果推断

17. 隐变量模型 & EM 算法

18. 非参数 Bayes

19. 随机矩阵理论

20. 强化学习中的 Bellman 方程

21. 前沿工具箱

22. 一条可行的学习路径

23. 小结

附录：符号表

网站公告

今日签到

热门文章

最新发布