【深度学习基础】概率论

发布于:2025-08-07 ⋅ 阅读:(43) ⋅ 点赞:(0)

深度学习研究者必读:概率论基础知识


“深度学习其实就是用概率语言去描述高维非线性映射。”


0. 阅读指南

  1. 本文面向已具备本科概率论基础的读者。
  2. 每个知识点给出:
    • 为什么需要(Why)
    • 核心概念 & 公式(What)
    • 在 DL 里的典型用例(Where)
    • 进一步阅读(Next)
  3. 章节之间呈“由浅入深”的拓扑序;可边看边查 Wikipedia 或 D2L 对应章节。

1. 概率三元组与测度论直觉

  • Why
    现代深度学习大量使用测度论语言(e.g. Wasserstein GAN、Diffusion)。不懂 σ-代数,很多论文的定理看不懂。
  • What
    概率空间 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P)
    • Ω \Omega Ω:样本空间
    • F \mathcal{F} F:事件 σ-代数
    • P P P:概率测度,满足可数可加性
    • 随机变量 X : Ω → R X:\Omega\to\mathbb{R} X:ΩR F / B ( R ) \mathcal{F}/\mathcal{B}(\mathbb{R}) F/B(R) 可测函数
  • Where
    • 证明 GAN 的“最优判别器”存在性(Radon-Nikodym 导数)。
    • 分析 Diffusion Model 的逆过程(Doob-Dynkin 引理)。
  • Next
    • [Williams, Probability with Martingales] 第 1–3 章
    • [Klenke, Probability Theory] 1.1–1.4

2. 条件概率 & Bayes 定理

  • Why
    所有后验推断、变分推断、Bayesian Neural Network 的根基。
  • What
    条件概率:
    P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(AB)=P(B)P(AB)
    全概率公式:
    P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_i P(A|B_i)P(B_i) P(A)=iP(ABi)P(Bi)
    Bayes:
    P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} P(θD)=P(D)P(Dθ)P(θ)
  • Where
    • Variational Auto-Encoder 的 ELBO:
      log ⁡ p θ ( x ) ≥ E q ϕ ( z ∣ x )  ⁣ [ log ⁡ p θ ( x , z ) q ϕ ( z ∣ x ) ] \log p_\theta(x)\geq \mathbb{E}_{q_\phi(z|x)}\!\left[\log\frac{p_\theta(x,z)}{q_\phi(z|x)}\right] logpθ(x)Eqϕ(zx)[logqϕ(zx)pθ(x,z)]
    • Bayesian Neural Network 的权重后验推断。
  • Next
    • [Bishop, PRML] 1.2, 2.1

3. 期望、方差、协方差 & 矩

  • Why
    优化目标几乎都是期望;梯度估计的方差决定收敛速度。
  • What
    • 期望: E [ X ] = ∫ Ω X ( ω )   d P ( ω ) \mathbb{E}[X]=\int_\Omega X(\omega)\,dP(\omega) E[X]=ΩX(ω)dP(ω)
    • 方差: V a r [ X ] = E [ ( X − E [ X ] ) 2 ] \mathrm{Var}[X]=\mathbb{E}[(X-\mathbb{E}[X])^2] Var[X]=E[(XE[X])2]
    • 协方差矩阵: C o v ( x ) = E [ ( x − μ ) ( x − μ ) ⊤ ] \mathrm{Cov}(\mathbf{x})=\mathbb{E}[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top] Cov(x)=E[(xμ)(xμ)]
    • 高阶矩: E [ X k ] \mathbb{E}[X^k] E[Xk] 决定尾行为(heavy-tailed vs sub-Gaussian)。
  • Where
    • Adam 的 bias-correction: m ^ t = m t / ( 1 − β 1 t ) \hat{m}_t = m_t/(1-\beta_1^t) m^t=mt/(1β1t) 利用期望迭代公式。
    • StyleGAN 的 Perceptual Path Length 基于协方差矩阵的迹。
  • Next
    • [Casella & Berger, Statistical Inference] 2.2–2.3

4. 常见分布族速查表

名称 密度/概率 与 DL 的羁绊
Bernoulli p k ( 1 − p ) 1 − k p^k(1-p)^{1-k} pk(1p)1k 二元分类输出
Categorical ∏ i p i x i \prod_i p_i^{x_i} ipixi Softmax 输出
Gaussian $\mathcal{N}(x \mu,\sigma^2)$
Dirichlet 1 B ( α ) ∏ i x i α i − 1 \frac{1}{B(\boldsymbol{\alpha})}\prod_i x_i^{\alpha_i-1} B(α)1ixiαi1 Topic Model 先验
Gumbel & Concrete exp ⁡ ( − ( − log ⁡ p + G ) ) \exp(-(-\log p + G)) exp((logp+G)) Gumbel-Softmax 重参数化
Laplace $\frac{1}{2b}\exp!\left(-\frac{ x-\mu
Student-t Γ ( ( ν + 1 ) / 2 ) ν π Γ ( ν / 2 ) ( 1 + x 2 ν ) − ( ν + 1 ) / 2 \frac{\Gamma((\nu+1)/2)}{\sqrt{\nu\pi}\Gamma(\nu/2)}\left(1+\frac{x^2}{\nu}\right)^{-(\nu+1)/2} νπ Γ(ν/2)Γ((ν+1)/2)(1+νx2)(ν+1)/2 鲁棒回归
  • Next
    • [Murphy, Machine Learning: A Probabilistic Perspective] 2.4

5. 信息论三件套

  • Why
    损失函数(Cross-Entropy、KL、ELBO)全部是信息论量。
  • What
    • 熵: H ( p ) = − ∑ x p ( x ) log ⁡ p ( x ) H(p)=-\sum_x p(x)\log p(x) H(p)=xp(x)logp(x)
    • 交叉熵: H ( p , q ) = − ∑ x p ( x ) log ⁡ q ( x ) H(p,q)=-\sum_x p(x)\log q(x) H(p,q)=xp(x)logq(x)
    • KL 散度: D KL ( p ∥ q ) = ∑ x p ( x ) log ⁡ p ( x ) q ( x ) D_{\text{KL}}(p\|q)=\sum_x p(x)\log\frac{p(x)}{q(x)} DKL(pq)=xp(x)logq(x)p(x)
    • 互信息: I ( X ; Y ) = D KL ( p ( x , y ) ∥ p ( x ) p ( y ) ) I(X;Y)=D_{\text{KL}}(p(x,y)\|p(x)p(y)) I(X;Y)=DKL(p(x,y)p(x)p(y))
  • Where
    • CLIP 训练目标: L = − 1 N ∑ i , j log ⁡ exp ⁡ ( z i ⊤ z j / τ ) ∑ k exp ⁡ ( z i ⊤ z k / τ ) \mathcal{L}=-\frac{1}{N}\sum_{i,j} \log\frac{\exp(\mathbf{z}_i^\top \mathbf{z}_j/\tau)}{\sum_k \exp(\mathbf{z}_i^\top \mathbf{z}_k/\tau)} L=N1i,jlogkexp(zizk/τ)exp(zizj/τ) 本质是最小化对称交叉熵。
    • VAE 的 KL 正则项。
  • Next
    • [Cover & Thomas, Elements of Information Theory] 2.1–2.5

6. 多元高斯 & 高斯过程

  • Why
    高斯假设让线性模型变成“核技巧”,让深度特征空间变成“高维高斯云”。
  • What
    • 多元高斯 PDF:
      N ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡  ⁣ ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) N(xμ,Σ)=(2π)d/2Σ1/21exp(21(xμ)Σ1(xμ))
    • 条件高斯:
      p ( x a ∣ x b ) = N ( μ a ∣ b , Σ a ∣ b ) p(\mathbf{x}_a|\mathbf{x}_b)=\mathcal{N}(\boldsymbol{\mu}_{a|b},\boldsymbol{\Sigma}_{a|b}) p(xaxb)=N(μab,Σab)
      其中 μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) \boldsymbol{\mu}_{a|b}=\boldsymbol{\mu}_a+\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b) μab=μa+ΣabΣbb1(xbμb)
    • 高斯过程:任意有限维分布为联合高斯的函数先验。
  • Where
    • StyleGAN2 的 W + W+ W+ 空间用高斯假设做 editing。
    • GP-LSTM 结合 RNN 与 GP 建模不确定性。
  • Next
    • [Rasmussen & Williams, Gaussian Processes for Machine Learning]

7. 变分推断(VI)

  • Why
    把“后验”转成“优化”,让 Bayes 神经网络可训练。
  • What
    • ELBO 分解:
      log ⁡ p ( x ) ≥ L ( q ) = E q ( z ) log ⁡ p ( x , z ) − E q ( z ) log ⁡ q ( z ) \log p(x)\geq \mathcal{L}(q)=\mathbb{E}_{q(z)}\log p(x,z)-\mathbb{E}_{q(z)}\log q(z) logp(x)L(q)=Eq(z)logp(x,z)Eq(z)logq(z)
    • Mean-field: q ( z ) = ∏ i q i ( z i ) q(z)=\prod_i q_i(z_i) q(z)=iqi(zi)
    • Amortized VI: q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(zx) 用神经网络参数化。
  • Where
    • VAE、β-VAE、NVAE、Diffusion-VI。
  • Next
    • [Zhang et al., Advances in Variational Inference] (2019)

8. 蒙特卡洛方法

  • Why
    高维积分无法解析,只能采样。
  • What
    • 简单 MC: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N f(x_i) E[f(X)]N1i=1Nf(xi)
    • 重要性采样: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N p ( x i ) q ( x i ) f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N \frac{p(x_i)}{q(x_i)}f(x_i) E[f(X)]N1i=1Nq(xi)p(xi)f(xi)
    • MCMC:Metropolis-Hastings、Hamiltonian MC、Langevin Dynamics。
  • Where
    • PixelCNN++ 用重要性采样估计离散分布的交叉熵。
    • Diffusion Model 的 DDPM 反向采样即 MCMC。
  • Next
    • [Neal, MCMC Handbook]

9. 重参数化技巧(Reparameterization Trick)

  • Why
    让随机节点可反向传播。
  • What
    z ∼ q ϕ ( z ∣ x ) z\sim q_\phi(z|x) zqϕ(zx) 可写成 z = g ϕ ( x , ϵ ) ,    ϵ ∼ p ( ϵ ) z=g_\phi(x,\epsilon),\;\epsilon\sim p(\epsilon) z=gϕ(x,ϵ),ϵp(ϵ),则
    ∇ ϕ E q ϕ [ f ( z ) ] = E p ( ϵ )  ⁣ [ ∇ ϕ f ( g ϕ ( x , ϵ ) ) ] \nabla_\phi \mathbb{E}_{q_\phi}[f(z)]=\mathbb{E}_{p(\epsilon)}\!\left[\nabla_\phi f(g_\phi(x,\epsilon))\right] ϕEqϕ[f(z)]=Ep(ϵ)[ϕf(gϕ(x,ϵ))]
  • Where
    • VAE 的 encoder q ϕ ( z ∣ x ) = N ( z ∣ μ ϕ ( x ) , σ ϕ 2 ( x ) ) q_\phi(z|x)=\mathcal{N}(z|\mu_\phi(x),\sigma^2_\phi(x)) qϕ(zx)=N(zμϕ(x),σϕ2(x)) z = μ + σ ⊙ ϵ z=\mu+\sigma\odot\epsilon z=μ+σϵ
    • Normalizing Flow 的耦合层。
  • Next
    • [Kingma & Welling, Auto-Encoding Variational Bayes]

10. Copula & 高阶依赖

  • Why
    建模多元非线性、非高斯依赖,提升生成质量。
  • What
    • Sklar 定理:任意联合分布 F ( x 1 , … , x d ) = C ( F 1 ( x 1 ) , … , F d ( x d ) ) F(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d)) F(x1,,xd)=C(F1(x1),,Fd(xd))
    • Gaussian Copula、Vine Copula、Implicit Copula。
  • Where
    • Tabular GAN(CTGAN、TVAE)用 Copula 处理混合类型特征。
  • Next
    • [Joe, Dependence Modeling with Copulas]

11. 随机过程 & 随机微积分

  • Why
    扩散模型、随机最优控制、SDE-GAN 的数学基础。
  • What
    • 布朗运动 W t W_t Wt W t − W s ∼ N ( 0 , t − s ) W_t-W_s\sim\mathcal{N}(0,t-s) WtWsN(0,ts)
    • Itô 引理:
      d f ( t , X t ) = ∂ f ∂ t  ⁣ d t + ∂ f ∂ x  ⁣ d X t + 1 2 ∂ 2 f ∂ x 2  ⁣ ( d X t ) 2 df(t,X_t)=\frac{\partial f}{\partial t}\!dt+\frac{\partial f}{\partial x}\!dX_t+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}\!(dX_t)^2 df(t,Xt)=tfdt+xfdXt+21x22f(dXt)2
    • SDE: d X t = μ ( X t , t )   d t + σ ( X t , t )   d W t dX_t=\mu(X_t,t)\,dt+\sigma(X_t,t)\,dW_t dXt=μ(Xt,t)dt+σ(Xt,t)dWt
  • Where
    • DDPM 的逆向 SDE:
      d x = [ f ( x , t ) − g ( t ) 2 ∇ x log ⁡ p t ( x ) ]   d t + g ( t )   d W ˉ t d\mathbf{x}=[f(\mathbf{x},t)-g(t)^2\nabla_\mathbf{x}\log p_t(\mathbf{x})]\,dt+g(t)\,d\bar{W}_t dx=[f(x,t)g(t)2xlogpt(x)]dt+g(t)dWˉt
  • Next
    • [Øksendal, Stochastic Differential Equations]

12. 大数定律 & 中心极限定理

  • Why
    训练误差为何收敛?batch size 如何影响方差?
  • What
    • LLN: 1 n ∑ i = 1 n X i → a.s. E [ X ] \frac{1}{n}\sum_{i=1}^n X_i\xrightarrow{\text{a.s.}}\mathbb{E}[X] n1i=1nXia.s. E[X]
    • CLT: n ( 1 n ∑ X i − μ ) → d N ( 0 , σ 2 ) \sqrt{n}\left(\frac{1}{n}\sum X_i-\mu\right)\xrightarrow{d}\mathcal{N}(0,\sigma^2) n (n1Xiμ)d N(0,σ2)
  • Where
    • SGD 噪声分析: θ t + 1 = θ t − η t ( ∇ L + ξ t ) \boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_t-\eta_t(\nabla L+\boldsymbol{\xi}_t) θt+1=θtηt(L+ξt),其中 ξ t \boldsymbol{\xi}_t ξt 近似高斯。
  • Next
    • [Vershynin, High-Dimensional Probability]

13. 泛化误差与 PAC-Bayes

  • Why
    解释为什么大模型不 overfit。
  • What
    • PAC-Bayes 界:
      E Q [ L D ( f ) ] ≤ E Q [ L S ( f ) ] + D KL ( Q ∥ P ) + log ⁡ n δ 2 ( n − 1 ) \mathbb{E}_{Q}[L_D(f)]\leq \mathbb{E}_{Q}[L_S(f)]+\sqrt{\frac{D_{\text{KL}}(Q\|P)+\log\frac{n}{\delta}}{2(n-1)}} EQ[LD(f)]EQ[LS(f)]+2(n1)DKL(QP)+logδn
    • 其中 Q Q Q 为后验分布, P P P 为先验。
  • Where
    • 解释 Sharpness-Aware Minimization (SAM) 的泛化界。
  • Next
    • [Dziugaite & Roy, Computing Nonvacuous Generalization Bounds]

14. 尾不等式 & 高维集中

  • Why
    控制 dropout、mixup、label smoothing 的偏差。
  • What
    • Hoeffding: P  ⁣ ( ∣ 1 n ∑ X i − μ ∣ ≥ t ) ≤ 2 exp ⁡  ⁣ ( − 2 n t 2 ( b − a ) 2 ) \mathbb{P}\!\left(\left|\frac{1}{n}\sum X_i-\mu\right|\geq t\right)\leq 2\exp\!\left(-\frac{2nt^2}{(b-a)^2}\right) P( n1Xiμ t)2exp((ba)22nt2)
    • McDiarmid:有界差分 ⇒ 集中
    • Azuma:鞅差序列 ⇒ 集中
  • Where
    • 证明 Mixup 的期望风险上界。
  • Next
    • [Boucheron et al., Concentration Inequalities]

15. Optimal Transport & Wasserstein 距离

  • Why
    GAN 的 JS 散度会梯度消失,Wasserstein 距离不会。
  • What
    • W p ( μ , ν ) = ( inf ⁡ γ ∈ Π ( μ , ν ) E ( x , y ) ∼ γ ∥ x − y ∥ p ) 1 / p W_p(\mu,\nu)=\left(\inf_{\gamma\in\Pi(\mu,\nu)}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|^p\right)^{1/p} Wp(μ,ν)=(infγΠ(μ,ν)E(x,y)γxyp)1/p
    • Kantorovich-Rubinstein 对偶:
      W 1 ( μ , ν ) = sup ⁡ ∥ f ∥ L ≤ 1 E μ [ f ] − E ν [ f ] W_1(\mu,\nu)=\sup_{\|f\|_L\leq 1}\mathbb{E}_\mu[f]-\mathbb{E}_\nu[f] W1(μ,ν)=fL1supEμ[f]Eν[f]
  • Where
    • WGAN-GP 的 gradient penalty。
  • Next
    • [Peyré & Cuturi, Computational Optimal Transport]

16. 自回归模型 & 因果推断

  • Why
    Transformer 的 Mask、Diffusion 的 Causal 链式法则。
  • What
    • 链式法则: p ( x 1 : n ) = ∏ i = 1 n p ( x i ∣ x < i ) p(x_{1:n})=\prod_{i=1}^n p(x_i|x_{<i}) p(x1:n)=i=1np(xix<i)
    • 干预分布: p ( y ∣ do ( X = x ) ) p(y|\text{do}(X=x)) p(ydo(X=x))
  • Where
    • GPT 的 left-to-right 因子分解。
  • Next
    • [Pearl, Causality]

17. 隐变量模型 & EM 算法

  • Why
    GMM、HMM、VAE 的底层框架。
  • What
    • 隐变量 z z z p ( x ) = ∫ p ( x ∣ z ) p ( z )   d z p(x)=\int p(x|z)p(z)\,dz p(x)=p(xz)p(z)dz
    • EM:
      E 步: q ( t ) ( z ) = p ( z ∣ x , θ ( t ) ) q^{(t)}(z)=p(z|x,\theta^{(t)}) q(t)(z)=p(zx,θ(t))
      M 步: θ ( t + 1 ) = arg ⁡ max ⁡ θ E q ( t ) [ log ⁡ p ( x , z ∣ θ ) ] \theta^{(t+1)}=\arg\max_\theta \mathbb{E}_{q^{(t)}}[\log p(x,z|\theta)] θ(t+1)=argmaxθEq(t)[logp(x,zθ)]
  • Where
    • 深度高斯混合 VAE。
  • Next
    • [Bishop, PRML] 9.2–9.4

18. 非参数 Bayes

  • Why
    让模型大小随数据增长,避免手动调参。
  • What
    • Dirichlet Process: G ∼ D P ( α , G 0 ) G\sim\mathrm{DP}(\alpha,G_0) GDP(α,G0)
    • Chinese Restaurant Process:先验聚类数无限。
  • Where
    • Infinite Mixture VAE。
  • Next
    • [Ghahramani, Nonparametric Bayesian Methods]

19. 随机矩阵理论

  • Why
    解释神经正切核(NTK)的谱分布、初始化方差。
  • What
    • Marchenko-Pastur 分布:
      f λ ( x ) = 1 2 π λ x ( b − x ) ( x − a ) ,    a , b = ( 1 ∓ λ ) 2 f_\lambda(x)=\frac{1}{2\pi\lambda x}\sqrt{(b-x)(x-a)},\;a,b=(1\mp\sqrt{\lambda})^2 fλ(x)=2πλx1(bx)(xa) ,a,b=(1λ )2
  • Where
    • 计算 Xavier/Kaiming 初始化的临界方差。
  • Next
    • [Tao, Topics in Random Matrix Theory]

20. 强化学习中的 Bellman 方程

  • Why
    Actor-Critic、Soft-Q-Learning 是概率推断的特例。
  • What
    • Bellman 最优: Q ∗ ( s , a ) = E [ r + γ max ⁡ a ′ Q ∗ ( s ′ , a ′ ) ∣ s , a ] Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')|s,a] Q(s,a)=E[r+γmaxaQ(s,a)s,a]
    • 概率视角: log ⁡ p ( τ ) ∝ ∑ t = 0 T log ⁡ π ( a t ∣ s t ) + log ⁡ p ( r t ∣ s t , a t ) \log p(\tau)\propto\sum_{t=0}^T\log\pi(a_t|s_t)+\log p(r_t|s_t,a_t) logp(τ)t=0Tlogπ(atst)+logp(rtst,at)
  • Where
    • Soft Actor-Critic 的熵正则化等价于变分推断。
  • Next
    • [Levine, Reinforcement Learning and Control as Probabilistic Inference]

21. 前沿工具箱

工具 场景
Pyro 深度概率编程
TensorFlow Probability 可微分布 & Bijector
NumPyro JAX 加速
OTT Optimal Transport Toolbox

22. 一条可行的学习路径

  1. 通读 [Bishop, PRML] 第 1–5 章 → 建立框架
  2. 边读 D2L 概率章节 边复现 VAE → 实战
  3. 深入 [Wainwright & Jordan, Graphical Models, Exponential Families, and Variational Inference] → 理论
  4. 选择方向:
    • 扩散 → 补 SDE
    • GAN → 补 OT & 博弈
    • Bayes → 补 PAC-Bayes & 非参

23. 小结

概率论之于深度学习,就像微积分之于物理。
你不需要一次性吃完整张地图,但每遇到“为什么”时,知道去哪里查,就能避免把炼丹当玄学。


附录:符号表

符号 含义
E [ ⋅ ] \mathbb{E}[\cdot] E[] 期望
N ( μ , Σ ) \mathcal{N}(\mu,\Sigma) N(μ,Σ) 高斯分布
D KL ( ⋅ ∣ ⋅ ) D_{\text{KL}}(\cdot|\cdot) DKL() KL 散度
→ d \xrightarrow{d} d 依分布收敛
∼ \sim 服从分布


网站公告

今日签到

点亮在社区的每一天
去签到