What 概率空间 ( Ω , F , P ) (\Omega,\mathcal{F},P) (Ω,F,P) 中
Ω \Omega Ω:样本空间
F \mathcal{F} F:事件 σ-代数
P P P:概率测度,满足可数可加性
随机变量 X : Ω → R X:\Omega\to\mathbb{R} X:Ω→R 是 F / B ( R ) \mathcal{F}/\mathcal{B}(\mathbb{R}) F/B(R) 可测函数
Where
证明 GAN 的“最优判别器”存在性(Radon-Nikodym 导数)。
分析 Diffusion Model 的逆过程(Doob-Dynkin 引理)。
Next
[Williams, Probability with Martingales] 第 1–3 章
[Klenke, Probability Theory] 1.1–1.4
2. 条件概率 & Bayes 定理
Why 所有后验推断、变分推断、Bayesian Neural Network 的根基。
What 条件概率: P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B) 全概率公式: P ( A ) = ∑ i P ( A ∣ B i ) P ( B i ) P(A)=\sum_i P(A|B_i)P(B_i) P(A)=i∑P(A∣Bi)P(Bi) Bayes: P ( θ ∣ D ) = P ( D ∣ θ ) P ( θ ) P ( D ) P(\theta|D)=\frac{P(D|\theta)P(\theta)}{P(D)} P(θ∣D)=P(D)P(D∣θ)P(θ)
Where
Variational Auto-Encoder 的 ELBO: log p θ ( x ) ≥ E q ϕ ( z ∣ x ) [ log p θ ( x , z ) q ϕ ( z ∣ x ) ] \log p_\theta(x)\geq \mathbb{E}_{q_\phi(z|x)}\!\left[\log\frac{p_\theta(x,z)}{q_\phi(z|x)}\right] logpθ(x)≥Eqϕ(z∣x)[logqϕ(z∣x)pθ(x,z)]
Bayesian Neural Network 的权重后验推断。
Next
[Bishop, PRML] 1.2, 2.1
3. 期望、方差、协方差 & 矩
Why 优化目标几乎都是期望;梯度估计的方差决定收敛速度。
What
期望: E [ X ] = ∫ Ω X ( ω ) d P ( ω ) \mathbb{E}[X]=\int_\Omega X(\omega)\,dP(\omega) E[X]=∫ΩX(ω)dP(ω)
方差: V a r [ X ] = E [ ( X − E [ X ] ) 2 ] \mathrm{Var}[X]=\mathbb{E}[(X-\mathbb{E}[X])^2] Var[X]=E[(X−E[X])2]
协方差矩阵: C o v ( x ) = E [ ( x − μ ) ( x − μ ) ⊤ ] \mathrm{Cov}(\mathbf{x})=\mathbb{E}[(\mathbf{x}-\boldsymbol{\mu})(\mathbf{x}-\boldsymbol{\mu})^\top] Cov(x)=E[(x−μ)(x−μ)⊤]
高阶矩: E [ X k ] \mathbb{E}[X^k] E[Xk] 决定尾行为(heavy-tailed vs sub-Gaussian)。
Where
Adam 的 bias-correction: m ^ t = m t / ( 1 − β 1 t ) \hat{m}_t = m_t/(1-\beta_1^t) m^t=mt/(1−β1t) 利用期望迭代公式。
StyleGAN 的 Perceptual Path Length 基于协方差矩阵的迹。
Next
[Casella & Berger, Statistical Inference] 2.2–2.3
4. 常见分布族速查表
名称
密度/概率
与 DL 的羁绊
Bernoulli
p k ( 1 − p ) 1 − k p^k(1-p)^{1-k} pk(1−p)1−k
二元分类输出
Categorical
∏ i p i x i \prod_i p_i^{x_i} ∏ipixi
Softmax 输出
Gaussian
$\mathcal{N}(x
\mu,\sigma^2)$
Dirichlet
1 B ( α ) ∏ i x i α i − 1 \frac{1}{B(\boldsymbol{\alpha})}\prod_i x_i^{\alpha_i-1} B(α)1∏ixiαi−1
Topic Model 先验
Gumbel & Concrete
exp ( − ( − log p + G ) ) \exp(-(-\log p + G)) exp(−(−logp+G))
[Murphy, Machine Learning: A Probabilistic Perspective] 2.4
5. 信息论三件套
Why 损失函数(Cross-Entropy、KL、ELBO)全部是信息论量。
What
熵: H ( p ) = − ∑ x p ( x ) log p ( x ) H(p)=-\sum_x p(x)\log p(x) H(p)=−∑xp(x)logp(x)
交叉熵: H ( p , q ) = − ∑ x p ( x ) log q ( x ) H(p,q)=-\sum_x p(x)\log q(x) H(p,q)=−∑xp(x)logq(x)
KL 散度: D KL ( p ∥ q ) = ∑ x p ( x ) log p ( x ) q ( x ) D_{\text{KL}}(p\|q)=\sum_x p(x)\log\frac{p(x)}{q(x)} DKL(p∥q)=∑xp(x)logq(x)p(x)
互信息: I ( X ; Y ) = D KL ( p ( x , y ) ∥ p ( x ) p ( y ) ) I(X;Y)=D_{\text{KL}}(p(x,y)\|p(x)p(y)) I(X;Y)=DKL(p(x,y)∥p(x)p(y))
Where
CLIP 训练目标: L = − 1 N ∑ i , j log exp ( z i ⊤ z j / τ ) ∑ k exp ( z i ⊤ z k / τ ) \mathcal{L}=-\frac{1}{N}\sum_{i,j} \log\frac{\exp(\mathbf{z}_i^\top \mathbf{z}_j/\tau)}{\sum_k \exp(\mathbf{z}_i^\top \mathbf{z}_k/\tau)} L=−N1∑i,jlog∑kexp(zi⊤zk/τ)exp(zi⊤zj/τ) 本质是最小化对称交叉熵。
VAE 的 KL 正则项。
Next
[Cover & Thomas, Elements of Information Theory] 2.1–2.5
6. 多元高斯 & 高斯过程
Why 高斯假设让线性模型变成“核技巧”,让深度特征空间变成“高维高斯云”。
What
多元高斯 PDF: N ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) ⊤ Σ − 1 ( x − μ ) ) \mathcal{N}(\mathbf{x}|\boldsymbol{\mu},\boldsymbol{\Sigma})=\frac{1}{(2\pi)^{d/2}|\boldsymbol{\Sigma}|^{1/2}}\exp\!\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^\top\boldsymbol{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right) N(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)⊤Σ−1(x−μ))
条件高斯: p ( x a ∣ x b ) = N ( μ a ∣ b , Σ a ∣ b ) p(\mathbf{x}_a|\mathbf{x}_b)=\mathcal{N}(\boldsymbol{\mu}_{a|b},\boldsymbol{\Sigma}_{a|b}) p(xa∣xb)=N(μa∣b,Σa∣b) 其中 μ a ∣ b = μ a + Σ a b Σ b b − 1 ( x b − μ b ) \boldsymbol{\mu}_{a|b}=\boldsymbol{\mu}_a+\boldsymbol{\Sigma}_{ab}\boldsymbol{\Sigma}_{bb}^{-1}(\mathbf{x}_b-\boldsymbol{\mu}_b) μa∣b=μa+ΣabΣbb−1(xb−μb)
高斯过程:任意有限维分布为联合高斯的函数先验。
Where
StyleGAN2 的 W + W+ W+ 空间用高斯假设做 editing。
GP-LSTM 结合 RNN 与 GP 建模不确定性。
Next
[Rasmussen & Williams, Gaussian Processes for Machine Learning]
7. 变分推断(VI)
Why 把“后验”转成“优化”,让 Bayes 神经网络可训练。
What
ELBO 分解: log p ( x ) ≥ L ( q ) = E q ( z ) log p ( x , z ) − E q ( z ) log q ( z ) \log p(x)\geq \mathcal{L}(q)=\mathbb{E}_{q(z)}\log p(x,z)-\mathbb{E}_{q(z)}\log q(z) logp(x)≥L(q)=Eq(z)logp(x,z)−Eq(z)logq(z)
Mean-field: q ( z ) = ∏ i q i ( z i ) q(z)=\prod_i q_i(z_i) q(z)=∏iqi(zi)
Amortized VI: q ϕ ( z ∣ x ) q_\phi(z|x) qϕ(z∣x) 用神经网络参数化。
Where
VAE、β-VAE、NVAE、Diffusion-VI。
Next
[Zhang et al., Advances in Variational Inference] (2019)
8. 蒙特卡洛方法
Why 高维积分无法解析,只能采样。
What
简单 MC: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N f(x_i) E[f(X)]≈N1∑i=1Nf(xi)
重要性采样: E [ f ( X ) ] ≈ 1 N ∑ i = 1 N p ( x i ) q ( x i ) f ( x i ) \mathbb{E}[f(X)]\approx\frac{1}{N}\sum_{i=1}^N \frac{p(x_i)}{q(x_i)}f(x_i) E[f(X)]≈N1∑i=1Nq(xi)p(xi)f(xi)
What 若 z ∼ q ϕ ( z ∣ x ) z\sim q_\phi(z|x) z∼qϕ(z∣x) 可写成 z = g ϕ ( x , ϵ ) , ϵ ∼ p ( ϵ ) z=g_\phi(x,\epsilon),\;\epsilon\sim p(\epsilon) z=gϕ(x,ϵ),ϵ∼p(ϵ),则 ∇ ϕ E q ϕ [ f ( z ) ] = E p ( ϵ ) [ ∇ ϕ f ( g ϕ ( x , ϵ ) ) ] \nabla_\phi \mathbb{E}_{q_\phi}[f(z)]=\mathbb{E}_{p(\epsilon)}\!\left[\nabla_\phi f(g_\phi(x,\epsilon))\right] ∇ϕEqϕ[f(z)]=Ep(ϵ)[∇ϕf(gϕ(x,ϵ))]
Where
VAE 的 encoder q ϕ ( z ∣ x ) = N ( z ∣ μ ϕ ( x ) , σ ϕ 2 ( x ) ) q_\phi(z|x)=\mathcal{N}(z|\mu_\phi(x),\sigma^2_\phi(x)) qϕ(z∣x)=N(z∣μϕ(x),σϕ2(x)) 用 z = μ + σ ⊙ ϵ z=\mu+\sigma\odot\epsilon z=μ+σ⊙ϵ。
Sklar 定理:任意联合分布 F ( x 1 , … , x d ) = C ( F 1 ( x 1 ) , … , F d ( x d ) ) F(x_1,\dots,x_d)=C(F_1(x_1),\dots,F_d(x_d)) F(x1,…,xd)=C(F1(x1),…,Fd(xd))
Gaussian Copula、Vine Copula、Implicit Copula。
Where
Tabular GAN(CTGAN、TVAE)用 Copula 处理混合类型特征。
Next
[Joe, Dependence Modeling with Copulas]
11. 随机过程 & 随机微积分
Why 扩散模型、随机最优控制、SDE-GAN 的数学基础。
What
布朗运动 W t W_t Wt: W t − W s ∼ N ( 0 , t − s ) W_t-W_s\sim\mathcal{N}(0,t-s) Wt−Ws∼N(0,t−s)
Itô 引理: d f ( t , X t ) = ∂ f ∂ t d t + ∂ f ∂ x d X t + 1 2 ∂ 2 f ∂ x 2 ( d X t ) 2 df(t,X_t)=\frac{\partial f}{\partial t}\!dt+\frac{\partial f}{\partial x}\!dX_t+\frac{1}{2}\frac{\partial^2 f}{\partial x^2}\!(dX_t)^2 df(t,Xt)=∂t∂fdt+∂x∂fdXt+21∂x2∂2f(dXt)2
SDE: d X t = μ ( X t , t ) d t + σ ( X t , t ) d W t dX_t=\mu(X_t,t)\,dt+\sigma(X_t,t)\,dW_t dXt=μ(Xt,t)dt+σ(Xt,t)dWt
Where
DDPM 的逆向 SDE: d x = [ f ( x , t ) − g ( t ) 2 ∇ x log p t ( x ) ] d t + g ( t ) d W ˉ t d\mathbf{x}=[f(\mathbf{x},t)-g(t)^2\nabla_\mathbf{x}\log p_t(\mathbf{x})]\,dt+g(t)\,d\bar{W}_t dx=[f(x,t)−g(t)2∇xlogpt(x)]dt+g(t)dWˉt
Next
[Øksendal, Stochastic Differential Equations]
12. 大数定律 & 中心极限定理
Why 训练误差为何收敛?batch size 如何影响方差?
What
LLN: 1 n ∑ i = 1 n X i → a.s. E [ X ] \frac{1}{n}\sum_{i=1}^n X_i\xrightarrow{\text{a.s.}}\mathbb{E}[X] n1∑i=1nXia.s.E[X]
CLT: n ( 1 n ∑ X i − μ ) → d N ( 0 , σ 2 ) \sqrt{n}\left(\frac{1}{n}\sum X_i-\mu\right)\xrightarrow{d}\mathcal{N}(0,\sigma^2) n(n1∑Xi−μ)dN(0,σ2)
Where
SGD 噪声分析: θ t + 1 = θ t − η t ( ∇ L + ξ t ) \boldsymbol{\theta}_{t+1}=\boldsymbol{\theta}_t-\eta_t(\nabla L+\boldsymbol{\xi}_t) θt+1=θt−ηt(∇L+ξt),其中 ξ t \boldsymbol{\xi}_t ξt 近似高斯。
Next
[Vershynin, High-Dimensional Probability]
13. 泛化误差与 PAC-Bayes
Why 解释为什么大模型不 overfit。
What
PAC-Bayes 界: E Q [ L D ( f ) ] ≤ E Q [ L S ( f ) ] + D KL ( Q ∥ P ) + log n δ 2 ( n − 1 ) \mathbb{E}_{Q}[L_D(f)]\leq \mathbb{E}_{Q}[L_S(f)]+\sqrt{\frac{D_{\text{KL}}(Q\|P)+\log\frac{n}{\delta}}{2(n-1)}} EQ[LD(f)]≤EQ[LS(f)]+2(n−1)DKL(Q∥P)+logδn
Hoeffding: P ( ∣ 1 n ∑ X i − μ ∣ ≥ t ) ≤ 2 exp ( − 2 n t 2 ( b − a ) 2 ) \mathbb{P}\!\left(\left|\frac{1}{n}\sum X_i-\mu\right|\geq t\right)\leq 2\exp\!\left(-\frac{2nt^2}{(b-a)^2}\right) P(n1∑Xi−μ≥t)≤2exp(−(b−a)22nt2)
McDiarmid:有界差分 ⇒ 集中
Azuma:鞅差序列 ⇒ 集中
Where
证明 Mixup 的期望风险上界。
Next
[Boucheron et al., Concentration Inequalities]
15. Optimal Transport & Wasserstein 距离
Why GAN 的 JS 散度会梯度消失,Wasserstein 距离不会。
What
W p ( μ , ν ) = ( inf γ ∈ Π ( μ , ν ) E ( x , y ) ∼ γ ∥ x − y ∥ p ) 1 / p W_p(\mu,\nu)=\left(\inf_{\gamma\in\Pi(\mu,\nu)}\mathbb{E}_{(x,y)\sim\gamma}\|x-y\|^p\right)^{1/p} Wp(μ,ν)=(infγ∈Π(μ,ν)E(x,y)∼γ∥x−y∥p)1/p
Kantorovich-Rubinstein 对偶: W 1 ( μ , ν ) = sup ∥ f ∥ L ≤ 1 E μ [ f ] − E ν [ f ] W_1(\mu,\nu)=\sup_{\|f\|_L\leq 1}\mathbb{E}_\mu[f]-\mathbb{E}_\nu[f] W1(μ,ν)=∥f∥L≤1supEμ[f]−Eν[f]
Where
WGAN-GP 的 gradient penalty。
Next
[Peyré & Cuturi, Computational Optimal Transport]
16. 自回归模型 & 因果推断
Why Transformer 的 Mask、Diffusion 的 Causal 链式法则。
What
链式法则: p ( x 1 : n ) = ∏ i = 1 n p ( x i ∣ x < i ) p(x_{1:n})=\prod_{i=1}^n p(x_i|x_{<i}) p(x1:n)=∏i=1np(xi∣x<i)
干预分布: p ( y ∣ do ( X = x ) ) p(y|\text{do}(X=x)) p(y∣do(X=x))
Where
GPT 的 left-to-right 因子分解。
Next
[Pearl, Causality]
17. 隐变量模型 & EM 算法
Why GMM、HMM、VAE 的底层框架。
What
隐变量 z z z: p ( x ) = ∫ p ( x ∣ z ) p ( z ) d z p(x)=\int p(x|z)p(z)\,dz p(x)=∫p(x∣z)p(z)dz
EM: E 步: q ( t ) ( z ) = p ( z ∣ x , θ ( t ) ) q^{(t)}(z)=p(z|x,\theta^{(t)}) q(t)(z)=p(z∣x,θ(t)) M 步: θ ( t + 1 ) = arg max θ E q ( t ) [ log p ( x , z ∣ θ ) ] \theta^{(t+1)}=\arg\max_\theta \mathbb{E}_{q^{(t)}}[\log p(x,z|\theta)] θ(t+1)=argmaxθEq(t)[logp(x,z∣θ)]
Where
深度高斯混合 VAE。
Next
[Bishop, PRML] 9.2–9.4
18. 非参数 Bayes
Why 让模型大小随数据增长,避免手动调参。
What
Dirichlet Process: G ∼ D P ( α , G 0 ) G\sim\mathrm{DP}(\alpha,G_0) G∼DP(α,G0)
Chinese Restaurant Process:先验聚类数无限。
Where
Infinite Mixture VAE。
Next
[Ghahramani, Nonparametric Bayesian Methods]
19. 随机矩阵理论
Why 解释神经正切核(NTK)的谱分布、初始化方差。
What
Marchenko-Pastur 分布: f λ ( x ) = 1 2 π λ x ( b − x ) ( x − a ) , a , b = ( 1 ∓ λ ) 2 f_\lambda(x)=\frac{1}{2\pi\lambda x}\sqrt{(b-x)(x-a)},\;a,b=(1\mp\sqrt{\lambda})^2 fλ(x)=2πλx1(b−x)(x−a),a,b=(1∓λ)2
Where
计算 Xavier/Kaiming 初始化的临界方差。
Next
[Tao, Topics in Random Matrix Theory]
20. 强化学习中的 Bellman 方程
Why Actor-Critic、Soft-Q-Learning 是概率推断的特例。
What
Bellman 最优: Q ∗ ( s , a ) = E [ r + γ max a ′ Q ∗ ( s ′ , a ′ ) ∣ s , a ] Q^*(s,a)=\mathbb{E}[r+\gamma\max_{a'}Q^*(s',a')|s,a] Q∗(s,a)=E[r+γmaxa′Q∗(s′,a′)∣s,a]
概率视角: log p ( τ ) ∝ ∑ t = 0 T log π ( a t ∣ s t ) + log p ( r t ∣ s t , a t ) \log p(\tau)\propto\sum_{t=0}^T\log\pi(a_t|s_t)+\log p(r_t|s_t,a_t) logp(τ)∝∑t=0Tlogπ(at∣st)+logp(rt∣st,at)
Where
Soft Actor-Critic 的熵正则化等价于变分推断。
Next
[Levine, Reinforcement Learning and Control as Probabilistic Inference]