机器学习笔记之隐马尔可夫模型(一)概率模型背景的阶段性介绍

发布于:2022-12-21 ⋅ 阅读:(344) ⋅ 点赞:(0)

引言

从本节开始将介绍同为概率生成模型隐马尔可夫模型(Hidden Markov Model,HMM)。在介绍隐马尔可夫模型之前,对概率模型的整个逻辑进行阶段性介绍。

概率模型的阶段性介绍

频率学派求解模型的特点

极大似然估计与最大后验概率估计中介绍过,频率学派的思想是将概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)中的参数 θ \theta θ视作一个未知常量,通过求解 θ \theta θ实现求解概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)

频率学派针对的核心问题可看作是优化问题。何为优化问题
它的具体流程可以表示如下:

  • 首先,针对具体任务,将模型(Model)定义出来;

  • 基于模型结合任务以及样本点的性质,构建出相应的策略(Strategy):它是关于衡量模型参数的工具,即通过构建损失函数(Loss Function)来描述模型参数 θ \theta θ任务结果 之间的关联关系

  • 算法部分,针对构建好的策略,求解最优模型参数 θ ^ \hat \theta θ^,从而求解概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)
    常见的模型参数求解方法有:

    • 求解析解:极大似然估计(Maximum Likelihood Estimate,MLE);
    • 求迭代解:EM算法(Expectation-Maximization algorithm, EM);梯度下降(Gradient Descent,GD);牛顿法(Newton’s Method),自适应运动估计算法(Adaptive Momentum,Adam)等等。
  • 示例1:感知机算法(Perceptron)

    • 模型表示:
      f ( W , b ) = s i g n ( W T x ( i ) + b ) ( i = 1 , 2 , ⋯   , N ) f(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b) \quad (i=1,2,\cdots,N) f(W,b)=sign(WTx(i)+b)(i=1,2,,N)
    • 策略设计:
      L ( W , b ) = ∑ ( x ( i ) , y ( i ) ) ∈ D − y ( i ) ( W T x ( i ) + b ) ( D = { ( x ( i ) , y ( i ) ) ∣ y ( i ) ( W T x ( i ) + b ) < 0 } ) \mathcal L(\mathcal W,b) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} -y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \quad (\mathcal D = \{(x^{(i)},y^{(i)}) \mid y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) < 0\}) L(W,b)=(x(i),y(i))Dy(i)(WTx(i)+b)(D={(x(i),y(i))y(i)(WTx(i)+b)<0})
    • 算法过程:梯度下降
      W ( t + 1 ) ← W ( t ) − λ ∇ W W ( W , b ) \mathcal W^{(t+1)} \gets \mathcal W^{(t)} - \lambda \nabla_{\mathcal W} \mathcal W(\mathcal W,b) W(t+1)W(t)λWW(W,b)
  • 示例2:线性回归(Linear Regression)

    • 模型表示:
      f ( W , b ) = W T x ( i ) + b ( i = 1 , 2 , ⋯   , N ) f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b \quad (i=1,2,\cdots,N) f(W,b)=WTx(i)+b(i=1,2,,N)
    • 策略设计:最小二乘估计(Least Squares estimation,LS)
      L ( W , b ) = ∑ i = 1 N ∣ ∣ W T x ( i ) + b − y ( i ) ∣ ∣ 2 \mathcal L(\mathcal W,b) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2 L(W,b)=i=1N∣∣WTx(i)+by(i)2
    • 算法过程:最小化最小二乘估计产生的误差结果
      W ^ = arg ⁡ min ⁡ W L ( W , b ) b ^ = arg ⁡ min ⁡ b L ( W , b ) \hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W,b) \\ \hat {b} = \mathop{\arg\min}\limits_{b} \mathcal L(\mathcal W,b) W^=WargminL(W,b)b^=bargminL(W,b)

贝叶斯学派求解模型的特点

基于贝叶斯学派延伸的体系被称作概率图模型。它对应的概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)的求解主要通过两步操作:

  • 引入隐变量 Z \mathcal Z Z,对隐变量 Z \mathcal Z Z后验概率分布 P ( Z ∣ X , θ ) P(\mathcal Z \mid \mathcal X,\theta) P(ZX,θ)进行求解。
  • 基于步骤1,对完整数据 ( X , Z ) (\mathcal X,\mathcal Z) (X,Z)的联合概率分布 P ( X , Z ∣ θ ) P(\mathcal X,\mathcal Z \mid \theta) P(X,Zθ)积分,从而求解概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)
    P ( X ∣ θ ) = ∫ Z P ( X , Z ∣ θ ) d Z = ∫ Z P ( Z ∣ X , θ ) ⋅ P ( X ∣ Z ) d Z \begin{aligned} P(\mathcal X \mid \theta) & = \int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)d\mathcal Z \\ & = \int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta) \cdot P(\mathcal X \mid \mathcal Z) d\mathcal Z \\ \end{aligned} P(Xθ)=ZP(X,Zθ)dZ=ZP(ZX,θ)P(XZ)dZ

针对 P ( Z ∣ X ) P(\mathcal Z \mid \mathcal X) P(ZX)的求解被称为推断(Inference)。在之前介绍过的EM算法中就介绍了两种情况:

  • 狭义EM算法 P ( Z ∣ X , θ ) P(\mathcal Z \mid \mathcal X,\theta) P(ZX,θ)直接求解
    Q ( Z ) = P ( Z ∣ X , θ ( t ) ) \mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta^{(t)}) Q(Z)=P(ZX,θ(t))

  • 广义EM算法:由于 P ( Z ∣ X , θ ) P(\mathcal Z \mid \mathcal X,\theta) P(ZX,θ)在定义过程中就十分复杂,导致其不可直接求解。广义EM就通过 最小化 K L \mathcal K\mathcal L KL散度的方式求解 P ( Z ∣ X , θ ) P(\mathcal Z \mid \mathcal X,\theta) P(ZX,θ)的近似解
    Q ^ ( t + 1 ) ( Z ) = arg ⁡ min ⁡ Q ( Z ) K L [ Q ( Z ) ∣ ∣ P ( Z ∣ X , θ ( t ) ) ] = arg ⁡ max ⁡ Q ( Z ) ∫ Z Q ( Z ) log ⁡ P ( X , Z ∣ θ ) Q ( Z ) d Z \begin{aligned} \hat {\mathcal Q}^{(t+1)}(\mathcal Z) & = \mathop{\arg\min}\limits_{\mathcal Q(\mathcal Z)} \mathcal K\mathcal L \left[\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta^{(t)})\right] \\ & = \mathop{\arg\max}\limits_{\mathcal Q(\mathcal Z)} \int_{\mathcal Z}\mathcal Q(\mathcal Z) \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z \end{aligned} Q^(t+1)(Z)=Q(Z)argminKL[Q(Z)∣∣P(ZX,θ(t))]=Q(Z)argmaxZQ(Z)logQ(Z)P(X,Zθ)dZ

    实际上,求解 P ( Z ∣ X , θ ) P(\mathcal Z \mid \mathcal X,\theta) P(ZX,θ)近似解的方式有很多种,如确定性近似的代表:变分推断(Variational Inference,VI),随机性近似的代表:马尔可夫链蒙特卡洛方法(Markov Chain Monte Karlo,MCMC),在后续的笔记中将会介绍。

静态概率图模型与动态概率图模型的区别

概率图,本质上是将数据结构中的图结构(Graph)赋予概率的意义。既然是图模型,自然分有向图无向图

  • 通常称有向概率图模型为贝叶斯网络(Bayesion Network);
  • 通常称无向概率图模型为马尔可夫随机场(Markov Random FIeld)或 马尔可夫网络(Markov Network);

如果将概率图模型添加一个其他维度的特征信息。如时间序列信息,可以将静态概率图模型延伸至动态概率图模型

静态概率图模型

高斯混合模型(Gaussain Mixture Model,GMM)中,从生成模型角度观察,概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)中生成的样本 x ( i ) ( i = 1 , 2 , ⋯   , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,,N)各样本之间独立同分布。即:
可以描述为:各样本 x ( i ) ( i = 1 , 2 , ⋯   , N ) x^{(i)}(i=1,2,\cdots,N) x(i)(i=1,2,,N)之间相互独立并且均服从 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)分布。
x ( i ) ∼ i.i.d. P ( X ∣ θ ) x^{(i)} \overset{\text{i.i.d.}}{\sim} P(\mathcal X \mid \theta) x(i)i.i.d.P(Xθ)
并且高斯混合模型中一旦样本 x ( i ) x^{(i)} x(i)概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)中生成出来后,就 被固定住,不再发生变化

相反,什么情况下概率模型 P ( X ∣ θ ) P(\mathcal X \mid \theta) P(Xθ)生成出的样本 x ( i ) x^{(i)} x(i)会发生变化?
高斯混合模型为例,介绍不发生变化的情况
观察高斯混合模型的概率图表示如下(左图):
请添加图片描述

  • 高斯混合模型的隐变量 Z \mathcal Z Z一个离散的参数分布
    Z = { z 1 , z 2 , ⋯   , z K } \mathcal Z = \{z_1,z_2,\cdots,z_{\mathcal K}\} Z={z1,z2,,zK}
  • 每个离散参数唯一对应一个概率结果
    z k → p k ∑ k = 1 K p k = 1 z_{k} \to p_k \quad \sum_{k =1}^{\mathcal K} p_k = 1 zkpkk=1Kpk=1
  • 对任意样本 x ( i ) x^{(i)} x(i),它对应的隐变量 z ( i ) z^{(i)} z(i)以及隐变量对应的概率分布 p z ( i ) p_{z^{(i)}} pz(i)表示如下:
    z ( i ) = ( z 1 ( i ) , z 2 ( i ) , ⋯   , z K ( i ) ) T p z ( i ) = ( p 1 ( i ) , p 2 ( i ) , ⋯   , p K ( i ) ) T z^{(i)} = (z_1^{(i)},z_2^{(i)},\cdots,z_{\mathcal K}^{(i)})^{T} \\ p_{z^{(i)}} = (p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)})^{T} z(i)=(z1(i),z2(i),,zK(i))Tpz(i)=(p1(i),p2(i),,pK(i))T
  • 同理,在隐变量 z ( i ) z^{(i)} z(i)中的概率 p z ( i ) p_{z^{(i)}} pz(i)确定后,样本 x ( i ) x^{(i)} x(i)将从 z ( i ) z^{(i)} z(i)唯一对应的高斯分布 N ( μ z ( i ) , Σ z ( i ) ) \mathcal N(\mu_{z^{(i)}},\Sigma_{z^{(i)}}) N(μz(i),Σz(i))随机生成出来。对应的 μ z ( i ) , Σ z ( i ) \mu_{z^{(i)}},\Sigma_{z^{(i)}} μz(i),Σz(i)表示为如下格式:
    μ z ( i ) = ( μ 1 ( i ) , μ 2 ( i ) , … , μ K ( i ) ) T Σ z ( i ) = ( Σ 1 ( i ) , Σ 2 ( i ) , ⋯   , Σ K ( i ) ) T \mu_{z^{(i)}} = (\mu_1^{(i)},\mu_2^{(i)},\dots,\mu_{\mathcal K}^{(i)})^{T} \\ \Sigma_{z^{(i)}} = (\Sigma_1^{(i)},\Sigma_2^{(i)},\cdots,\Sigma_{\mathcal K}^{(i)})^{T} μz(i)=(μ1(i),μ2(i),,μK(i))TΣz(i)=(Σ1(i),Σ2(i),,ΣK(i))T
  • 基于上述参数 p z ( i ) , μ z ( i ) , Σ z ( i ) p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}} pz(i),μz(i),Σz(i),一旦样本 x ( i ) x^{(i)} x(i)在样本空间中被生成出来,参数 p z ( i ) , μ z ( i ) , Σ z ( i ) p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}} pz(i),μz(i),Σz(i)均被固定住,无法变化

动态概率图模型

和上述逻辑相反,以时间特征信息为例,如果 隐变量 Z \mathcal Z Z随着时间的变化而变化,从而影响 X \mathcal X X的变化。那么称满足这种现象的概率图模型为动态概率图模型

我们称上述右图中有序的隐变量组成的集合称为系统状态(System State),它是由不同状态下的隐变量 Z \mathcal Z Z组成的。

综上,我们观察到动态概率图模型包含两种特性:
后续简称动态模型(Dynamic Model)

  • 动态模型中生成的样本点 x ( i ) x^{(i)} x(i)之间不是独立同分布
  • 系统状态中的状态(隐变量) Z \mathcal Z Z之间存在关联关系
  • 动态模型中不仅包含混合信息( P ( Z , X ) P(\mathcal Z,\mathcal X) P(Z,X)),还包含系统状态中隐变量的变化信息

如果将动态模型继续向下划分

  • 如果 系统状态中的每一个状态 Z \mathcal Z Z的取值范围是离散的,以系统状态中 t t t时刻对应的隐变量 Z ( t ) \mathcal Z^{(t)} Z(t)为例, z ( i ) t z^{(i)t} z(i)t表示 t t t时刻的样本点 x ( i ) x^{(i)} x(i)对应的隐变量存在 K \mathcal K K个离散结果供 z ( i ) t z^{(i)t} z(i)t选择。即:
    z ( i ) t ∈ { z 1 ( i ) t , z 2 ( i ) t , ⋯   , z K ( i ) t } z^{(i)t} \in \{z_1^{(i)t},z_2^{(i)t},\cdots,z_{\mathcal K}^{(i)t}\} z(i)t{z1(i)t,z2(i)t,,zK(i)t}
    我们称满足上述条件的动态模型代表是隐马尔可夫模型(Hidden Markov Model,HMM)。
  • 对应第一种情况,如果系统状态中的每一个状态 Z \mathcal Z Z的取值范围是连续的,即上述示例中的 z ( i ) t z^{(i)t} z(i)t通过 某个连续函数产生结果。基于该条件,可以继续向下划分
    • 如果该连续函数是线性函数,它的动态模型代表是卡尔曼滤波(Kalman Filter)
    • 如果该连续函数是非线性函数,它的动态模型代表是粒子滤波(Particle Filter)

下一节将正式介绍隐马尔可夫模型

相关参考:
机器学习-隐马尔可夫模型1-背景介绍