引言

从本节开始将介绍同为概率生成模型的隐马尔可夫模型(Hidden Markov Model,HMM)。在介绍隐马尔可夫模型之前，对概率模型的整个逻辑进行阶段性介绍。

概率模型的阶段性介绍

频率学派求解模型的特点

在极大似然估计与最大后验概率估计中介绍过，频率学派的思想是将概率模型 $P(\mathcal X \mid \theta)$ 中的参数 $\theta$ 视作一个未知常量，通过求解 $\theta$ 实现求解概率模型 $P(\mathcal X \mid \theta)$ 。

频率学派针对的核心问题可看作是优化问题。何为优化问题？
它的具体流程可以表示如下：

首先，针对具体任务，将模型(Model)定义出来；
基于模型，结合任务以及样本点的性质，构建出相应的策略(Strategy)：它是关于衡量模型参数的工具，即通过构建损失函数(Loss Function)来描述模型参数 $\theta$ 和任务结果之间的关联关系。
算法部分，针对构建好的策略，求解最优模型参数 $\hat \theta$ ，从而求解概率模型 $P(\mathcal X \mid \theta)$ 。
常见的模型参数求解方法有：
- 求解析解：极大似然估计(Maximum Likelihood Estimate，MLE)；
- 求迭代解：EM算法(Expectation-Maximization algorithm, EM)；梯度下降(Gradient Descent,GD)；牛顿法(Newton’s Method)，自适应运动估计算法(Adaptive Momentum,Adam)等等。
示例1：感知机算法(Perceptron)
- 模型表示：
  $f(\mathcal W,b) = sign(\mathcal W^{T}x^{(i)} + b) \quad (i=1,2,\cdots,N)$
- 策略设计：
  $\mathcal L(\mathcal W,b) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} -y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) \quad (\mathcal D = \{(x^{(i)},y^{(i)}) \mid y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right) < 0\})$
- 算法过程：梯度下降
  $\mathcal W^{(t+1)} \gets \mathcal W^{(t)} - \lambda \nabla_{\mathcal W} \mathcal W(\mathcal W,b)$
示例2：线性回归(Linear Regression)
- 模型表示：
  $f(\mathcal W,b) = \mathcal W^{T}x^{(i)} + b \quad (i=1,2,\cdots,N)$
- 策略设计：最小二乘估计(Least Squares estimation,LS)
  $\mathcal L(\mathcal W,b) = \sum_{i=1}^N ||\mathcal W^{T}x^{(i)} + b - y^{(i)}||^2$
- 算法过程：最小化最小二乘估计产生的误差结果
  $\hat {\mathcal W} = \mathop{\arg\min}\limits_{\mathcal W} \mathcal L(\mathcal W,b) \\ \hat {b} = \mathop{\arg\min}\limits_{b} \mathcal L(\mathcal W,b)$

贝叶斯学派求解模型的特点

基于贝叶斯学派延伸的体系被称作概率图模型。它对应的概率模型 $P(\mathcal X \mid \theta)$ 的求解主要通过两步操作：

引入隐变量 $\mathcal Z$ ，对隐变量 $\mathcal Z$ 的后验概率分布 $P(\mathcal Z \mid \mathcal X,\theta)$ 进行求解。
基于步骤1，对完整数据 $(\mathcal X,\mathcal Z)$ 的联合概率分布 $P(\mathcal X,\mathcal Z \mid \theta)$ 积分，从而求解概率模型 $P(\mathcal X \mid \theta)$ ：
$\begin{aligned} P(\mathcal X \mid \theta) & = \int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)d\mathcal Z \\ & = \int_{\mathcal Z} P(\mathcal Z \mid \mathcal X,\theta) \cdot P(\mathcal X \mid \mathcal Z) d\mathcal Z \\ \end{aligned}$

针对 $P(\mathcal Z \mid \mathcal X)$ 的求解被称为推断(Inference)。在之前介绍过的EM算法中就介绍了两种情况：

狭义EM算法： $P(\mathcal Z \mid \mathcal X,\theta)$ 可直接求解：
$\mathcal Q(\mathcal Z) = P(\mathcal Z \mid \mathcal X,\theta^{(t)})$
广义EM算法：由于 $P(\mathcal Z \mid \mathcal X,\theta)$ 在定义过程中就十分复杂，导致其不可直接求解。广义EM就通过 最小化 $\mathcal K\mathcal L$ 散度的方式求解 $P(\mathcal Z \mid \mathcal X,\theta)$ 的近似解：
$\begin{aligned} \hat {\mathcal Q}^{(t+1)}(\mathcal Z) & = \mathop{\arg\min}\limits_{\mathcal Q(\mathcal Z)} \mathcal K\mathcal L \left[\mathcal Q(\mathcal Z) || P(\mathcal Z \mid \mathcal X,\theta^{(t)})\right] \\ & = \mathop{\arg\max}\limits_{\mathcal Q(\mathcal Z)} \int_{\mathcal Z}\mathcal Q(\mathcal Z) \log \frac{P(\mathcal X,\mathcal Z \mid \theta)}{\mathcal Q(\mathcal Z)} d\mathcal Z \end{aligned}$

实际上，求解 $P(\mathcal Z \mid \mathcal X,\theta)$ 近似解的方式有很多种，如确定性近似的代表：变分推断(Variational Inference,VI)，随机性近似的代表：马尔可夫链蒙特卡洛方法(Markov Chain Monte Karlo,MCMC)，在后续的笔记中将会介绍。

静态概率图模型与动态概率图模型的区别

概率图，本质上是将数据结构中的图结构(Graph)赋予概率的意义。既然是图模型，自然分有向图和无向图。

通常称有向概率图模型为贝叶斯网络(Bayesion Network)；
通常称无向概率图模型为马尔可夫随机场(Markov Random FIeld)或 马尔可夫网络(Markov Network)；

如果将概率图模型添加一个其他维度的特征信息。如时间序列信息，可以将静态概率图模型延伸至动态概率图模型。

静态概率图模型

在高斯混合模型(Gaussain Mixture Model,GMM)中，从生成模型角度观察，概率模型 $P(\mathcal X \mid \theta)$ 中生成的样本 $x^{(i)}(i=1,2,\cdots,N)$ ，各样本之间独立同分布。即：
可以描述为：各样本 $x^{(i)}(i=1,2,\cdots,N)$ 之间相互独立并且均服从 $P(\mathcal X \mid \theta)$ 分布。
$x^{(i)} \overset{\text{i.i.d.}}{\sim} P(\mathcal X \mid \theta)$
并且高斯混合模型中一旦样本 $x^{(i)}$ 从概率模型 $P(\mathcal X \mid \theta)$ 中生成出来后，就 被固定住，不再发生变化；

相反，什么情况下概率模型 $P(\mathcal X \mid \theta)$ 生成出的样本 $x^{(i)}$ 会发生变化？
以高斯混合模型为例，介绍不发生变化的情况。
观察高斯混合模型的概率图表示如下(左图)：
请添加图片描述

高斯混合模型的隐变量 $\mathcal Z$ 一个离散的参数分布：
$\mathcal Z = \{z_1,z_2,\cdots,z_{\mathcal K}\}$
每个离散参数唯一对应一个概率结果：
$z_{k} \to p_k \quad \sum_{k =1}^{\mathcal K} p_k = 1$
对任意样本 $x^{(i)}$ ，它对应的隐变量 $z^{(i)}$ 以及隐变量对应的概率分布 $p_{z^{(i)}}$ 表示如下：
$z^{(i)} = (z_1^{(i)},z_2^{(i)},\cdots,z_{\mathcal K}^{(i)})^{T} \\ p_{z^{(i)}} = (p_1^{(i)},p_2^{(i)},\cdots,p_{\mathcal K}^{(i)})^{T}$
同理，在隐变量 $z^{(i)}$ 中的概率 $p_{z^{(i)}}$ 确定后，样本 $x^{(i)}$ 将从 $z^{(i)}$ 唯一对应的高斯分布 $\mathcal N(\mu_{z^{(i)}},\Sigma_{z^{(i)}})$ 中随机生成出来。对应的 $\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ 表示为如下格式：
$\mu_{z^{(i)}} = (\mu_1^{(i)},\mu_2^{(i)},\dots,\mu_{\mathcal K}^{(i)})^{T} \\ \Sigma_{z^{(i)}} = (\Sigma_1^{(i)},\Sigma_2^{(i)},\cdots,\Sigma_{\mathcal K}^{(i)})^{T}$
基于上述参数 $p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ ，一旦样本 $x^{(i)}$ 在样本空间中被生成出来，参数 $p_{z^{(i)}},\mu_{z^{(i)}},\Sigma_{z^{(i)}}$ 均被固定住，无法变化。

动态概率图模型

和上述逻辑相反，以时间特征信息为例，如果 隐变量 $\mathcal Z$ 随着时间的变化而变化，从而影响 $\mathcal X$ 的变化。那么称满足这种现象的概率图模型为动态概率图模型。

我们称上述右图中有序的隐变量组成的集合称为系统状态(System State)，它是由不同状态下的隐变量 $\mathcal Z$ 组成的。

综上，我们观察到动态概率图模型包含两种特性：
后续简称动态模型(Dynamic Model)

从动态模型中生成的样本点 $x^{(i)}$ 之间不是独立同分布；
系统状态中的状态(隐变量) $\mathcal Z$ 之间存在关联关系。
动态模型中不仅包含混合信息( $P(\mathcal Z,\mathcal X)$ )，还包含系统状态中隐变量的变化信息。

如果将动态模型继续向下划分：

如果 系统状态中的每一个状态 $\mathcal Z$ 的取值范围是离散的，以系统状态中 $t$ 时刻对应的隐变量 $\mathcal Z^{(t)}$ 为例， $z^{(i)t}$ 表示 $t$ 时刻的样本点 $x^{(i)}$ 对应的隐变量，存在 $\mathcal K$ 个离散结果供 $z^{(i)t}$ 选择。即：
$z^{(i)t} \in \{z_1^{(i)t},z_2^{(i)t},\cdots,z_{\mathcal K}^{(i)t}\}$
我们称满足上述条件的动态模型代表是隐马尔可夫模型(Hidden Markov Model,HMM)。
对应第一种情况，如果系统状态中的每一个状态 $\mathcal Z$ 的取值范围是连续的，即上述示例中的 $z^{(i)t}$ 通过 某个连续函数产生结果。基于该条件，可以继续向下划分：
- 如果该连续函数是线性函数，它的动态模型代表是卡尔曼滤波(Kalman Filter)
- 如果该连续函数是非线性函数，它的动态模型代表是粒子滤波(Particle Filter)

下一节将正式介绍隐马尔可夫模型。

相关参考：
机器学习-隐马尔可夫模型1-背景介绍

本文含有隐藏内容，请开通VIP 后查看

机器学习笔记之隐马尔可夫模型(一)概率模型背景的阶段性介绍

机器学习笔记之马尔可夫模型——概率模型背景的阶段性介绍

引言

概率模型的阶段性介绍

频率学派求解模型的特点

贝叶斯学派求解模型的特点

静态概率图模型与动态概率图模型的区别

静态概率图模型

动态概率图模型

网站公告

今日签到

热门文章

最新发布