机器学习笔记之EM算法——隐变量与EM算法的本质

引言

引言

上一节介绍了EM算法公式的导出过程，本节将重新回顾EM算法，比对各模型的求解方式，并探究引入隐变量与EM算法的本质。

回顾：EM算法

从性质上介绍EM算法

EM算法本质上是一种算法，它的目标是通过求解参数 $\theta$ ，将概率模型 $P(\mathcal X \mid \theta)$ 表示出来。
和EM算法具有 相似性质 的如：极大似然估计(MLE)，最大后验概率估计(MAP)：
$\hat \theta_{MLE} = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta) \\ \hat \theta_{MAP} \propto \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X \mid \theta)P(\theta)$

和上述两种方法不同的是，EM算法并没有求解析解，而是迭代解：
与其说是求解，不如说是对求解过程中‘对解进行优化’。相似方法的有‘梯度下降’~
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \int_{\mathcal Z} P(\mathcal X,\mathcal Z \mid \theta)P(\mathcal Z \mid \mathcal X,\theta^{(t)}) d\mathcal Z$
通过EM算法的收敛性证明，可以推导出EM算法在迭代过程中可以对模型参数的解 $\theta$ 进行优化，从而达到一个至少是局部最优的解：
$\log P(\mathcal X \mid \theta^{(t+1)}) \geq \log P(\mathcal X \mid \theta^{(t)})$

其他概念回顾

由于EM算法的算法性质，自然和之前介绍的其他概念存在明显区分：

线性回归

例如之前介绍的很多概念如：线性回归，它的模型只是一个线性函数：
$f(\mathcal W,b) = \mathcal W^{T}\mathcal X + b$
基于该模型，如何通过求解模型参数 $\mathcal W,b$ 来实现回归任务？因此介绍一种求解模型参数 $\mathcal W,b$ 的工具：最小二乘估计：
$\mathcal L(\mathcal W,b) = \sum_{i=1}^N||\mathcal W^{T}x^{(i)} + b - y^{(i)}|| \quad (x^{(i)},y^{(i)}) \in Data$
我们要强调的是：最小二乘估计 自身是不能求解最优模型参数，他只是提供了一种手段，而真正求解最优参数 $\hat {\mathcal W},\hat b$ 是如下式子：
$\hat {\mathcal W},\hat b = \mathop{\arg\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b)$
因此，最小二乘估计 $\mathcal L(\mathcal W,b)$ 通常称之为 策略，还有一个更熟悉的名字：损失函数(Loss Function)。
在介绍线性分类中，在介绍每一种方法时，都会提到一个词：朴素思想。而 朴素思想就是构建策略的心路历程。

感知机算法

例如：感知机算法(perceptron)
它的朴素思想：错误驱动。基于该思想构建的策略是：
$\mathcal L(\mathcal W,b) = \sum_{(x^{(i)},y^{(i)}) \in \mathcal D} -y^{(i)}\left(\mathcal W^{T}x^{(i)} + b\right)$
基于该策略的具体算法是：
$\hat {\mathcal W},\hat b = \mathop{\arg\min}\limits_{\mathcal W,b} \mathcal L(\mathcal W,b)$

支持向量机

支持向量机不仅仅只满足于当前样本分类正确，并且它希望分类模型鲁棒性更强，预测结果更加泛化。

以硬间隔SVM为例，它的朴素思想是：基于选择的模型，将样本全部分类正确的条件下，使得距离划分直线(超平面)最近的样本点到直线(超平面)之间的距离最大。

因此，基于该思想的策略表达如下：
$\begin{cases} \mathop{\max}\limits_{\mathcal W,b} \mathop{\min}\limits_{x^{(i)} \in \mathcal X} \frac{1}{||\mathcal W||} \left|\mathcal W^{T}x^{(i)} + b\right| \\ s.t. \quad y^{(i)} \left(\mathcal W^{T}x^{(i)} + b \right) > 0 \end{cases}$

我们可以看出，在之前介绍的每一种方法，其核心都是策略的构建，而不是模型本身。甚至整个线性分类都共用同一款模型：
$f(\mathcal W,b) = sign(\mathcal W^{T}\mathcal X + b)$
其区别只是在 $s i g n$ 函数连续、不连续而已。

需要使用EM算法求解的问题

回顾关于EM算法公式的相关结论：
$\mathcal X = \{x^{(1)},x^{(2)},\cdots,x^{(N)}\} \\ \mathcal Z = \{z^{(1)},z^{(2)},\cdots,z^{(n)}\}$
其中， $\mathcal X$ 称为观测变量； $\mathcal Z$ 称为隐变量；
$(\mathcal X,\mathcal Z)$ 称为完备数据(Complete Data)；
EM算法求解的概率模型如下：
$P(\mathcal X \mid \theta)$
其中， $\theta$ 表示模型参数(Model Parameter);
EM算法通过E部(Expectation-step)和M部(Maximization step)交替迭代计算优化模型参数：

E部操作：
$\mathbb E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$
M部操作：
$\theta^{(t+1)} = \mathop{\arg\max}\limits_{\theta} \left\{\mathbb E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]\right\}$

而EM算法主要应用于求解 概率生成模型 的模型参数。

概率生成模型

在介绍隐变量的过程中我们提到过：隐变量 $\mathcal Z$ 只是一个人为设置的变量，它并不真实存在，从始至终真实存在的只有观测变量 $\mathcal X$ 。使用概率图对概率生成模型进行表示：
请添加图片描述
尽管这个图很抽象，但是概率生成模型实际表达的意思是：以 $\mathcal Z$ 为条件，通过隐变量 $\mathcal Z$ 生成真实的可观测变量 $\mathcal X$ 。

在介绍线性分类，我们介绍了两个基于软分类的概率生成模型：高斯判别分析(Gaussian Discriminant Analys)和 朴素贝叶斯分类器(Naive BayesClassifier)。

以高斯判别分析为例，高斯判别分析的概率图和上述概率图有一些区别：
可以理解成‘概率生成模型’的一种特殊表示。
请添加图片描述
区别主要在于高斯判别分析它的隐变量是样本标签赋予的，当然这个样本标签也是人为标注的，但 $\mathcal Y$ 确实也是数据集合的一部分；

但是它的思想和概率生成模型是如出一辙的。

基于标签的类别数量，对样本标签的先验分布 $P(\mathcal Y)$ 进行假设；(分类分布或者伯努利分布)
基于 $P(\mathcal Y)$ 确定的条件下，样本针对各标签服从高斯分布。
$\mathcal X \mid \mathcal Y \sim \mathcal N(\mu,\Sigma)$

与高斯判别分析相对应，高斯混合模型(Gaussian Mixture Model,GMM)。从数据集合的角度观察，数据此时不存在标签信息，只剩下样本集合 $\mathcal X$ 的信息。
因此假设隐变量 $\mathcal Z$ 服从分类分布；

$\mathcal Z$	1	2	$\cdots$	$k$
$P(\mathcal Z)$	$p_1$	$p_2$	$\cdots$	$p_k$

在隐变量 $\mathcal Z$ 分布的条件下，基于样本 $\mathcal X$ 的条件概率分布 $P(\mathcal X\mid \mathcal Z)$ 服从高斯分布：
$P(\mathcal X \mid \mathcal Z = i) \sim \mathcal N(\mu_i,\Sigma_i) \quad (i=1,2,\cdots,k)$

在求解过程中，都是对联合概率分布进行建模。
依然以高斯判别分析为例:

它的策略是基于联合概率分布 $P(\mathcal X,\mathcal Y)$ 的 $\log$ 似然函数；
需要假设‘各样本间相互独立’。
算法部分使用 极大似然估计：
$\mathcal L(\theta) = \log P(\mathcal X,\mathcal Y) = \log \prod_{i=1}^N P(x^{(i)},y^{(i)}) \\ \hat \theta = \mathop{\arg\max}\limits_{\theta} \mathcal L(\theta)$

高斯混合模型关于隐变量 $\mathcal Z$ 的假设非常简单，只是离散的一维分布。但实际上 $\mathcal Z$ 的假设有很多种形式和结构。在后续遇到时会再次提起。
接着挖坑~

EM算法的本质

再次回到EM算法本身。无论是狭义EM还是广义EM，它对所求解的概率模型是有条件的：

观测数据只有 $\mathcal X$ ；
概率模型是关于参数 $\theta$ 的函数。即 通过求解参数 $\theta$ 的方式，再通过参数 $\theta$ 表示概率模型：

但是在之前的介绍中，这种求解模式都是使用极大似然估计去做的：
$\hat {\theta} = \mathop{\arg\max}\limits_{\theta} \log P(\mathcal X\mid \theta)$
但是，有的时候，极大似然估计并不是很好用。核心问题在于观测数据 $\mathcal X$ 过于复杂。

如果观测数据 $\mathcal X$ 的分布简单，我们能够发现它的规律还好说，但如果观测数据的分布如下：请添加图片描述
在没有标签信息的条件下，当前这个 2维的观测数据的分布是比较复杂的。
可能存在 已经投入了足够多的样本，使用极大似然估计去估计模型参数 $\theta$ 收效甚微。

因此，我们可能需要对样本分布进行假设，即：假定观测数据 $\mathcal X$ 服从某个概率模型 $P(\mathcal Z)$ ，换句话说，通过概率模型 $P(\mathcal Z)$ 可以源源不断地生成观测数据 $\mathcal X$ 。
因而，复杂的样本分布 $P(\mathcal X)$ 可以通过两步走的形式迂回求解：

将隐变量 $\mathcal Z$ 引进来：
$P(\mathcal X,\mathcal Z) = P(\mathcal X \mid \mathcal Z) P(\mathcal Z)$
用概率密度积分的方式将隐变量 $\mathcal Z$ 积分掉：
$P(\mathcal X) = \int_{\mathcal Z} P(\mathcal X,\mathcal Z)d\mathcal Z$
或者可以看成期望的形式：
$P(\mathcal X) = \mathbb E_{\mathcal Z} \left[P(\mathcal X,\mathcal Z)\right]$
这和EM算法的表示思想如出一辙：
上面两端各添个log就更像啦~
$\log P(\mathcal X \mid \theta) = \mathbb E_{\mathcal Z \mid \mathcal X,\theta} \left[\log P(\mathcal X,\mathcal Z \mid \theta)\right]$

因此，引入隐变量 $\mathcal Z$ 的本质在于简化求解基于当前样本的概率分布 $P(\mathcal X)$ 。

相关参考：
机器学习-EM算法4-再回首

机器学习笔记之EM算法(三)隐变量与EM算法的本质