Bishop 模式识别与机器学习读书笔记_ch2.2 连续性概率分布-EW帮帮网

ch2.2 连续型概率分布

1. 高斯分布

⾼斯分布，也被称为正态分布，⼴泛应⽤于连续型随机变量分布的模型中。对于⼀元变量 $x$ 的情形，⾼斯分布可以写成下⾯的形式
$\mathcal{N}(x|\mu,\sigma^2)=\frac{1}{(2\pi\sigma^2)^{1/2}}\exp\Big\{−\frac{(x-\mu)^2}{2\sigma^2}\Big\}\notag$

此处， $\mu$ 表示均值， $\sigma^2$ 表示方差。

import math
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set(style="darkgrid")

mu = 0
sigma = 1
x = np.arange(-5, 5, 0.1)
y = np.exp((x-mu)**2/(-2*sigma**2))/math.sqrt(2*math.pi*sigma**2)

plt.plot(x, y, 'r-')
plt.show()

在这里插入图片描述

对于 $D$ -维向量 $\mathbf{x}$ ，高斯分布表示为
$\mathcal{N}(\mathbf{x}\vert\mu,\Sigma)=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\exp\Big\{−\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu})\Big\}\notag$
此处， $\mathbf{\mu}$ 表示 $D$ 维均值向量， $\Sigma$ 为 $D\times D$ 维的协方差矩阵， $\vert\cdot\vert$ 表示矩阵的行列式。

#!/usr/bin/python
#  -*- coding:utf-8 -*-

import numpy as np
from scipy import stats
import matplotlib as mpl
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm


if __name__ == '__main__':
    x1, x2 = np.mgrid[-5:5:51j, -5:5:51j]
    x = np.stack((x1, x2), axis=2)
    print('x1 = \n', x1)
    print('x2 = \n', x2)
    print('x = \n', x)

    mpl.rcParams['axes.unicode_minus'] = False
    mpl.rcParams['font.sans-serif'] = 'SimHei'
    plt.figure(figsize=(9, 8), facecolor='w')
    sigma = (np.identity(2), np.diag((3,3)), np.diag((2,5)), np.array(((2,1), (1,5))))
    for i in np.arange(4):
        ax = plt.subplot(2, 2, i+1, projection='3d')
        norm = stats.multivariate_normal((0, 0), sigma[i])
        y = norm.pdf(x)
        ax.plot_surface(x1, x2, y, cmap=cm.Accent, rstride=1, cstride=1, alpha=0.9, lw=0.3, edgecolor='#303030')
        ax.set_xlabel('X')
        ax.set_ylabel('Y')
        ax.set_zlabel('Z')
    plt.suptitle('二元高斯分布方差比较', fontsize=18)
    plt.tight_layout(1.5)
    plt.show()

在这里插入图片描述

高斯分布会在许多不同的问题中产生，可以从多个不同的角度来理解。例如，我们可以看到，对于一个一元实值向量，使熵取得最大值的是高斯分布。这个性质对于多元高斯也成立。

当我们考虑多个随机变量之和的时候，也会产生高斯分布。拉普拉斯提出的中心极限定理（central limit theorem）告诉我们，对于某些温和的情况，⼀组随机变量之和（当然也是随机变量）的概率分布随着和式中项的数量的增加而逐渐趋向高斯分布（Walker,1969）。考虑 $N$ 个变量(特征或列) $\{x_i\in R\vert i=1,\cdots,N\}$ ，每⼀个都是区间 $[0, 1]$ 上的均匀分布，然后考虑均值（列均值） $(x_1+\cdots+x_N)/N$ 的分布。对于大的N，这个分布趋向于高斯分布，如图所示（样本点个数设定为10万）。

import matplotlib.pyplot as plt
from scipy.stats import uniform

plt.figure(figsize=(10, 5))

plt.subplot(1, 3, 1)
plt.xlim(0, 1)
plt.ylim(0, 5)
plt.annotate("N=1", (0.1, 4.5))
print(uniform.rvs(5)) # 与下一行相比，加不加参数“size=”，有天壤之别
plt.hist(uniform.rvs(size=100000), bins=20, density=True)

plt.subplot(1, 3, 2)
plt.xlim(0, 1)
plt.ylim(0, 5)
plt.annotate("N=2", (0.1, 4.5))
plt.hist(0.5 * (uniform.rvs(size=100000) + uniform.rvs(size=100000)), bins=20, density=True)

plt.subplot(1, 3, 3)
plt.xlim(0, 1)
plt.ylim(0, 5)
sample = 0
for _ in range(10):
    sample = sample + uniform.rvs(size=100000)
plt.annotate("N=10", (0.1, 4.5))
plt.hist(sample * 0.1, bins=20, density=True)

plt.show()

在这里插入图片描述

在实际应⽤中，随着 $N$ 的增加，分布会很迅速收敛为高斯分布。这个结论导致的⼀个结果是，⼆项分布（⼆元随机变量 $x$ 在 $N$ 次观测中出现次数 $m$ 的分布）将会在 $N\to\infty$ 时趋向于高斯分布。高斯分布有许多重要的分析性质，且需要对各种矩阵性质比较熟悉。我们强烈鼓励读者能够使用这里介绍的技术熟练操作高斯分布，因为这对于理解后续章节中出现的更加复杂的模型是非常有帮助的。

2. 高斯分布的几何结构

高斯函数中自变量 $x$ 的函数依赖关系是通过指数部分的二次型实现的，
$\Delta^2=(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})$
这个量我们称为 $\boldsymbol{\mu}$ 到 $\boldsymbol{x}$ 的 Mahalanobis 距离，而当 $\Sigma=I$ 时，该量称为 $\boldsymbol{\mu}$ 到 $\boldsymbol{x}$ 的欧氏距离。该二次型如果是常数 $\Delta^2=const$ 可以描述为等高线，如下图所示

#导入模块
import numpy as np
import matplotlib.pyplot as plt

#建立步长为0.01，即每隔0.01取一个点
step = 0.01
x = np.arange(-10,10,step)
y = np.arange(-10,10,step)
#也可以用x = np.linspace(-10,10,100)表示从-10到10，分100份

#将原始数据变成网格数据形式
X,Y = np.meshgrid(x,y)
#写入函数，z是大写
Z = X**2/4+Y**2/5
#设置打开画布大小,长10，宽6
#plt.figure(figsize=(10,6))
plt.subplot(1,2,1)
#填充颜色，f即filled
plt.contourf(X,Y,Z)
#画等高线
plt.contour(X,Y,Z)
plt.subplot(1,2,2)
contour = plt.contour(X,Y,Z,[5,15],colors='k')
#等高线上标明z（即高度）的值，字体大小是10，颜色分别是黑色和红色
plt.clabel(contour,fontsize=10,colors=('k','r'))
plt.show()

在这里插入图片描述

注释： 由于此程序只考虑了高斯函数指数部分的相反数，所以等高线越往外值越大，如果考虑高斯函数的整体，则等高线越往里越大。

3. 高斯分布的性质

高斯函数本质上是对距离函数的一个非线性变换，主要体现在高斯函数指数部分的 $\mathbf{x}$ 到 $\mu$ 距离的二次型上
$\Delta^2=(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}) \notag$
其中， $\Delta$ 称为 $\mathbf{x}$ 到中心点 $\mathbf{\mu}$ 的 Mahalanobis 距离，当 $\Sigma=\mathbf{I}$ 时该距离退化成欧氏距离。由于矩阵 $\Sigma$ 是一个实对称矩阵，因此，可以实现矩阵的对角化，即存在一组线性无关的基底 $[\mathbf{u}_1, \mathbf{u}_2, \cdots,\mathbf{u}_D]$ 使得
$\left[\begin{array}{c} \mathbf{u}_1^T \\ \mathbf{u}_2^T \\ \vdots \\ \mathbf{u}_D^T \end{array}\right]\cdot\Sigma\cdot[\mathbf{u}_1, \mathbf{u}_2, \cdots,\mathbf{u}_D]=\text{Diag}(\lambda_1,\lambda_2,\cdots,\lambda_D)\notag$
或 $\mathbf{U}\Sigma\mathbf{U}^T=\text{Diag}(\lambda_1,\lambda_2,\cdots,\lambda_D)$

即
$\mathbf{u}_i^T\Sigma\mathbf{u}_i=\lambda_i,\;\;\;\; i=1,2,\cdots,D \notag$
其中，基是标准正交基
$\mathbf{u}_i^T\mathbf{u}_i=1,\;\;\;\;\mathbf{u}_i^T\mathbf{u}_j=0 \notag$

或 $\mathbf{U}\mathbf{U}^T=\mathbf{I}$

又因为
$\begin{align} \Sigma&=\mathbf{U}^T\cdot\text{Diag}(\lambda_1,\lambda_2,\cdots,\lambda_D)\cdot\mathbf{U}\notag \\ &=[\mathbf{u}_1, \mathbf{u}_2, \cdots,\mathbf{u}_D]\cdot\text{Diag}(\lambda_1,\lambda_2,\cdots,\lambda_D)\cdot\left[\begin{array}{c} \mathbf{u}_1^T \\ \mathbf{u}_2^T \\ \vdots \\ \mathbf{u}_D^T \end{array}\right]\notag \\ &=\sum_i^D\lambda_i\mathbf{u}_i\mathbf{u}_i^T \notag \end{align}\notag$

可知
$\begin{align} \Sigma^{-1}&=\mathbf{U}^T\cdot\text{Diag}(1/\lambda_1,1/\lambda_2,\cdots,1/\lambda_D)\cdot\mathbf{U}\notag \\ &=[\mathbf{u}_1, \mathbf{u}_2, \cdots,\mathbf{u}_D]\cdot\text{Diag}(1/\lambda_1,1/\lambda_2,\cdots,1/\lambda_D)\cdot\left[\begin{array}{c} \mathbf{u}_1^T \\ \mathbf{u}_2^T \\ \vdots \\ \mathbf{u}_D^T \end{array}\right]\notag \\ &=\sum_i^D\frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^T \notag \end{align}$
将（2）带入（1）得
$\begin{align} \Delta^2&=(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\notag \\ &=(\boldsymbol{x}-\boldsymbol{\mu})^T\sum_i^D\frac{1}{\lambda_i}\mathbf{u}_i\mathbf{u}_i^T(\boldsymbol{x}-\boldsymbol{\mu}) \notag\\ &=\sum_i^D\frac{1}{\lambda_i}(\boldsymbol{x}-\boldsymbol{\mu})^T\mathbf{u}_i\underbrace{\mathbf{u}_i^T(\boldsymbol{x}-\boldsymbol{\mu})}_{y_i} \notag \\ &=\sum_i^D\frac{1}{\lambda_i}y_i^2 \notag \end{align}$

或者
$\begin{align} \Delta^2&=(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\notag \\ &=(\boldsymbol{x}-\boldsymbol{\mu})^T\mathbf{U}^T\cdot\text{Diag}(1/\lambda_1,1/\lambda_2,\cdots,1/\lambda_D)\cdot\underbrace{\mathbf{U}(\boldsymbol{x}-\boldsymbol{\mu})}_{\boldsymbol{y}} \notag\\ &=\boldsymbol{y}^T\cdot\text{Diag}(1/\lambda_1,1/\lambda_2,\cdots,1/\lambda_D)\cdot{\boldsymbol{y}} \notag \end{align}$
由公式（3）可知， $\Delta^2=\sum_i^D\frac{1}{\lambda_i}y_i^2=const$ ，（椭圆的轴）此时，高斯密度函数也是常数，即可表示出等高线。通过坐标变换 $\boldsymbol{y}=\boldsymbol{U}(\boldsymbol{x}-\boldsymbol{\mu})$ 将椭圆的主轴做了旋转，坐标轴由 $x$ 轴转变为 $y$ 轴，如图所示。矩阵 $\boldsymbol{U}$ 是把原始坐标轴旋转到投影长度最大的的坐标轴，即通过特征值分解获得的特征向量。

在这里插入图片描述

对于高斯分布，有必要要求协方差矩阵的所有特征值 $\lambda_i$ 严格大于零，否则分布将不能被正确地归⼀化。⼀个特征值严格大于零的矩阵被称为正定（positive definite）矩阵。在第12章，我们会遇到⼀个或者多个特征值为零的高斯分布，那种情况下分布是奇异的，被限制在了⼀个低维的子空间中。如果所有的特征值都是非负的，那么这个矩阵被称为半正定（positive semidefine）矩阵。

注解： 数据如果在某个或者几个坐标轴的无投影的话，则可以用少数的坐标轴进行表示，即子空间。

现在考虑在由 $y_i$ 定义的新坐标系下高斯分布的形式。从 $\boldsymbol{x}$ 坐标系到 $\boldsymbol{y}$ 坐标系，我们有⼀个Jacobian矩阵 $\boldsymbol{J}$ ，它的元素可通过一下推导进行表示。

由公式 $\boldsymbol{y}=\boldsymbol{U}(\boldsymbol{x}-\boldsymbol{\mu})$ 可得 $\boldsymbol{x}=\boldsymbol{U}^T\boldsymbol{y}+\boldsymbol{\mu}$ ，则
$\boldsymbol{J}_{ij}=\frac{\partial \boldsymbol{x}_i}{\boldsymbol{y}_j}=\boldsymbol{U}_{ji} \notag$
或者 $\boldsymbol{J}=\boldsymbol{U}^T$

其中， $\boldsymbol{U}_{ji}$ 是矩阵 $\boldsymbol{U}^T$ 的元素。由于 $\boldsymbol{U}$ 矩阵的正交性，雅可比矩阵的行列式可表示为
$\vert\boldsymbol{J}\vert^2=\vert\boldsymbol{U}^T\vert^2=\vert\boldsymbol{U}^T\vert\cdot\vert\boldsymbol{U}\vert=\vert\boldsymbol{U}^T\boldsymbol{U}\vert=\vert\boldsymbol{I}\vert=1\notag$
由 $\Sigma=\mathbf{U}^T\cdot\text{Diag}(\lambda_1,\lambda_2,\cdots,\lambda_D)\cdot\mathbf{U}$ 可知，
$\vert\Sigma\vert^{1/2}=\prod_{j=1}^D\lambda_j^{1/2}\tag{5}$

将公式（2）和（5）带入高斯概率密度函数的
$\begin{align} p(\boldsymbol{x})&=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\exp\Big\{−\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\Big\} \notag \\ &=\frac{1}{\prod_{j=1}^D(2\pi)^{1/2}\prod_{j=1}^D\lambda_j^{1/2}}\exp\Big\{−\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\sum_j^D\frac{1}{\lambda_j}\mathbf{u}_j\mathbf{u}_j^T(\boldsymbol{x}-\boldsymbol{\mu})\Big\} \notag \\ &=\frac{1}{\prod_{j=1}^D(2\pi)^{1/2}\prod_{j=1}^D\lambda_j^{1/2}}\exp\Big\{−\sum_j^D\frac{1}{2\lambda_j}\underbrace{(\boldsymbol{x}-\boldsymbol{\mu})^T\mathbf{u}_j}_{y_j}\underbrace{\mathbf{u}_j^T(\boldsymbol{x}-\boldsymbol{\mu})}_{y_j}\Big\} \notag \\ &=\frac{1}{\prod_{j=1}^D(2\pi)^{1/2}\prod_{j=1}^D\lambda_j^{1/2}}\exp\Big\{−\sum_j^D\frac{y_j^2}{2\lambda_j}\Big\} \notag \\ &=\prod_{j=1}^D\frac{1}{(2\pi\lambda_j)^{1/2}}\exp\Big\{−\frac{y_j^2}{2\lambda_j}\Big\}\notag\\ &=p(\boldsymbol{y}) \notag \end{align}\notag$
在新的坐标系 $\boldsymbol{y}$ 下，概率密度函数 $p(\boldsymbol{y})$ 仍然是不需要归一化的，因为
$\int p(\boldsymbol{y})d\boldsymbol{y}=\prod_{j=1}^D\int\frac{1}{(2\pi\lambda_j)^{1/2}}\exp\Big\{−\frac{y_j^2}{2\lambda_j}\Big\}dy_j=1 \notag$

3.1 高斯分布的期望

高斯概率密度函数 $p(\boldsymbol{x})=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\exp\Big\{−\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\Big\}$ 有两个参数， $\boldsymbol{\mu}$ 和 $\Sigma$ 。下面分别计算高斯概率密度函数关于 $\boldsymbol{x}$ 的期望和方差。
$\begin{align}\mathbb{E}[\boldsymbol{x}]&=\int \boldsymbol{x}p(\boldsymbol{x})d\boldsymbol{x} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}(\boldsymbol{x}-\boldsymbol{\mu})^T\Sigma^{-1}(\boldsymbol{x}-\boldsymbol{\mu})\Big\}\boldsymbol{x}d\boldsymbol{x} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\underbrace{(\boldsymbol{x}-\boldsymbol{\mu})^T}_{\boldsymbol{z}^T}\Sigma^{-1}\underbrace{(\boldsymbol{x}-\boldsymbol{\mu})}_{\boldsymbol{z}}\Big\}(\underbrace{\boldsymbol{x}-\boldsymbol{\mu}}_{\boldsymbol{z}}+\boldsymbol{\mu})d\boldsymbol{x} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}{\boldsymbol{z}^T}\Sigma^{-1}{\boldsymbol{z}}\Big\}({\boldsymbol{z}}+\boldsymbol{\mu})d\boldsymbol{x} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \underbrace{\exp\Big\{−\frac{1}{2}{\boldsymbol{z}^T}\Sigma^{-1}{\boldsymbol{z}}\Big\}{\boldsymbol{z}}}_{奇函数}d\boldsymbol{x}+\boldsymbol{\mu}\cdot\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}{\boldsymbol{z}^T}\Sigma^{-1}{\boldsymbol{z}}\Big\}d\boldsymbol{x} \notag \\ &=\boldsymbol{\mu} \notag \end{align}\notag$
所示， $\boldsymbol{\mu}$ 称为高斯分布的均值。

3.2 高斯分布的方差

要求多维高斯分布的方差，首先我们需要求 $\mathbb{E}[\boldsymbol{x}\cdot\boldsymbol{x}^T]$ ，
$\begin{align} \mathbb{E}[\boldsymbol{x}\cdot\boldsymbol{x}^T]&=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\underbrace{(\boldsymbol{x}-\boldsymbol{\mu})^T}_{\boldsymbol{z}^T}\Sigma^{-1}\underbrace{(\boldsymbol{x}-\boldsymbol{\mu})}_{\boldsymbol{z}}\Big\}(\boldsymbol{x}\cdot\boldsymbol{x}^T)d\boldsymbol{x} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\boldsymbol{z}^T\Sigma^{-1}\boldsymbol{z}\Big\}(\boldsymbol{z}+\boldsymbol{\mu})(\boldsymbol{z}+\boldsymbol{\mu})^Td\boldsymbol{z} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\boldsymbol{z}^T\Sigma^{-1}\boldsymbol{z}\Big\}(\boldsymbol{z}\boldsymbol{z}^T+\underbrace{2\boldsymbol{\mu}\boldsymbol{z}^T}_{奇函数}+\boldsymbol{\mu}\boldsymbol{\mu}^T)d\boldsymbol{z} \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\boldsymbol{z}^T\Sigma^{-1}\boldsymbol{z}\Big\}\boldsymbol{z}\boldsymbol{z}^Td\boldsymbol{z}+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ \end{align}\notag$
由公式（4） $\boldsymbol{y}=\mathbf{U}(\boldsymbol{x}-\boldsymbol{\mu})$ 及上式代换 $\boldsymbol{z}=\boldsymbol{x}-\boldsymbol{\mu}$ 可得 $\boldsymbol{z}=\sum_{j=1}^Dy_j\boldsymbol{u}_j$ ，则上式可继续表示为
$\begin{align} \mathbb{E}[\boldsymbol{x}\cdot\boldsymbol{x}^T]&=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\boldsymbol{z}^T\Sigma^{-1}\boldsymbol{z}\Big\}\boldsymbol{z}\boldsymbol{z}^Td\boldsymbol{z}+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\sum_{j=1}^Dy_j\boldsymbol{u}_j^T\Sigma^{-1}y_j\boldsymbol{u}_j\Big\}\sum_{i=1}^Dy_i\boldsymbol{u}_i\sum_{j=1}^Dy_j\boldsymbol{u}_j^Td\boldsymbol{y}+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\int \exp\Big\{−\frac{1}{2}\sum_{k=1}^Dy_k^2\boldsymbol{u}_k^T\frac{1}{\lambda_k}\boldsymbol{u}_k\boldsymbol{u}_k^T\boldsymbol{u}_k\Big\}\sum_{i=1}^D\sum_{j=1}^Dy_iy_j\boldsymbol{u}_i\boldsymbol{u}_j^Td\boldsymbol{y}+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ &=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\sum_{i=1}^D\sum_{j=1}^D\boldsymbol{u}_i\boldsymbol{u}_j^T\int \exp\Big\{-\sum_{k=1}^D\frac{y_k^2}{2\lambda_k}\Big\}y_iy_jd\boldsymbol{y}+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ &=_?\sum_{i=1}^D\boldsymbol{u}_i\boldsymbol{u}_i^T\lambda_i+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \\ &=\Sigma+\boldsymbol{\mu}\boldsymbol{\mu}^T \notag \end{align}\notag$
则
$\begin{align} cov[\boldsymbol{x}]&=\mathbb{E}[(\boldsymbol{x}-\mathbb{E}[\boldsymbol{x}])(\boldsymbol{x}-\mathbb{E}[\boldsymbol{x}])^T] \notag\\ &=\mathbb{E}[(\boldsymbol{x}-\boldsymbol{\mu})(\boldsymbol{x}-\boldsymbol{\mu})^T] \notag\\ &=\mathbb{E}[(\boldsymbol{x}\boldsymbol{x}^T-\boldsymbol{\mu}\boldsymbol{x}^T-\boldsymbol{x}\boldsymbol{\mu}^T+\boldsymbol{\mu}\boldsymbol{\mu}^T] \notag\\ &=\mathbb{E}[\boldsymbol{x}\boldsymbol{x}^T]-\boldsymbol{\mu}\boldsymbol{\mu}^T \notag\\ &=\Sigma \notag \end{align}\notag$
因为高斯分布的参数矩阵 $\Sigma$ 控制着 $x$ 的方差，称为协方差矩阵。

3.2 高斯分布的弊端

高斯分布的参数包括均值向量 $\boldsymbol{\mu}$ 和协方差矩阵 $\Sigma$ ，这种各向异性高斯分布虽然表达能力强，但是包含参数个数多，为 $D + D (D - 1) /2 = D (D + 1) /2$ 个；为了减少参数个数，可降低高斯密度函数的表达能力，可设定 $\Sigma=\sigma^2 I$ ，变成各向同性高斯分布，此时的参数个数为 $D + 1$ 个。

单高斯密度函数最大的问题是不能表达多高斯分布，需要借助更深层的学习，引入潜在变量和多模态高斯，主要应用于马尔可夫随机场和线性动态系统，一个有效的计算框架是概率图模型。

4. 高斯的极大似然

观测数据 $X=(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n)^T$ 中每个样本（行向量）均独立采样于多维高斯分布
$p(\mathbf{x}_n\vert\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\exp\Big\{−\frac{1}{2}(\mathbf{x}_n-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_n-\boldsymbol{\mu})\Big\}\notag$
则
$p(X\vert\boldsymbol{\mu},\Sigma)=\prod_{n=1}^N\frac{1}{(2\pi)^{D/2}\vert\Sigma\vert^{1/2}}\exp\Big\{−\frac{1}{2}(\mathbf{x}_n-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_n-\boldsymbol{\mu})\Big\}\notag$
即
$\ln p(X\vert\boldsymbol{\mu},\Sigma)=\frac{ND}{2}\ln(2\pi)-\frac{N}{2}\ln\vert\Sigma\vert−\frac{1}{2}\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_n-\boldsymbol{\mu}) \tag{6}$
经过简单的整理，发现（6）只与两个量有关，分别为 $\sum_{n=1}^N\mathbf{x}_n$ 和 $\sum_{n=1}^N\mathbf{x}_n\mathbf{x}_n^T$ 有关，称为高斯分布的充分统计量。

通过极大似然的方式可以求出参数 $\boldsymbol{\mu}$ ,
$\frac{\partial}{\partial\boldsymbol{\mu}}\ln p(X\vert\boldsymbol{\mu},\Sigma)=\sum_{n=1}^N\Sigma^{-1}(\mathbf{x}_n-\boldsymbol{\mu})=0 \notag$
即参数 $\boldsymbol{\mu}$ 的极大似然解为
$\boldsymbol{\mu}_{ML}=\frac{1}{N}\sum_{n=1}^N\mathbf{x}_n \notag$
为观测值的均值。

接下来对 log 似然函数关于参数 $\Sigma$ 求导数
$\frac{\partial}{\partial\Sigma}\ln p(X\vert\boldsymbol{\mu},\Sigma)=\frac{\partial}{\partial\Sigma}\Bigg\{-\frac{N}{2}\ln\vert\Sigma\vert−\frac{1}{2}\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol{\mu})^T\Sigma^{-1}(\mathbf{x}_n-\boldsymbol{\mu})\Bigg\}=0\notag$
得
$\boldsymbol{\Sigma}_{ML}=\frac{1}{N}\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol{\mu}_{ML})(\mathbf{x}_n-\boldsymbol{\mu}_{ML})^T\notag$
这是一个有偏估计，因为
$\mathbb{E}[\boldsymbol{\mu}_{ML}]=\boldsymbol{\mu}\notag$

$\mathbb{E}[\boldsymbol{\Sigma}_{ML}]=\frac{N-1}{N}\boldsymbol{\Sigma}\notag$

为了得到无偏估计，我们需要做如下调整
$\widetilde{\boldsymbol{\Sigma}}=\frac{1}{N-1}\sum_{n=1}^N(\mathbf{x}_n-\boldsymbol{\mu}_{ML})(\mathbf{x}_n-\boldsymbol{\mu}_{ML})^T \notag$

5. 高斯的贝叶斯推断

**问题：**高斯分布关于参数 $\mu$ 和 $\Sigma$ 的极大似然估计是一种点估计方法，过分地依赖观测数据，估计结果与总体分布难免有偏颇。

策略： 通过引入先验的方式开发贝叶斯方法，即引入超参数，由先验估计后验。

我们以简单的单变量高斯为例，假设总体分布的方差 $\sigma^2$ 已知，通过 $N$ 个采样 $\mathbf{x}=\{x_1,x_2,\cdots,x_n\}$ 推断总体的均值 $\mu$ . 关于参数 $\mu$ 的似然函数表示为
$p(\mathbf{x}\vert\mu)=\prod_{n=1}^Np(x_n\vert\mu)=\frac{1}{(2\pi\sigma^2)^{N/2}}\exp\Big\{−\frac{1}{2\sigma^2}\sum_{i=1}^N(x_i-\mu)^2\Big\}\notag$
**注意：**似然函数并未归一化，也不是一个概率密度函数。

由于似然函数是关于参数 $\mu$ 的指数形式，可设定先验分布 $p(\mu)$ 为高斯分布，后验分布也将是高斯分布，使得似然与后验分布具有相同的指数形式。因此，先验分布设定如下
$p(\mu)=\mathcal{N}(\mu\vert\mu_0,\sigma_0^2)=\frac{1}{(2\pi\sigma_0^2)^{1/2}}\exp\Big\{−\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2\Big\}\notag$
则后验分布表示为
$\begin{align} \ln p(\mu\vert\mathbf{x})&\propto \ln p(\mathbf{x}\vert\mu)+\ln p(\mu) \notag \\ &=-\frac{N}{2}\ln(2\pi\sigma^2)−\frac{1}{2\sigma^2}\sum_{i=1}^N(x_i-\mu)^2-\frac{1}{2}\ln(2\pi\sigma_0^2)-\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2\notag \\ &=−\frac{1}{2\sigma^2}\sum_{i=1}^N(x_i-\mu)^2-\frac{1}{2\sigma_0^2}(\mu-\mu_0)^2+const\notag \\ &=−\frac{1}{2\sigma^2}\sum_{i=1}^N(x_i^2-2x_i\mu+\mu^2)-\frac{1}{2\sigma_0^2}(\mu^2-2\mu_0\mu+\mu^2)+const\notag \\ &=−\frac{1}{2\sigma^2}(\sum_{i=1}^Nx_i^2-2\mu\underbrace{\sum_{i=1}^Nx_i}_{N\cdot\mu_{ML}}+N\mu^2)-\frac{1}{2\sigma_0^2}(\mu^2-2\mu_0\mu+\mu^2)+const\notag \\ &=−\frac{1}{2}(\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2})\mu^2+(\frac{N\cdot\mu_{ML}}{\sigma^2}+\frac{\mu_0}{\sigma_0^2})\mu+const\notag \\ &=−\frac{1}{2}(\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2})\Bigg\{\mu^2-2(\frac{N\sigma_0^2\cdot\mu_{ML}+\sigma^2\mu_0}{N\sigma_0^2+\sigma^2})\mu+(\frac{N\sigma_0^2\cdot\mu_{ML}+\sigma^2\mu_0}{N\sigma_0^2+\sigma^2})^2\Bigg\}+const\notag \\ &=−\frac{\Bigg(\mu-\frac{N\sigma_0^2\cdot\mu_{ML}+\sigma^2\mu_0}{N\sigma_0^2+\sigma^2}\Bigg)^2}{2\frac{1}{\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}}}+const\notag \\ \end{align}\notag$
所以，后验分布为 $p(\mu\vert\mathbf{x})=\mathcal{N}(\mu\vert\widetilde{\mu},\widetilde{\sigma})$ ，其中，
$\widetilde{\mu}=\frac{N\sigma_0^2\cdot\mu_{ML}+\sigma^2\mu_0}{N\sigma_0^2+\sigma^2}=\frac{\sigma^2}{N\sigma_0^2+\sigma^2}\mu_0+\frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML}\tag{7}$

$\frac{1}{\widetilde{\sigma^2}}=\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\tag{8}$

由公式（7）可知，后验均值是先验均值和极大似然均值的折中。

$N = 0$ 时，强烈依赖于先验，后验均值等于先验均值
$N\to\infty$ 时，强烈依赖于似然，后验均值等于似然均值

相似地，由公式（8）可知，后验的精度会随着 $N$ 的增大而稳步增加

$N = 0$ 时，强烈依赖于先验，后验精度等于先验精度
$N\to\infty$ 时，后验方差接近于 $0$ ，分布在极大似然均值附近变得陡峭

**注意：**对于固定的 $N$ ，当 $\sigma_0^2\to\infty$ 时，后验均值会退化成极大似然均值；后验方差 $\widetilde{\sigma^2}=\sigma^2/N$ ，效果如下图所示。

$\frac{1}{\widetilde{\sigma^2}}=\frac{N}{\sigma^2}+\frac{1}{\sigma_0^2}\tag{8}$

由公式（7）可知，后验均值是先验均值和极大似然均值的折中。

$N = 0$ 时，强烈依赖于先验，后验均值等于先验均值
$N\to\infty$ 时，强烈依赖于似然，后验均值等于似然均值

相似地，由公式（8）可知，后验的精度会随着 $N$ 的增大而稳步增加

$N = 0$ 时，强烈依赖于先验，后验精度等于先验精度
$N\to\infty$ 时，后验方差接近于 $0$ ，分布在极大似然均值附近变得陡峭

**注意：**对于固定的 $N$ ，当 $\sigma_0^2\to\infty$ 时，后验均值会退化成极大似然均值；后验方差 $\widetilde{\sigma^2}=\sigma^2/N$ ，效果如下图所示。

在这里插入图片描述

本文含有隐藏内容，请开通VIP 后查看

Bishop 模式识别与机器学习读书笔记_ch2.2 连续性概率分布

ch2.2 连续型概率分布

1. 高斯分布

2. 高斯分布的几何结构

3. 高斯分布的性质

3.1 高斯分布的期望

3.2 高斯分布的方差

3.2 高斯分布的弊端

4. 高斯的极大似然

5. 高斯的贝叶斯推断

网站公告

今日签到

热门文章

最新发布