线性判别函数的基本概念
从这章开始正式进入模式识别主要的学习内容了!在第4章以前,我们将样本分类需要先通过已有的大量样本推测出不同类别的概率密度,再由概率密度用贝叶斯公式得到最终的决策。显然,决策才是我们的最终目的。中间步骤“计算概率密度”显然有些多余,其实我们可以直接用已有的样本构造出一个判别函数,将新样本代入判别函数就能将它分类了。
基于样本直接设计分类器需要确定三个基本要素:
- 分类器即判别函数的类型是第一要素。从什么样的判别函数类(函数集)中去求解;
- 分类器设计的目标或标准是第二要素。在确定了设计准则后,分类器设计就是根据样本从事先决定的函数集中选择在该准则下最优的函数,通常就是确定函数类中的某些待定参数;
- 第三个要素就是在前两个要素明确之后,如何设计算法利用样本数据搜索到最优的函数参数。
我们在学习最小风险贝叶斯决策时是比较 p ( x ⃗ ∣ w i ) p ( w i ) p(\vec{x}|w_i)p(w_i) p(x∣wi)p(wi)的大小来确定样本 x ⃗ \vec{x} x是应该决策为哪一类的。在正态分布时的统计决策学习中我们令判别函数为:
g ( x i ) = l n p ( x ∣ w i ) p ( w i ) = − 1 2 ( x ⃗ − μ ⃗ ) T ∑ − 1 ( x ⃗ − μ ⃗ ) − d 2 l n 2 π − 1 2 l n ∣ ∑ i ∣ + l n p ( w i ) g(x_i)=lnp(x|w_i)p(w_i)=-\frac{1}{2}(\vec{x}-\vec{\mu} )^T\mathbf{\sum}^{-1}(\vec{x}-\vec{\mu})-\frac{d}{2}ln2\pi-\frac{1}{2}ln|\sum{}_i|+lnp(w_i) g(xi)=lnp(x∣wi)p(wi)=−21(x−μ)T∑−1(x−μ)−2dln2π−21ln∣∑i∣+lnp(wi)
对于只有两个类别的问题,我们可以采用如下决策规则:
g ( x ⃗ ) = g 1 ( x ⃗ ) − g 2 ( x ⃗ ) g(\vec{x})=g_1(\vec{x})-g_2(\vec{x}) g(x)=g1(x)−g2(x)
可以发现,
{ g ( x ⃗ ) > 0 ,决策 x ⃗ ∈ w 1 g ( x ⃗ ) < 0 ,决策 x ⃗ ∈ w 2 g ( x ⃗ ) = 0 ,决策 x ⃗ 拒绝 \left\{\begin{matrix} g(\vec{x})>0&,决策\vec{x}\in w_1 \\ g(\vec{x})<0&, 决策\vec{x} \in w_2 \\ g(\vec{x})=0&, 决策\vec{x}拒绝 \end{matrix}\right. ⎩
⎨
⎧g(x)>0g(x)<0g(x)=0,决策x∈w1,决策x∈w2,决策x拒绝
方程 g ( x ⃗ ) = 0 g(\vec{x})=0 g(x)=0定义了一个决策面,本章我们学习线性分类器,因此 g ( x ⃗ ) g(\vec{x}) g(x)为一个线性函数,这个决策面也就是一个超平面。
可以将(1)式代入到(2)式,并用特殊符号代替公式中复杂的符号组合,得到如下一般决策规则:
g ( x ⃗ ) = w ⃗ T x ⃗ + w 0 g(\vec{x})=\vec{\mathbf{w}}^T\vec{x}+w_0 g(x)=wTx+w0
我们之后便是通过上面这个公式(4)来求解样本 x ⃗ \vec{x} x所在的类别。
假设 x 1 x_1 x1和 x 2 x_2 x2均在决策边界上,则有
w ⃗ T x 1 ⃗ + w 0 = w ⃗ T x 2 ⃗ + w 0 \vec{\mathbf{w}}^T\vec{x_1}+w_0=\vec{\mathbf{w}}^T\vec{x_2}+w_0 wTx1+w0=wTx2+w0
也可以写为
w ⃗ T ( x 1 ⃗ − x 2 ⃗ ) = 0 \vec{\mathbf{w}}^T(\vec{x_1}-\vec{x_2})=0 wT(x1−x2)=0
可以看到,向量 w ⃗ \vec{\mathbf{w}} w一定垂直于决策边界 H H H上的任何一个向量,即向量 w ⃗ \vec{\mathbf{w}} w是决策面的法向量。接下来要探究一下这个决策面的一些性质:
我们可以把 x ⃗ \vec{x} x表示成
x ⃗ = x p ⃗ + r w ⃗ ∣ ∣ w ⃗ ∣ ∣ \vec{x}=\vec{x_p}+r\frac{\vec{\mathbf{w}}}{||\vec{\mathbf{w}}||} x=xp+r∣∣w∣∣w
式中
x p ⃗ \vec{x_p} xp是向量 x ⃗ \vec{x} x在 H H H上的摄影向量;
r r r是 x ⃗ \vec{x} x到 H H H的垂直距离;
w ⃗ ∣ ∣ w ⃗ ∣ ∣ \frac{\vec{\mathbf{w}}}{||\vec{\mathbf{w}}||} ∣∣w∣∣w是向量 w ⃗ \vec{\mathbf{w}} w方向上的单位向量。
可以参考下面这张图:
将式(7)代入式(4)中可以得到下面这个式子:
g ( x ⃗ ) = w ⃗ T x ⃗ + w 0 = w ⃗ T ( x p ⃗ + r w ⃗ ∣ ∣ w ⃗ ∣ ∣ ) + w 0 = w ⃗ T x p ⃗ + w 0 + r w ⃗ T w ⃗ ∣ ∣ w ⃗ ∣ ∣ g(\vec{x})=\vec{\mathbf{w}}^T\vec{x}+w_0=\vec{\mathbf{w}}^T(\vec{x_p}+r\frac{\vec{\mathbf{w}}}{||\vec{\mathbf{w}}||})+w_0=\vec{\mathbf{w}}^T\vec{x_p}+w_0+r\frac{\vec{\mathbf{w}}^T\vec{\mathbf{w}}}{||\vec{\mathbf{w}}||} g(x)=wTx+w0=wT(xp+r∣∣w∣∣w)+w0=wTxp+w0+r∣∣w∣∣wTw
而向量 x p ⃗ \vec{x_p} xp是决策面上的点,则 w ⃗ T x p ⃗ + w 0 = 0 \vec{\mathbf{w}}^T\vec{x_p}+w_0=0 wTxp+w0=0,将上式化简则有:
r = g ( x ⃗ ) ∣ ∣ w ⃗ ∣ ∣ r=\frac{g(\vec{x})}{||\vec{\mathbf{w}}||} r=∣∣w∣∣g(x)
若 x ⃗ \vec{x} x为原点,则 g ( x ) = w 0 g(x)=w_0 g(x)=w0,则有
r 0 = w 0 ∣ ∣ w ⃗ ∣ ∣ r_0=\frac{w_0}{||\vec{\mathbf{w}}||} r0=∣∣w∣∣w0
所以可以说,判别函数 g ( x ) g(x) g(x)可以看成是特征空间中某点 x ⃗ \vec{x} x到超平面 H H H的距离的一种代数度量!