【应用多元统计分析】CH5 判别分析4——费希尔判别

发布于:2022-10-30 ⋅ 阅读:(490) ⋅ 点赞:(0)

目录

一、费希尔判别的基本思想

二、费希尔判别函数

1.函数寻找

2.函数特点

三、判别函数得分图

1.概念

2.【例5.4.2】

3.【注】

四、判别规则

1.一般情形

2.两组情形


一、费希尔判别的基本思想

        费希尔判别基本思想是投影(或降维),用p维向量x=(x_{1},\cdots,x_{p})^{'}的少数几个线性组合(称为费希尔判别函数典型变量y_{1}=a_{1}^{'}x,\cdots,y_{r}=a_{r}^{'}x(一般r明显小于p)来代替原始的p个变量x_{1},x_{2},\cdots,x_{p},以达到降维的目的,并根据这r个判别函数y_{1},\cdots,y_{r}对样品的归属作出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前两个或前三个判别函数作图,从直观的几何图形上区别各组。

        一个说明性的例子。

二、费希尔判别函数

1.函数寻找

        设来自组\pi_{i}p维观测值为x_{ij},j=1,\cdots,n_{i},i=1,2,\cdots,k,将他们共同投影到某一p维常数向量a上,得到的投影点可分别对应线性组合

y_{ij}=a^{'}x_{ij},j=1,\cdots,n_{i};i=1,\cdots,k

\left\{\begin{matrix} \bar{y_{i}}=\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}y_{ij}=a^{'}\bar{x_{i}}\\ \bar{y}=\frac{1}{n}\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}y_{ij}=\frac{1}{n}\sum_{i=1}^{k}n_{i}\bar{y_{i}}=a^{'}\bar{x}\\ n=\sum_{i=1}^{k}n_{i}\\ \bar{x_{i}}=\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}x_{ij}\\ \bar{x}=\frac{1}{n}\sum_{i=1}^{k}n_{i}\bar{x_{i}} \end{matrix}\right.

        费希尔判别需假定{\color{Red} \Sigma _{1}=\Sigma _{2}=\cdots=\Sigma _{k}=\Sigma }

        三组之间的分离程度:

        y_{ij}组间平方和组内平方和为:

SSTR=\sum_{i=1}^{k}n_{i}(\bar{y}_{i}-\bar{y})^2=\sum_{i=1}^{k}n_{i}(a^{'}\bar{x}_{i}-a^{'}\bar{x})^2=a^{'}Ha

SSE=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(y_{ij}-\bar{y}_{i})^2=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(a^{'}\bar{x}_{ij}-a^{'}\bar{x})^2=a^{'}Ea

H=\sum_{i=1}^{k}n_{i}(\bar{x}_{i}-\bar{x})(\bar{x}_{i}-\bar{x})^{'}

E=\sum_{i=1}^{k}(n_{i}-1)S_{i}=\sum_{i=1}^{k}\sum_{j=1}^{n_{i}}(\bar{x}_{ij}-\bar{x}_{i})(\bar{x}_{ij}-\bar{x}_{i})^{'}

         可用来度量y_{ij}组之间分离程度的一个量是:

{\color{Red} \Delta (a)=\frac{SSTR}{SSE}=\frac{a^{'}Ha}{a^{'}Ea}}

        在约束条件a^{'}S_{p}a=1下,寻找a,使得\Delta (a)达到最大,其中S_{p}=\frac{1}{n-k}E\Sigma的联合无偏估计。

        设E^{-1}H的全部非零特征值依次为

{\color{Red} \lambda _{1}\geqslant \lambda _{2}\geqslant \cdots\geqslant \lambda _{s}>0,s=rank(H),s\leqslant min(k-1,p)}

相应的特征向量依次记为t_{1},t_{2},\cdots,t_{s}(标准化为t^{'}_{i}S_{p}t_{i}=1,i=1,2,\cdots,s)。

        当a_{1}=t_{1}时,\Delta (a_{1})达到最大值\lambda_{1}。所以,选择投影到t_{1}上能使各组的投影点最大限度地分离,称y=t_{1}^{'}x为费希尔第一线性判别函数,简称第一判别函数

         在许多情况下(如k/p是大的),仅仅使用第一判别函数也许不够,应考虑建立y_{2}=a^{'}_{2}x,且满足Cov(y_{1},y_{2})=Cov(t_{1}^{'}x,a^{'}_{2}x)=t_{1}^{'}\Sigma a_{2}=0

        用S_{p}代替未知的\Sigma,于是在约束条件t_{1}^{'}S_{p}a_{2}=0(t_{1}^{'}Ea_{2}=0)下寻找a_{2},使得\Delta (a_{2})达到最大。当a_{2}=t_{2}\Delta (a_{2})达到最大值\lambda _{2},称y_{2}=t_{2}^{'}x为第二判别函数。如还不够,可再建立第二判别函数y_{3},依次类推。一般地,我们要求第i个线性组合y_{i}=a_{i}^{'}x不重复前i-1个判别函数中的信息,即:

Cov(y_{j},y_{i})=Cov(t_{j}^{'}x,a_{i}^{'}x)=t_{j}^{'}\Sigma a_{i}=0,j=1,2,\cdots,i-1

        用S_{p}代替\Sigma,上式变为t_{j}^{'}S_{p}a_{i}=0(t_{j}^{'}Ea_{i}=0), j=1,2,\cdots ,i-1。在此约束条件下寻找a_{i},使得\Delta (a_{i})达到最大。当a_{i}=t_{i}\Delta (a_{i})达到最大值\lambda_{i},称y_{i}=t_{i}^{'}x{\color{Red} i}判别函数i=2,3,\cdots,s 。

2.函数特点

  • 各判别函数都具有单位(联合样本)方差
  • 各判别函数彼此之间不相关(确切的说,是彼此之间的联合样本协方差为零)
  • 判别函数方向t_{1},t_{2},\cdots,t_{s}并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常不严重
  • 组数k=2时只有一个判别函数,k=3时最多只有两个判别函数
  • \Delta (t_{i})=\lambda_{i}表明了第i判别函数y_{i}对分离各组的贡献率大小,y_{i}在所有s个判别函数中的贡献率

{\color{Red} \frac{\lambda_{i}}{\sum_{j=1}^{s}\lambda_{j}}}

  •  前r(\leqslant s)个判别函数y_{1},y_{2},\cdots,y_{r}累计贡献率如下。它表明了y_{1},y_{2},\cdots,y_{r}能代表y_{1},y_{2},\cdots,y_{s}进行判断的能力

{\color{Red} \frac{\sum_{i=1}^{r}\lambda_{i}}{\sum_{j=1}^{s}\lambda_{j}}}

  • 在实际应用中,如果前r个判别函数的累计贡献率已达到了一个较高的比例(如75%\sim 95%),则就采用这r个判别函数进行判别

三、判别函数得分图

1.概念

        为作图目的,一般取r=2,偶尔取r=3

        当r=2时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行辨别或对来自各组样品的分离情况及结构进行观测评估。

        当r=3时,可作(三维)旋转图从多个角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如r=2时清楚。

        能够利用降维后生成的图形进行直观判别是费希尔判别的最重要应用,图中常常能清晰地展示出丰富的信息,如发现构成各组的结构、离群样品点或数据中的其他异常情况等。

2.【例5.4.2】

        费希尔于1936年发表的鸢尾花数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚鸢尾花(第三组)各抽取一个容量为50地样本,测量其花萼长(x_{1})、花萼宽(x_{2})、花瓣长 (x_{3})、花瓣宽(x_{4}),单位为mm,数据列于表5.4.1。 

        本题中,n_{1}=n_{2}=n_{3}=50,n_{1}+n_{2}+n_{3}=150。经计算:

\bar{x}_{1}=\begin{pmatrix} 50.06\\ 34.28\\ 14.62\\ 2.46 \end{pmatrix},\bar{x}_{2}=\begin{pmatrix} 59.36\\ 27.70\\ 42.60\\ 13.26 \end{pmatrix},\bar{x}_{3}=\begin{pmatrix} 65.88\\ 29.74\\ 55.52\\ 20.26 \end{pmatrix},\bar{x}=\frac{1}{n}\sum_{i=1}^{3}n_{i}\bar{x}_{i}=\begin{pmatrix} 58.433\\ 30.573\\ 37.580\\ 11.993 \end{pmatrix}H=\sum_{i=1}^{3}n_{i}(\bar{x}_{i}-\bar{x})(\bar{x}_{i}-\bar{x})^{'}=\begin{pmatrix} 6321.213 &-1995.267 &16524.840 &7127.933 \\ -1995.267 & 1134.493& -5723.960& -2293.267\\ 16524.840 & -5723.960 & 43710.280 &18677.400 \\ 7127.933& -2293.267 & 18677.400 &8041.333 \end{pmatrix}E=\sum_{i=1}^{3}\sum_{j=1}^{n_{i}}(\bar{x}_{ij}-\bar{x}_{i})(\bar{x}_{ij}-\bar{x}_{i})^{'}=\begin{pmatrix} 3895.620 & 1363.000 & 2462.460 &564.500\\ 1363.000 & 1696.200 &812.080 & 480.840\\ 2462.460 & 812.080 & 2722.260 &627.180 \\ 564.500& 480.840 & 627.180 &615.660 \end{pmatrix}E^{-1}H=\begin{pmatrix} -3.058 &1.081 & -8.112 & -3.459\\ -5.562 & 2.178 & -14.965 &-6.308 \\ 8.077 & -2.943&21.512 & 9.142\\ 10.497&-3.420 & 27.549& 11.846 \end{pmatrix} 

        E^{-1}H的正特征值个数s\leqslant min(k-1,p)=min(2,4)=2,可求得两个正特征值\lambda_{1}=32.192,\lambda_{2}=0.285,相应的标准化特征向量:

t_{1}=\begin{pmatrix} -0.083\\ -0.153\\ 0.220\\ 0.281 \end{pmatrix},t_{2}=\begin{pmatrix} 0.002\\ 0.216\\ -0.093\\ 0.284 \end{pmatrix} 

        所以,中心化的费希尔判别函数为

{\color{Blue} y_{1}=t_{1}^{'}(x-\bar{x})=-0.083(x_{1}-58.433)-0.153(x_{2}-30.573)+0.220(x_{3}-37.580)+0.281(x_{4}-11.993)}{\color{Blue} y_{2}=t_{2}^{'}(x-\bar{x})=0.002(x_{1}-58.433)+0.216(x_{2}-30.573)-0.093(x_{3}-37.580)+0.284(x_{4}-11.993)}        判别函数的组均值为\left\{\begin{matrix} \bar{y}_{11}=-7.608,\bar{y}_{21}=1.825,\bar{y}_{31}=5.783\\ \bar{y}_{12}=0.215,\bar{y}_{22}=-0.728,\bar{y}_{32}=0.513 \end{matrix}\right. 。

        我们可以将样本中的150个样品的判别函数得分(y_{1},y_{2})作一散点图。图中,Can1,Can2分别指y_{1},y_{2}。组一、二、三的点分别用1,2,3标出。有13个点隐藏在图中,因与图中某些点的位置几乎重叠而未能标出。从图中可见,分离的效果非常好。正如我们所预期的,三个组的分离很大程度上显现在Can1上,在Can2上只有很小的分离(图中纵轴刻度相对于横轴刻度有很大的拉伸,SAS输出这么做是为了便于视觉上看清楚各组点在Can2上的差异)。对于一个新样品x_{0},可将其的两个判别函数得分在图中标出,用目测从直觉上加以辨别。

3.【注】

        各组如果在前几个判别函数构成的低维空间中分离得较好,则在原始变量的更高维空间中一般也会分离的好;反之未必。

        费希尔判别虽然是一种很好的降维投影方法,但该方法也有其不适用的场合。

四、判别规则

1.一般情形

        由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧氏距离。我们采用距离判别法,依据(y_{1},y_{2},\cdots,y_{r})值,判别新样品归属离它最近的那一组。

        判别规则为:

{\color{Red} x\epsilon \pi_{l},\sum_{j=1}^{r}(y_{j}-\bar{y}_{lj})^2=min_{1\leqslant i\leqslant k}\sum_{j=1}^{r}(y_{j}-\bar{y}_{ij})^2(5.4.7)}

其中,\bar{y}_{ij}=t_{j}^{'}\bar{x}_{i},\bar{x}_{i}=\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}x_{ij},i=1,2,\cdots,k。该判别规则也可表达为:

x\epsilon \pi_{l},\sum_{j=1}^{r}\left [ t_{j}^{'}(x-\bar{x}_{l}) \right ]^2=min_{1\leqslant i\leqslant k}\sum_{j=1}^{r}\left [ t_{j}^{'}(x-\bar{x}_{i}) \right ]^2

2.两组情形



网站公告

今日签到

点亮在社区的每一天
去签到