目录
一、费希尔判别的基本思想
费希尔判别的基本思想是投影(或降维),用p维向量的少数几个线性组合(称为费希尔判别函数或典型变量)
(一般r明显小于p)来代替原始的p个变量
,以达到降维的目的,并根据这r个判别函数
对样品的归属作出判别或将各组分离。成功的降维将使样品的归类或组的分离更为方便和有效,并且可以对前两个或前三个判别函数作图,从直观的几何图形上区别各组。
一个说明性的例子。

二、费希尔判别函数
1.函数寻找
设来自组的
维观测值为
,将他们共同投影到某一
维常数向量
上,得到的投影点可分别对应线性组合
费希尔判别需假定。
三组之间的分离程度:

的组间平方和及组内平方和为:
可用来度量的组之间分离程度的一个量是:
在约束条件下,寻找
,使得
达到最大,其中
是
的联合无偏估计。
设的全部非零特征值依次为
相应的特征向量依次记为(标准化为
)。
当时,
达到最大值
。所以,选择投影到
上能使各组的投影点最大限度地分离,称
为费希尔第一线性判别函数,简称第一判别函数。

在许多情况下(如是大的),仅仅使用第一判别函数也许不够,应考虑建立
,且满足
。
用代替未知的
,于是在约束条件
下寻找
,使得
达到最大。当
时
达到最大值
,称
为第二判别函数。如还不够,可再建立第二判别函数
,依次类推。一般地,我们要求第
个线性组合
不重复前
个判别函数中的信息,即:
用代替
,上式变为
。在此约束条件下寻找
,使得
达到最大。当
时
达到最大值
,称
为第
判别函数,
。
2.函数特点
- 各判别函数都具有单位(联合样本)方差
- 各判别函数彼此之间不相关(确切的说,是彼此之间的联合样本协方差为零)
- 判别函数方向
并不正交,但作图时仍将它们画成直角坐标系,虽有些变形,但通常不严重
- 组数
时只有一个判别函数,
时最多只有两个判别函数
表明了第
判别函数
对分离各组的贡献率大小,
在所有
个判别函数中的贡献率为
- 前
个判别函数
的累计贡献率如下。它表明了
能代表
进行判断的能力
- 在实际应用中,如果前
个判别函数的累计贡献率已达到了一个较高的比例(如
),则就采用这
个判别函数进行判别
三、判别函数得分图
1.概念
为作图目的,一般取,偶尔取
。
当时,可将各样品的两个判别函数得分画成平面直角坐标系上的散点图,用目测法对新样品的归属进行辨别或对来自各组样品的分离情况及结构进行观测评估。
当时,可作(三维)旋转图从多个角度来辨别新样品的归属或观测评估各组之间的分离效果,但其目测效果一般明显不如
时清楚。
能够利用降维后生成的图形进行直观判别是费希尔判别的最重要应用,图中常常能清晰地展示出丰富的信息,如发现构成各组的结构、离群样品点或数据中的其他异常情况等。
2.【例5.4.2】
费希尔于1936年发表的鸢尾花数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚鸢尾花(第三组)各抽取一个容量为50地样本,测量其花萼长()、花萼宽(
)、花瓣长 (
)、花瓣宽(
),单位为
,数据列于表5.4.1。

本题中,。经计算:
的正特征值个数
,可求得两个正特征值
,相应的标准化特征向量:
所以,中心化的费希尔判别函数为
判别函数的组均值为
。
我们可以将样本中的150个样品的判别函数得分作一散点图。图中,Can1,Can2分别指
。组一、二、三的点分别用1,2,3标出。有13个点隐藏在图中,因与图中某些点的位置几乎重叠而未能标出。从图中可见,分离的效果非常好。正如我们所预期的,三个组的分离很大程度上显现在Can1上,在Can2上只有很小的分离(图中纵轴刻度相对于横轴刻度有很大的拉伸,SAS输出这么做是为了便于视觉上看清楚各组点在Can2上的差异)。对于一个新样品
,可将其的两个判别函数得分在图中标出,用目测从直觉上加以辨别。

3.【注】
各组如果在前几个判别函数构成的低维空间中分离得较好,则在原始变量的更高维空间中一般也会分离的好;反之未必。
费希尔判别虽然是一种很好的降维投影方法,但该方法也有其不适用的场合。

四、判别规则
1.一般情形
由于各判别函数都具有单位方差且彼此不相关,故此时的马氏距离等同于欧氏距离。我们采用距离判别法,依据值,判别新样品归属离它最近的那一组。
判别规则为:
其中,。该判别规则也可表达为:


2.两组情形

