一、分类的定义
已知:一组数据(训练集) (X, Y)
例如:
x:数据特征/属性(如收入)
y:类别标记(是否有借款)
任务:
学习一个模型,利用每一条记录的特征x去预测它对应的类别y
即:输入未标记的数据(含特征x),预测数据的类别y每一条记录表示为 (x, y)
如何建立分类与预测模型?
一般流程:有监督学习
通常包括两个阶段:模型训练、模型预测
分类预测的准确性
二、规则方法
例如:
(胎生= 否) ˄ (飞行动物= 是) → 鸟类
(胎生= 是) ˄ (体温= 恒温) → 哺乳类
三、决策树
对数据进行处理,利用归纳算法生成可读的规则
模型以树状形式呈现出来
非叶节点:一个属性上的测试,每个分枝代表该测试的输出
叶节点:存放一个类标记
规则:从根节点到叶节点的一条属性取值路径
基本的决策树学习过程,可以归纳为以下三个步骤:
- 特征选择:选取对于训练数据有着较强区分能力的特征
- 生成决策树:基于选定的特征,逐步生成完整的决策树
- 决策树剪枝:简化部分枝干,避免过拟合因素影响
特征选择
常用特征选择准则
信息增益(熵)
信息增益率
基尼指数
信息熵:计算数据的不确定性
此时:表示某个节点t (即某个特征)的信息不确定性
例子:
信息增益: 按某个特征划分之后,数据不确定性降低的程度
信息增益率(Gain ratio): 综合考虑划分结果信息增益和划分数量的信息
选择最大的信息增益率对应的特征m
信息增益率有矫枉过正的危险
采用信息增益率的情况下,往往倾向于选择取值较少的特征
当特征的取值较少时,IV较小,因此惩罚项相对较小
基尼指数
目的在于表示样本集合中一个随机样本被分错的概率
基尼指数越低,表明被分错的概率越低,相应的信息纯度也就越高
计算特征节点t的基尼指数 :
例子:
当一个特征节点p 分裂成 k 个子节点(如两个子节点)
选择准则:选择最大的GINI 对应的特征m
分类错误
计算单个节点错误
决策树——剪枝
当利用训练集生成决策树之后,树的很多分枝属于噪音或者会对分类准确率造成负面影响,因此需要对决策树进行剪枝来提高决策树的分类能力。
先剪枝
通过提前停止生成分枝对决策树进行剪枝,可以利用信息增益等测度来对分枝生成情况(优劣)进行评估
后剪枝
首先完全地构建一个决策树,然后删除不必要的结点和对应的分枝
四、K近邻算法
对数据空间内的样本,可提出相似样本假设表征上相近的样本应该属于同一个类别
K近邻思想:用K个最相似样本的类别来预测未知样本的类别(投票方法)
核心问题:距离度量、K的取值
距离度量:
基本方法:欧式距离
离散0/1向量,则可使用汉明距离(Hamming)代替
除此之外,对于文本而言(如采用TF-IDF),可使用余弦相似度
K的取值:
K近邻分类的效果同样严重依赖于 K 的取值(即邻居的数量)
K太小,容易受噪声干扰;
K太大,可能导致错误涵盖其他类别样本
五、支持向量机(SVM)
内容有限,具体内容可以去西瓜书了解,带大家过一下