【数据分析十:Classification& prediction】分类预测

发布于:2025-06-20 ⋅ 阅读:(21) ⋅ 点赞:(0)

一、分类的定义

已知:一组数据(训练集) (X, Y)

例如:

x:数据特征/属性(如收入)

y:类别标记(是否有借款)

任务:

学习一个模型,利用每一条记录的特征x去预测它对应的类别y

即:输入未标记的数据(含特征x),预测数据的类别y每一条记录表示为 (x, y)

如何建立分类与预测模型?

一般流程:有监督学习

通常包括两个阶段:模型训练模型预测

分类预测的准确性

二、规则方法

基于规则的分类器(Rule-based Classifier)就是使用一组 if-then 的模式来进行分类

例如:

(胎生= 否) ˄ (飞行动物= 是) → 鸟类

(胎生= 是) ˄ (体温= 恒温) → 哺乳类

三、决策树

对数据进行处理,利用归纳算法生成可读的规则

模型以树状形式呈现出来

非叶节点:一个属性上的测试,每个分枝代表该测试的输出

叶节点:存放一个类标记

规则:从根节点到叶节点的一条属性取值路径

基本的决策树学习过程,可以归纳为以下三个步骤:

  1. 特征选择:选取对于训练数据有着较强区分能力的特征
  2. 生成决策树:基于选定的特征,逐步生成完整的决策树
  3. 决策树剪枝:简化部分枝干,避免过拟合因素影响

特征选择

选取对于训练数据有着较强区分能力的特征

常用特征选择准则

        信息增益(熵)

        信息增益率

        基尼指数

信息熵:计算数据的不确定性

此时:表示某个节点t (即某个特征)的信息不确定性

例子:

 信息增益: 按某个特征划分之后,数据不确定性降低的程度

 信息增益率(Gain ratio): 综合考虑划分结果信息增益划分数量的信息

选择最大的信息增益率对应的特征m

信息增益率有矫枉过正的危险

采用信息增益率的情况下,往往倾向于选择取值较少的特征

当特征的取值较少时,IV较小,因此惩罚项相对较小

基尼指数

目的在于表示样本集合中一个随机样本被分错的概率

基尼指数越低,表明被分错的概率越低,相应的信息纯度也就越高

计算特征节点t的基尼指数 :

例子:

当一个特征节点p 分裂成 k 个子节点(如两个子节点)

选择准则:选择最大的GINI 对应的特征m

分类错误

计算单个节点错误

决策树——剪枝

当利用训练集生成决策树之后,树的很多分枝属于噪音或者会对分类准确率造成负面影响,因此需要对决策树进行剪枝来提高决策树的分类能力。

先剪枝

        通过提前停止生成分枝对决策树进行剪枝,可以利用信息增益等测度来对分枝生成情况(优劣)进行评估

后剪枝

        首先完全地构建一个决策树,然后删除不必要的结点和对应的分枝

四、K近邻算法

对数据空间内的样本,可提出相似样本假设表征上相近的样本应该属于同一个类别

K近邻思想:用K个最相似样本的类别来预测未知样本的类别(投票方法)

核心问题:距离度量、K的取值

距离度量:

基本方法:欧式距离

离散0/1向量,则可使用汉明距离(Hamming)代替

除此之外,对于文本而言(如采用TF-IDF),可使用余弦相似度

K的取值:

K近邻分类的效果同样严重依赖于 K 的取值(即邻居的数量)

K太小,容易受噪声干扰;

K太大,可能导致错误涵盖其他类别样本

五、支持向量机(SVM)


内容有限,具体内容可以去西瓜书了解,带大家过一下


网站公告

今日签到

点亮在社区的每一天
去签到