【数据分析十：Classification& prediction】分类预测-EW帮帮网

一、分类的定义

已知：一组数据（训练集） (X, Y)

例如：

x：数据特征/属性（如收入）

y：类别标记（是否有借款）

任务:

学习一个模型，利用每一条记录的特征x去预测它对应的类别y

即：输入未标记的数据（含特征x），预测数据的类别y每一条记录表示为 (x, y)

如何建立分类与预测模型？

一般流程：有监督学习

通常包括两个阶段：模型训练、模型预测

分类预测的准确性

二、规则方法

基于规则的分类器（Rule-based Classifier）就是使用一组 if-then 的模式来进行分类

例如：

(胎生= 否) ˄ (飞行动物= 是) → 鸟类

(胎生= 是) ˄ (体温= 恒温) → 哺乳类

三、决策树

对数据进行处理，利用归纳算法生成可读的规则

模型以树状形式呈现出来

非叶节点：一个属性上的测试，每个分枝代表该测试的输出

叶节点：存放一个类标记

规则：从根节点到叶节点的一条属性取值路径

基本的决策树学习过程，可以归纳为以下三个步骤：

特征选择：选取对于训练数据有着较强区分能力的特征
生成决策树：基于选定的特征，逐步生成完整的决策树
决策树剪枝：简化部分枝干，避免过拟合因素影响

特征选择

选取对于训练数据有着较强区分能力的特征

常用特征选择准则

信息增益(熵)

信息增益率

基尼指数

信息熵：计算数据的不确定性

此时：表示某个节点t （即某个特征）的信息不确定性

例子：

信息增益: 按某个特征划分之后，数据不确定性降低的程度

信息增益率(Gain ratio): 综合考虑划分结果信息增益和划分数量的信息

选择最大的信息增益率对应的特征m

信息增益率有矫枉过正的危险

采用信息增益率的情况下，往往倾向于选择取值较少的特征

当特征的取值较少时，IV较小，因此惩罚项相对较小

基尼指数

目的在于表示样本集合中一个随机样本被分错的概率

基尼指数越低，表明被分错的概率越低，相应的信息纯度也就越高

计算特征节点t的基尼指数 :

例子：

当一个特征节点p 分裂成 k 个子节点（如两个子节点）

选择准则：选择最大的GINI 对应的特征m

分类错误

计算单个节点错误

决策树——剪枝

当利用训练集生成决策树之后，树的很多分枝属于噪音或者会对分类准确率造成负面影响，因此需要对决策树进行剪枝来提高决策树的分类能力。

先剪枝

通过提前停止生成分枝对决策树进行剪枝，可以利用信息增益等测度来对分枝生成情况（优劣）进行评估

后剪枝

首先完全地构建一个决策树，然后删除不必要的结点和对应的分枝

四、K近邻算法

对数据空间内的样本，可提出相似样本假设表征上相近的样本应该属于同一个类别

K近邻思想：用K个最相似样本的类别来预测未知样本的类别(投票方法)

核心问题：距离度量、K的取值

距离度量：

基本方法：欧式距离

离散0/1向量，则可使用汉明距离（Hamming）代替

除此之外，对于文本而言（如采用TF-IDF），可使用余弦相似度

K的取值：

K近邻分类的效果同样严重依赖于 K 的取值（即邻居的数量）

K太小，容易受噪声干扰；

K太大，可能导致错误涵盖其他类别样本

五、支持向量机（SVM）

内容有限，具体内容可以去西瓜书了解，带大家过一下

【数据分析十：Classification& prediction】分类预测

一、分类的定义

二、规则方法

三、决策树

特征选择

四、K近邻算法

五、支持向量机（SVM）

网站公告

今日签到

热门文章

最新发布