机器学习西瓜书第三章阅读笔记公式推导+内容概要

发布于：2023-01-04 ⋅ 阅读:(185) ⋅ 点赞:(0)

第三章线性模型

3.1 基本形式
3.2 线性回归
3.3 对数几率回归
3.4 线性判别分析（Linear Discriminant Analysis，LDA）/Fisher判别分析
3.5 多分类学习
3.6 类别不平衡问题

3.1 基本形式

在这里插入图片描述

3.2 线性回归

目的：
性能度量：

在这里插入图片描述

对数几率回归==令模型预测值逼近y的衍生物
广义线性模型

3.3 对数几率回归

如何进行分类学习？：找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
对数几率函数：在一定程度上近似单位阶跃函数的“替代函数”，且单调可微（单位阶跃函数不连续）
几率：反应了x作为正例的相对可能性，对几率取对数则得到对数几率
对数几率回归：用线性回归模型的预测结果去逼近真实标记的对数几率。虽然名字是“回归”，但实际上是一种分类学习算法。
优点：
- 直接对分类可能性进行建模，无需实现假设数据分布，这样就避免了假设分布不准确所带来的问题
- 不是仅预测出“类别”，而是可得到近似概率预测，这对许多需利用概率辅助决策的任务很有用
- 对率函数是任意阶可导的凸函数，有很好的数学性质，现有的许多数值优化算法都可直接用于求取最优解。
如何确定式中的w和b？==极大似然法

问题：3.27如何得到？

之后的书中是用凸优化理论对其进行求解

3.4 线性判别分析（Linear Discriminant Analysis，LDA）/Fisher判别分析

思想：给定训练样例集，设法将样例投影到一条直线上，使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
要优化的目标：
广义瑞丽商：
求解w和b：

在这里插入图片描述

3.5 多分类学习

基本思路：拆解法，将多分类任务拆为若干个二分类任务求解
拆分策略：
一对一：将N个类别的任意两个两两配对，最终产生N(N-1)/2个二分类任务
一对多：每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器，需要训练N个分类器
MvM多对多：每次将若干个类作为正类，若干个其他类作为反类

书中继续详细介绍了ECOC

3.6 类别不平衡问题

在这里插入图片描述

类别不平衡的学习策略：
再缩放