机器学习 西瓜书 第三章 阅读笔记 公式推导+内容概要

发布于:2023-01-04 ⋅ 阅读:(185) ⋅ 点赞:(0)

3.1 基本形式

在这里插入图片描述

3.2 线性回归

  • 目的:
    在这里插入图片描述
    在这里插入图片描述
  • 性能度量:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 对数几率回归==令模型预测值逼近y的衍生物
    在这里插入图片描述
  • 广义线性模型
    在这里插入图片描述

3.3 对数几率回归

  • 如何进行分类学习?:找一个单调可微函数将分类任务的真实标记y与线性回归模型的预测值联系起来
  • 对数几率函数:在一定程度上近似单位阶跃函数的“替代函数”,且单调可微(单位阶跃函数不连续)
    在这里插入图片描述
  • 几率:反应了x作为正例的相对可能性,对几率取对数则得到对数几率
    在这里插入图片描述
  • 对数几率回归:用线性回归模型的预测结果去逼近真实标记的对数几率。虽然名字是“回归”,但实际上是一种分类学习算法。
  • 优点:
    • 直接对分类可能性进行建模,无需实现假设数据分布,这样就避免了假设分布不准确所带来的问题
    • 不是仅预测出“类别”,而是可得到近似概率预测,这对许多需利用概率辅助决策的任务很有用
    • 对率函数是任意阶可导的凸函数,有很好的数学性质,现有的许多数值优化算法都可直接用于求取最优解。
  • 如何确定式中的w和b?==极大似然法
    在这里插入图片描述
    问题:3.27如何得到?
    在这里插入图片描述

之后的书中是用凸优化理论对其进行求解

3.4 线性判别分析(Linear Discriminant Analysis,LDA)/Fisher判别分析

  • 思想:给定训练样例集,设法将样例投影到一条直线上,使得同类样例的投影点尽可能接近、异类样例的投影点尽可能远离。
    在这里插入图片描述

  • 要优化的目标:
    在这里插入图片描述
    在这里插入图片描述

  • 广义瑞丽商:
    在这里插入图片描述

  • 求解w和b:
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3.5 多分类学习

  • 基本思路:拆解法,将多分类任务拆为若干个二分类任务求解
  • 拆分策略:
    在这里插入图片描述
  • 一对一:将N个类别的任意两个两两配对,最终产生N(N-1)/2个二分类任务
  • 一对多:每次将一个类的样例作为正例、所有其他类的样例作为反例来训练N个分类器,需要训练N个分类器
    在这里插入图片描述
    在这里插入图片描述
  • MvM多对多:每次将若干个类作为正类,若干个其他类作为反类
    在这里插入图片描述
    书中继续详细介绍了ECOC

3.6 类别不平衡问题

在这里插入图片描述

  • 类别不平衡的学习策略:
  • 再缩放
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

网站公告

今日签到

点亮在社区的每一天
去签到