1.3 统计学习三要素笔记

发布于:2023-01-22 ⋅ 阅读:(97) ⋅ 点赞:(0)

在这里插入图片描述

统计学习方法是由模型、策略、算法构成,可简单表示为:
方法 = 模型 + 策略 + 算法 方法 = 模型 + 策略 + 算法 方法=模型+策略+算法

一、模型

模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

假设空间 F F F 可以定义为决策函数的集合
F = { f ∣ Y = f ( X ) } F = \{f | Y=f(X)\} F={fY=f(X)}
假设空间 F F F 也可以定义为条件概率集合
F = { P ∣ P ( Y ∣ X ) } F = \{P|P(Y|X)\} F={PP(YX)}
通常,这个 F F F 是由一个参数向量决定的:
F = { f ∣ Y = f θ ( X ) } F = \{f | Y=f_\theta(X)\} F={fY=fθ(X)} F = { P ∣ P θ ( Y ∣ X ) } F = \{P|P_\theta(Y|X)\} F={PPθ(YX)}
参数 θ \theta θ 取值与 n n n 维欧式空间 R n R^n Rn,1
由决策函数表示的模型为非概率模型,由条件概率表示的模型为概率模型。

二、策略

策略的目的是如何从假设空间中选取最优的模型。

2.1 损失函数和风险函数

  • 损失函数:用来测量预测值真实值之间的错误程度,损失函数是 f ( X ) f(X) f(X) Y Y Y 的非负实值函数,记作 L ( Y , f ( X ) ) L(Y,f(X)) L(Y,f(X)),通常有以下几种,对于刚入门的朋友,有个大概映象即可。不用深究下面的公式:
    在这里插入图片描述
    损失函数越小,模型越好
  • 风险函数: 当输入、输出是随机变量,遵循联合分布 P ( X , Y ) P(X,Y) P(X,Y),所以损失函数的期望是:

在这里插入图片描述
这是理论上模型 f ( X ) f(X) f(X) 关于联合分布 P ( X , Y ) P(X,Y) P(XY) 的平均意义下的损失,称为风险函数,或期望损失。

  • 经验风险:如果给定一个数据集 T T T ,模型 f ( X ) f(X) f(X) 关于训练数据集的平均损失称为经验风险或者经验损失。记作:
    [^4]

这里需要注意的是:
R e x p ( f ) R_{exp}(f) Rexp(f)是关于联合分布的期望损失,下标为 exp;
R e m p ( f ) R_{emp}(f) Remp(f)是训练样本集的平均损失,小标为emp

个人理解
如果不太能明白,可以先暂且认为:

  • 损失函数对应的是决策函数的错误程度;
  • 风险函数对应的是联合概率分布的错误程度;
  • 经验风险是数据集中所有输入对应的损失函数或风险函数的平均值。
    个人理解,不保对。

2.2 经验风险最小化和结构风险最小化

  • 经验风险最小化(ERM):就是求解下面式子的最小值。在这里插入图片描述

  • 结构风险最小化(SRM):结构风险最小化是为了方式过拟合2而提出的策略。就是在经验风险上加上正则化项或罚项。
    在这里插入图片描述

监督学习,就是求解经验风险或结构风险最优化的过程。

三、算法

算法就是求解最优模型的的计算方法。


  1. 欧式空间又称欧几里得空间(Euclidean space),是指一类特殊的向量空间,对通常3维空间V3中的向量可以讨论长度、夹角等几何性质。 ↩︎

  2. 过拟合是指选取的样本特征值过多,导致学习的模型在训练集上有很高的准确率,而在测试集上的准确率很低。 ↩︎

本文含有隐藏内容,请 开通VIP 后查看