1.3 统计学习三要素笔记

发布于：2023-01-22 ⋅ 阅读:(119) ⋅ 点赞:(0)

在这里插入图片描述

统计学习方法是由模型、策略、算法构成，可简单表示为：
$方法 = 模型 + 策略 + 算法$

一、模型

模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。

假设空间 $F$ 可以定义为决策函数的集合
$F = \{f | Y=f(X)\}$
假设空间 $F$ 也可以定义为条件概率集合
$F = \{P|P(Y|X)\}$
通常，这个 $F$ 是由一个参数向量决定的：
$\{f | Y=f_\theta(X)\}$ $\{P|P_\theta(Y|X)\}$
参数 $\theta$ 取值与 $n$ 维欧式空间 $R^n$ ,¹
由决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。

二、策略

策略的目的是如何从假设空间中选取最优的模型。

2.1 损失函数和风险函数

损失函数：用来测量预测值和真实值之间的错误程度，损失函数是 $f (X)$ 和 $Y$ 的非负实值函数，记作 $L (Y, f (X))$ ，通常有以下几种，对于刚入门的朋友，有个大概映象即可。不用深究下面的公式：

损失函数越小，模型越好
风险函数: 当输入、输出是随机变量，遵循联合分布 $P (X, Y)$ ，所以损失函数的期望是：

在这里插入图片描述
这是理论上模型 $f (X)$ 关于联合分布 $P (X ， Y)$ 的平均意义下的损失，称为风险函数，或期望损失。

经验风险：如果给定一个数据集 $T$ ，模型 $f (X)$ 关于训练数据集的平均损失称为经验风险或者经验损失。记作：

这里需要注意的是：
$R_{exp}(f)$ 是关于联合分布的期望损失，下标为 exp；
$R_{emp}(f)$ 是训练样本集的平均损失，小标为emp

个人理解：
如果不太能明白，可以先暂且认为:

损失函数对应的是决策函数的错误程度；
风险函数对应的是联合概率分布的错误程度;
经验风险是数据集中所有输入对应的损失函数或风险函数的平均值。
个人理解，不保对。

2.2 经验风险最小化和结构风险最小化

经验风险最小化（ERM）：就是求解下面式子的最小值。
结构风险最小化（SRM）：结构风险最小化是为了方式过拟合²而提出的策略。就是在经验风险上加上正则化项或罚项。

监督学习，就是求解经验风险或结构风险最优化的过程。

三、算法

算法就是求解最优模型的的计算方法。

欧式空间又称欧几里得空间（Euclidean space），是指一类特殊的向量空间，对通常3维空间V3中的向量可以讨论长度、夹角等几何性质。 ↩︎
过拟合是指选取的样本特征值过多，导致学习的模型在训练集上有很高的准确率，而在测试集上的准确率很低。 ↩︎