高级机器学习

发布于:2025-08-03 ⋅ 阅读:(10) ⋅ 点赞:(0)

机器学习常见方法

涉及方法:

2.半监督学习

3.无监督学习

4.度量学习

5.迁移学习

6.多示例多标记学习

7.在线学习

8.元学习

9.联邦学习

10.强化学习

11.概率图模型

独立同分布

独立指的是,样本集包括训练集测试集的任意两个样本之间都是不相关的。在表示样本的特征确定后,训练样本集的分布是具体而确定的,成为基于训练样本的分布;样本全集,如果能够获取的话(通常无法获取),也对应着一个具体而确定的分布,称为基于样本全集的分布,同分布就是基于训练样本集的分布与基于样本全集的分布完全相同

2.半监督学习

训练数据中一部分有标签(xi,yi),一部分无标签(xj),学习一个映射f:X->Y

预测数据(xt)

未标记数据的优点:优化决策边界,提升泛化能力

假设

所有的无标记数据都属于有标记数据中的某一类

1.光滑性假设,如果高密度区域两个点x1x2很接近,那么相应输出y1y2很接近

2.聚类假设:如果在同一个簇中,很可能为同一类

3.流形假设:高维数据大致位于低维流形上,如果高维中属于一个类,那么低维也属于一个类

常见方法

自训练

1.假设:具有高置信度的预测是正确的

2.过程

用已有的有标记数据(xi,yi)训练f,预测未标记(xu,f(xu)),将预测的未标记数据加入已标记数据,继续训练,预测再加入

(全部加入|基于置信度分配权重全部加入|少量最自信的加入)

3.优点

易于理解

框架性思路:自训练+各种机器学习算法

4.缺点

对初始模型质量敏感

对数据分布敏感

伪标签错误累加

协同训练

1.假设

单独使用单个视图的数据可以训练一个好的分类器

不同视图数据相互独立

2.过程 

两个分类器f1,f2

分别对无监督数据标记,f1分类最自信的k个加入f2中,f2的加入f1中

3.优点 

互补信息

框架性思路

与自训练相比,对错误的伪标记不太敏感

4.缺点

在某些任务中不一定有多视图条件

5.风格

划分特征|划分数据集|划分模型

6.扩展

两个视角->三个视角

一致性正则化

1.数据增强

图片旋转裁剪放大缩小等

2.PI模型

输入有标签xi,无标签xu,进行随机数据增强,经过神经网络模型,计算损失(监督损失+无监督损失(无标签数据增强前后))

3.优点

使用简单

对噪音不敏感

4.缺点

训练时间长,效率低

3.无监督学习

最小化无监督损失函数

(k均值:样本间的相似度集|主成分分析:信息损失|自编码器:重构误差)

方法

K-means

1.过程

随机初始化k个点

计算其他数据点到这个k个的距离,选最近的中心点作为数据所在簇

在一个中心点的一个簇内,重新计算中心点的位置

重复n次

2.缺点

对初始点敏感

对噪声敏感

3.k-means++

初始化k个点的时候

先随机初始化一个中心点,算其他数据点离中心点的距离D(xi),选最远的点作为新的中心点加入,继续计算,直到得到k个中心点

主成分分析

自编码器

4.度量学习

方法

线性判别分析

最大化类间距离,最小化类内距离

深度度量学习

5.迁移学习

6.多标记多示例学习

单标记多示例

多标记单示例,包

7.在线学习

全信息在线学习,知道损失函数

只知道回报,老虎机

8.元学习

学习很多任务,元学习器,针对每个任务优化,每个任务最后验证的损失优化外层的参数

9.联邦学习

信息加密,串行并行

10.强化学习

11.概率图模型

贝叶斯

贝叶斯平均

基于后验概率的预测


网站公告

今日签到

点亮在社区的每一天
去签到