第一章机器学习（浙大胡浩基教授）笔记-易微帮

ARTHUR SAMUEL对机器学习的定义:
机器学习是这样的领域，它赋予计算机学习的能力，(这种学习能力)不是通过显著式编程获得的。
让计算机自己总结的规律的编程方法，叫做非显著式编程。
我们规定了行为和收益函数后，让计算机自己去找最大化收益函数的行为。

机器学习的定义
一个计算机程序被称为可以学习，是指它能够针对某个任务T和某个性能指标P，从经验E中学习。这种学习的特点是，它在T上的被P所衡量的性能，会随着经验E的增加而提高。

机器人冲咖啡的例子：
任务T: 设计程序让机器人冲咖啡
经验E：机器人多次尝试的行为和这些行为产生的结果
性能测度P：在规定时间内成功冲好咖啡的次数

据经验E来提高性能指标P的过程是典型的最优化问题

四个机器学习的任务
(1)教计算机下棋;
(2)垃圾邮件识别，教计算机自动识别某个邮件识别是垃圾邮件
(3)人脸识别，教计算机通过人脸的图像识别这个人是谁;
(4)无人驾驶，教计算机自动驾驶汽车从一个指定地点到另一个指定地点。

根据经验E，1和4是一类，2和3是一类
2和3是一类，因为经验E是完全由人搜集起来输人进计算机的，经验E = 训练样本和标签的集合，此类是监督学习
1和4是一类，因为经验E是由计算机与环境互动获得的，定义行为产生收益函数，让计算机改变自己的行为模式去最大化收益函数，此类是强化学习，计算机通过与环境的互动逐渐强化自己的行为模式。

监督学习根据数据标签存在与否的分类
(1)传统的监督学习(Traditional Supervised Learning); 每一个训练数据都有对应的标签
* 支持向量机(SUPPORT VECTOR MACHINE )
* 人工神经网络(NEURAL NETWORKS)
* 深度神经网络 (Deep Neural Networks )

(2)非监督学习(Unsupervised Learning) ; 所有训练数据都没有对应的标签
需要假设:
同一类的训练数据在空间中距离更近，
样本的空间信息，
设计算法将它们聚集为两类，
无监督学习

聚类(Clustering)
EM算法(Expectation-Maximization algorithm)
主成分分析(Principle Component Analysis )
(3)半监督学习( Semi-supervised Learning); 训练数据中一部分有标签部分没有标签
少量的标注数据+大量未标注数据=更好的机器学习算法

另一种分类方法是基于标签的固有属性

监督学习:
* 分类：标签是离散的值
* 回归：标签是连续的值

机器学习算法的过程

维度和标准。选择合适的特征作为维度n维，划分区域标准
1
特征提取(Feature Extraction)：通过训练样本获得的,对机器学习任务有帮助的多维度数据。
特征提取、特征选择，
不同的算法对特征空间做不同的划分，
不同的结果

注：机器学习的重点，在已经提取好特征的前提下，如何构造算法获得更好的性能

没有免费午餐定理

任何一个预测函数，如果在一些训练样本上表现好，那么必然在另一些训练样本上表现不好，如果不对数据在特征空间的先验分
布有一定假设，那么表现好与表现不好的情况一样多。
如果不对特征空间的先验分布有假设，则所有算法的表现都一样
机器学习的本质：有限的已知数据，复杂的高维特征空间中，预测未知的样本的属性和类别

第一章机器学习（浙大胡浩基教授）笔记

另一种分类方法是基于标签的固有属性

机器学习算法的过程

没有免费午餐定理

微信公众号

今日签到

热门文章

最新发布

第一章 机器学习（浙大胡浩基教授）笔记

另一种分类方法是基于标签的固有属性

机器学习算法的过程

没有免费午餐定理

微信公众号

今日签到

热门文章

最新发布

第一章机器学习（浙大胡浩基教授）笔记