1. 机器学习?
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能核心,是使计算机具有智能的根本途径。
Arthur Samuel:在进行特定编程的情况下,给予计算机学习能力的领域。即不直接编程却能赋予计算机提高能力的方法。
Tom Mitchell:一个程序被认为能从经验 E 中学习,解决任务 T,达到性能度量值 P,当且仅当,有了经验 E 后,经过 P 评判,程序在处理 T 时的性能有所提升。
根据数据集的特征,机器学习分为监督学习和无监督学习。
2. 监督学习
在监督学习中,我们给学习算法一个数据集,这个数据集由“正确答案”组成,而后我们训练出一个模型,给这个模型一些基础数据,能够返回答案。简而言之,就是通过一组(x, y)的数据集,实现一个模型,进而对未知的x对应的y进行预测。
监督学习主要分为两类:
回归问题:上述中的y是连续变量,如通过房子的各项指标预测房价;通过父母身高来预测子女身高。
分类问题:y是离散变量,如通过垃圾特征进行垃圾分类,判断垃圾邮件等。
其实两类问题所做的工作都是拟合和预测,其在本质上是一致的。
3. 无监督学习
在监督学习中,数据是有标签的;在无监督学习中,数据是没有标签的,或者是有相同的标签,只是一个复杂的数据集。简而言之,无监督的数据集就是一堆特征,也就是一堆 x 。常见的无监督学习有:
聚类算法:基于某项原则将数据集分为不同的簇
文本分析:如词频统计、词向量分析
降维算法:如主成分分析、因子分析