机器学习学习报告

发布于:2025-08-16 ⋅ 阅读:(16) ⋅ 点赞:(0)

一、机器学习的定义

机器学习是通过处理特定任务,以大量经验为基础,依据一定的评判标准,分析经验数据,从而使任务完成得更好的过程。

二、机器学习的基本流程

机器学习的基本流程可概括为:基于历史数据进行训练,得到模型,再将新的输入属性输入模型,从而对未知的新数据进行预测。这一过程本质上是从经验中归纳规律,进而运用规律预测未来问题。

三、机器学习的应用领域

机器学习的应用领域十分广泛,主要包括模式识别、计算机视觉、数据挖掘、语音识别、统计学习、自然语言处理等。例如 Google Translate(谷歌翻译)就是自然语言处理领域应用机器学习的典型案例。

四、机器学习的基本术语

  1. 数据集:数据记录的集合称为一个 “数据集”(data set)。
  2. 样本:数据集中每条记录是关于一个事件或对象的描述,称为 “样本”。
  3. 特征(属性):反映事件或对象在某方面的表现或性质的事项,例如 “色泽”。如下表中 “色泽”“根蒂”“敲声” 均为特征:

编号 色泽 根蒂 敲声
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 沉闷
3 乌黑 蜷缩 浊响
4 青绿 蜷缩 沉闷

  1. 属性空间:属性张成的空间称为 “属性空间” 或 “样本空间”。
  2. 向量表示:一般地,令D={x1​,x2​,…,xm​}表示包含m个示例的数据集,每个样本由d个属性描述,则每个样本xi​=(xi1​,xi2​,…,xid​)是d维样本空间X中的一个向量,d称为样本xi​的 “维数”。
  3. 训练集:机器学习中用于训练模型的数据集合,包含标记信息。如下表就是一个关于 “好瓜” 判断的训练集,其中 “好瓜” 一列即为标记信息:

编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜
1 青绿 蜷缩 浊响 清晰 凹陷 硬滑 0.697 0.46
2 乌黑 蜷缩 沉闷 清晰 凹陷 硬滑 0.774 0.376
3 乌黑 蜷缩 浊响 清晰 凹陷 硬滑 0.634 0.264
4 青绿 蜷缩 沉闷 清晰 凹陷 硬滑 0.608 0.318
5 浅白 蜷缩 浊响 清晰 凹陷 硬滑 0.556 0.215
6 青绿 稍蜷 浊响 清晰 稍凹 软粘 0.403 0.237
7 乌黑 稍蜷 浊响 稍糊 稍凹 软粘 0.481 0.149
8 乌黑 稍蜷 浊响 清晰 稍凹 硬滑 0.437 0.211
9 乌黑 稍蜷 沉闷 稍糊 稍凹 硬滑 0.666 0.091
10 青绿 硬挺 清脆 清晰 平坦 软粘 0.243 0.267
11 浅白 硬挺 清脆 模糊 平坦 硬滑 0.245 0.057
12 浅白 蜷缩 浊响 模糊 平坦 软粘 0.343 0.099
13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 0.639 0.161
14 浅白 稍蜷 沉闷 稍糊 凹陷 硬滑 0.657 0.198

  1. 测试集:机器学习中用于测试模型的数据集合。如下表中 “好瓜” 一列的结果未知,可作为测试集来检验模型的预测效果:

编号 色泽 根蒂 敲声 纹理 脐部 触感 密度 含糖率 好瓜
15 乌黑 稍蜷 浊响 清晰 稍凹 软粘 0.36 0.37
16 浅白 蜷缩 浊响 模糊 平坦 硬滑 0.593 0.042
17 青绿 蜷缩 沉闷 稍糊 稍凹 硬滑 0.719 0.103

五、机器学习的主要类型

  1. 监督学习:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,其数据集由 “正确答案”(标记)组成。监督学习又可分为分类和回归:
    • 分类:机器学习模型输出的结果被限定为有限的一组值,即离散型数值。例如判断西瓜是否为好瓜,输出结果为 “是” 或 “否”。
    • 回归:机器学习模型的输出可以是某个范围内的任何数值,即连续型数值。例如预测房屋价格,价格可以是某个范围内的任意数值。
  2. 无监督学习:提供数据集合但是不提供标记信息的学习过程。聚类是无监督学习的一种重要算法,例如将样本分成若干类。此外,无监督学习还可应用于关联分析,如分析向购买尿布的人推荐葡萄酒是否会促使其购买。
  3. 集成学习:通过构建并结合多个学习器来完成学习任务,以提高学习性能。

六、模型评估与选择

  1. 评估指标
    • 错误率:分类错误的样本数占样本总数的比例。
    • 精度:1 减去错误率。
    • 残差:学习器的实际预测输出与样本的真实输出之间的差异。
    • 训练误差(经验误差):学习器在训练集上的误差。
    • 泛化误差:学习器在新样本上的误差。
    • 损失函数:用来衡量模型预测误差大小的函数,损失函数越小,模型越好。
  2. 模型常见问题
    • 欠拟合:模型没有很好地捕捉到数据特征、特征集过小导致模型不能很好地拟合数据,本质上是对数据特征学习不够。
    • 过拟合:把训练数据学习得太彻底,以至于把噪声数据的特征也学习到了,特征集过大,导致在后期测试时不能够很好地识别数据,不能正确分类,模型泛化能力太差。
  3. 过拟合与欠拟合的处理方式
    • 过拟合的处理方式:增加训练数据;降维,即丢弃一些不能帮助正确预测的特征;采用正则化技术,保留所有特征,但减少参数的大小;使用集成学习方法,把多个模型集成在一起,降低单一模型的过拟合风险。
    • 欠拟合的处理方式:添加新特征,当特征不足或者现有特征与样本标签的相关性不强时,模型容易出现欠拟合;增加模型复杂度,简单模型的学习能力较差,通过增加模型的复杂度可以使模型拥有更强的拟合能力;减小正则化系数,正则化是用来防止过拟合的,但当模型出现欠拟合现象时,则需要有针对性地减小正则化系数。
  4. 选择模型的基本原则
    • 奥卡姆剃刀原理:“如无必要,勿增实体”,即 “简单有效原理”。在所有可能选择的模型中,应该选择能够很好地解释已知数据,并且十分简单的模型。如果简单的模型已经够用,不应该一味地追求更小的训练误差,而把模型变得越来越复杂。
    • 没有免费的午餐(No Free Lunch,NFL):对于基于迭代的最优化算法,不存在某种算法对所有问题(有限的搜索空间内)都有效。如果一个算法对某些问题有效,那么它一定在另外一些问题上比纯随机搜索算法更差。在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。

      七、模型评估方法

    • 留出法:直接将数据集D划分为两个互斥的部分,其中一部分作为训练集S,另一部分用作测试集T。通常训练集和测试集的比例为 70%、30%。划分时需注意:尽可能保持数据分布的一致性,在分类任务中,保留类别比例的采样方法称为 “分层采样”;采用若干次随机划分避免单次使用留出法的不稳定性。
    • 交叉验证法:先将数据集D划分为k个大小相似的互斥子集,每次采用k−1个子集的并集作为训练集,剩下的那个子集作为测试集。进行k次训练和测试,最终返回k个测试结果的均值,又称为 “k折交叉验证”。
    • 八、模型评估的其他重要指标

    • 相关术语
      • TP(True positive,真正例):将正类预测为正类数。
      • FP(False positive,假正例):将反类预测为正类数。
      • TN(True negative,真反例):将反类预测为反类数。
      • FN(False negative,假反例):将正类预测为反类数。
    • 查准率(精确率)P 和查全率(召回率)R
      • 查准率P=TP+FPTP​
      • 查全率R=TP+FNTP​
      • 一般来说,查准率P高时,查全率R往往偏低;而查全率R高时,查准率P往往偏低。
    • P-R 图:直观地显示出学习器在样本总体上的查全率、查准率。在进行比较时,若一个学习器的 P-R 曲线被另一个学习器的曲线完全 “包住”,则可断言后者的性能优于前者;如果两个学习器的 P-R 曲线发生了交叉,则难以一般性地断言两者孰优孰劣。

网站公告

今日签到

点亮在社区的每一天
去签到