云计算---机器学习（决赛准备）

发布于：2024-04-27 ⋅ 阅读:(23) ⋅ 点赞:(0)

任务 𝑇 ：机器学习系统应该如何处理样本

性能度量 𝑃 ：评估机器学习算法的能力。如准确率、错误率。

经验 𝐸 ：大部分学习算法可以被理解为在整个数据集上获取经验。有些机器学习

的算法并不是训练于一个固定的数据集上，例如强化学习算法会和环境交互，

所以学习系统和它的训练过程会有反馈回路。根据学习过程中的不同经验，机

器学习算法可以大致分为无监督算法和监督算法。

学习下围棋问题：

▫ 经验 𝐸 1 ：自己和自己对弈 —— 无监督、间接学习

▫ 经验 𝐸 2 ：自对弈过程中询问人类 —— 半监督学习

▫ 经验 𝐸 3 ：人类历史对弈 —— 有监督、直接学习

• 手写识别问题：任务 𝑇 ：识别手写文字。性能标准 𝑃 ：分类准确率。经验 𝐸 ：已分类样

例库（有监督、直接学习）。

• 机器人的上进心：寻找新的棋局，同样的局面下通过微小变化来磨砺技能，等效于扩

充了训练样例。

分类、聚类、回归

监督学习：通俗的来讲，我们给计算机一堆选择题（训练样本），并同时提供了它们

的标准答案，计算机努力调整自己的模型参数，希望自己推测的答案与标准答案越一

致越好，使计算机学会怎么做这类题。然后再让计算机去帮我们做没有提供答案的选

择题（测试样本）。

• 非监督学习：通俗的来讲，我们给计算机一堆选择题（训练样本），但是不提供标准

答案，计算机尝试分析这些题目之间的关系，对题目进行分类，计算机也不知道这几

堆题的答案分别是什么，但计算机认为每一个类别内的题的答案应该是相同的。

• 半监督学习：传统监督学习通过对大量有标记的训练样本进行学习以建立模型用于预

测新的样本的标记。例如，在分类任务中标记就是样本的类别，而在回归任务中标记

就是样本所对应的实值输出。随着存储数据能力的高度发展，在很多实际任务中可以

容易地获取大批未标记数据，而对这些数据赋予标记则往往需要耗费大量的人力物力。

例如，在进行 Web 网页推荐时，需请用户标记出感兴趣的网页，但很少有用户愿意

花很多时间来提供标记，因此有标记的网页数据比较少，但 Web 上存在着无数的网

页，它们都可作为未标记数据来使用。

• 强化学习：通俗的来讲，我们给计算机一堆选择题（训练样本），但是不提供标准答

案，计算机尝试去做这些题，我们作为老师批改计算机做的对不对，对的越多，奖励

越多，则计算机努力调整自己的模型参数，希望自己推测的答案能够得到更多的奖励。

不严谨的讲，可以理解为先无监督后有监督学习。

• 强化学习通过一系列的行动最大化“奖励函数”来学习模型，

• 不管是好行为还是坏行为都可以帮助强化学习模型学习

• 例子，自动驾驶汽车通过不断与环境交互来学习

• 强调利用了模型的惩罚属性，对不重要的特征就行消除

这里的模型可以认为是类似与决策树模型

• 那么我们用什么指标来判断模型？

• 第一个泛化能力最重要

• 一旦给定了问题假定的形式，所有可能的函数构成了一个空间，我们称之为假设空间。

机器学习的问题可以看做是在假设空间中搜索合适的拟合函数的问题。

• 过拟合：过于复杂的数学模型比较容易发生过拟合，适当简化数学模型、在过拟合前

提前结束训练、采用 Dropout/Weight Decay 手段等，可以减轻过拟合现象。

• 欠拟合：过于简单的数学模型，或训练时间太短，则可能引起欠拟合。对于前者，需

使用更复杂的模型，对于后者，只需延长训练时间，即可有效缓解欠拟合现象。

• 有效容量受限于算法、参数、正则化等。

⚫ 关于不可消解的误差

⚫ 理论上来说，如果有无限量的数据与完美的模型，这个不可消解的误差是可以

被消解的，

⚫ 但实际上所有模型都是不完美的，并且我们的数据量是有限的

通常情况下，在接近目标点区域的极小范围内，下降的幅度是越来越小的。但是，在

目标点一定范围内可能存在梯度不稳定的情况。

• 参数作为模型从历史训练数据中学到的一部分，是机器学习算的关键。有以下特征：

▫ 进行模型预测时需要模型参数。

▫ 模型参数值可以定义模型功能。

▫ 模型参数用数据估计或数据学习得到。

▫ 模型参数一般不由实践者手动设置。

▫ 模型参数通常作为学习模型的一部分保存。

• 模型参数的一些例子包括：

▫ 人造神经网络中的权重。

▫ 支持向量机中的支持向量。

▫ 线性回归或逻辑回归中的系数

将数据集分成固定的训练集和固定的测试集后，若测试集的误差很小，这将是有问题

的。一个小规模的测试集意味着平均测试误差估计的统计不确定性。使得很难判断算

法 𝐴 是否比算法 𝐵 在给定任务上做得更好。当数据集有十万计或者更多的样本时，这

不会是一个严重的问题。当数据集太小时，也有替代方法允许我们使用所有的样本估

计平均测试误差，代价是增加计算量。

• 𝑘 - 折交叉验证： 𝑘 一般大于等于 2 ，实际操作时一般从 3 开始取，只有在原始数据集合

数据量小的时候才会尝试取 2 。 𝐾 − 𝐶𝑉 可以有效的避免过学习以及欠学习状态的发生，

最后得到的结果也比较具有说服性。

回归分析中，只包括一个自变量和一个因变量，且二者的关系可用一条直线近似表示，

这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量，

且因变量和自变量之间是线性关系，则称为多元线性回归分析。学出来的不一定是一

条直线，只有在变量 𝑥 是一维的时候才是直线，高维的时候是超平面。比如房子的售

价由面积，户型，区域等多种条件来决定，通过这些条件来预测房子的售价可抽象为

一个线性回归问题。

图中显示的是多项式线性回归

追加正则项之后，逻辑回归也可以防止过拟合

决策树最重要的是决策树的构造。所谓决策树的构造就是进行属性选择度量确定各个

特征属性之间的拓扑结构。构造决策树的关键步骤是分裂属性，即在某个节点处按照

某一特征属性的不同划分构造不同的分支。

决策树的学习算法用来生成决策树，常用的学习算法为 ID3 ， C4.5 ， CART 。

除了根节点之外的其它节点统称为叶子节点

SVM 的主要思想可以概括为两点：

▫ 对于线性不可分的情况，通过使用非线性映射算法将低维输入空间线性不可分

的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算

法对样本的非线性特征进行线性分析成为可能。

▫ 它基于结构风险最小化理论之上特征空间中构建最优超平面，使得学习器得到

全局最优化，并且在整个样本空间的期望以某个概率满足一定上界

高斯核函数用的最多

类条件独立性：贝叶斯分类法假定一个属性值在给定类上的影响独立于其他属性的值。

做此假定是为了简化计算，并在此意义下成为“朴素的”。

• 贝叶斯分类器应用于大型数据库具有较高的准确性和快速的速度。

Bootstrap有放回的抽样

答案： 1.D 2.B