机器学习【概述】

发布于:2023-02-13 ⋅ 阅读:(459) ⋅ 点赞:(0)

一.机器学习概述

1 人工智能概述

(1)人工智能起源

图灵测试

测试者与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。

多次测试(一般为5min之内),如果有超过30%的测试者不能确定被测试者是人还是机器,那么这台机器就通过了测试,并被认为具有人类智能

达特茅斯会议

1956年8月,在美国汉诺斯小镇宁静的达特茅斯学院中, 约翰·麦卡锡(John McCarthy) 马文·闵斯基(Marvin Minsky,人工智能与认知学专家) 克劳德·香农(Claude Shannon,信息论的创始人) 艾伦·纽厄尔(Allen Newell,计算机科学家) 赫伯特·西蒙(Herbert Simon,诺贝尔经济学奖得主)等科学家正聚在一起,讨论着一个完全不食人间烟火的主题:

用机器来模仿人类学习以及其他方面的智能。

会议足足开了两个月的时间,虽然大家没有达成普遍的共识,但是却为会议讨论的内容起了一个名字: 人工智能

因此,1956年也就成为了人工智能元年。

(2)人工智能三个阶段

  • 人工智能充满未知的探索道路曲折起伏。如何描述人工智能自1956年以来60余年的发展历程,学术界可谓仁者见仁、智者见智。我们将人工智能的发展历程划分为以下6个阶段:

  • 第一是起步发展期:1956年—20世纪60年代初。

    人工智能概念提出后,相继取得了一批令人瞩目的研究成果,如机器定理证明、跳棋程序等,掀起人工智能发展的第一个高潮。

  • 第二是反思发展期:20世纪60年代—70年代初。

    人工智能发展初期的突破性进展大大提升了人们对人工智能的期望,人们开始尝试更具挑战性的任务,并提出了一些不切实际的研发目标。然而,接二连三的失败和预期目标的落空(例如,无法用机器证明两个连续函数之和还是连续函数、机器翻译闹出笑话等),使人工智能的发展走入低谷。

  • 第三是应用发展期:20世纪70年代初—80年代中。

    20世纪70年代出现的专家系统模拟人类专家的知识和经验解决特定领域的问题,实现了人工智能从理论研究走向实际应用、从一般推理策略探讨转向运用专门知识的重大突破。专家系统在医疗、化学、地质等领域取得成功,推动人工智能走入应用发展的新高潮。

  • 第四是低迷发展期:20世纪80年代中—90年代中。

    随着人工智能的应用规模不断扩大,专家系统存在的应用领域狭窄、缺乏常识性知识、知识获取困难、推理方法单一、缺乏分布式功能、难以与现有数据库兼容等问题逐渐暴露出来。

  • 第五是稳步发展期:20世纪90年代中—2010年。

    由于网络技术特别是互联网技术的发展,加速了人工智能的创新研究,促使人工智能技术进一步走向实用化。1997年国际商业机器公司(简称IBM)深蓝超级计算机战胜了国际象棋世界冠军卡斯帕罗夫,2008年IBM提出“智慧地球”的概念。以上都是这一时期的标志性事件。

  • 第六是蓬勃发展期:2011年至今。

    随着大数据、云计算、互联网、物联网等信息技术的发展,泛在感知数据和图形处理器等计算平台推动以深度神经网络为代表的人工智能技术飞速发展,大幅跨越了科学与应用之间的“技术鸿沟”,诸如图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术实现了从“不能用、不好用”到“可以用”的技术突破,迎来爆发式增长的新高潮

(3)人工智能、机器学习和深度学习

机器学习是人工智能的一个实现途径

深度学习是机器学习的一个方法发展而来

(4)主要分支介绍

  • 计算机视觉:人脸识别
  • 自然语言处理:语音识别、语义识别
  • 文本挖掘/分类
  • 机器翻译
  • 机器人

(5)人工智能必备三要素

数据、算法、计算力

(6)GPU, CPU

gpu – 计算密集型

cpu – IO密集型

2 机器学习工作流程

机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测。

(1)工作流程

  • 获取数据
  • 数据基本处理
  • 特征工程
  • 机器学习(模型训练)
  • 模型评估
    • 结果达到要求,上线服务
    • 没有达到要求,重新上面步骤

(2)数据集

在数据集中一般:一行数据称为一个样本,一列数据称为一个特征。有些数据有目标值(标签值),有些数据没有目标值

数据类型构成:

  • 数据类型一:特征值+目标值(目标值是连续的和离散的)
  • 数据类型二:只有特征值,没有目标值

数据分割:

  • 机器学习一般的数据集会划分为两个部分:
    • 训练数据:用于训练,构建模型
    • 测试数据:在模型检验时使用,用于评估模型是否有效
  • 划分比例:
    • 训练集:70% 80% 75%
    • 测试集:30% 20% 25%

数据基本处理:对数据进行缺失值、去除异常值等处理

(3)特征工程

特征工程是使用专业背景知识和技巧处理数据使得特征能在机器学习算法上发挥更好的作用的过程

  • 意义:会直接影响机器学习的效果

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”

注:业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

特征工程包含内容:

  • 特征提取
  • 特征预处理
  • 特征降维

3 机器学习算法分类

根据数据集组成不同,可以把机器学习算法分为:

  • 监督学习
  • 无监督学习
  • 半监督学习
  • 强化学习

(1)监督学习

输入数据是由输入特征值和目标值所组成。

函数的输出可以是一个连续的值(称为回归),或是输出是有限个离散值(称作分类)。

回归问题:例如:预测房价,根据样本集拟合出一条连续曲线。

分类问题:例如:根据肿瘤特征判断良性还是恶性,得到的是结果是“良性”或者“恶性”,是离散的。

(2)无监督学习

输入数据是由输入特征值组成,没有目标值

  • 输入数据没有被标记,也没有确定的结果。样本数据类别未知;
  • 需要根据样本间的相似性对样本集进行类别划分。

(3)半监督学习

训练集同时包含有标记样本数据和未标记样本数据。

(4)强化学习

实质是make decisions 问题,即自动进行决策,并且可以做连续决策

主要包含五个元素:agent, action, reward, environment, observation;

是一个动态过程,上一步数据的输出是下一步数据的输入

监督学习和强化学习的对比

监督学习 强化学习
反馈映射 输出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出。 输出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。
反馈时间 做了比较坏的选择会立刻反馈给算法 结果反馈有延时,有时候可能需要走了很多步以后才知道以前的某一步的选择是好还是坏。
输入特征 输入是独立同分布的。 面对的输入总是在变化,每当算法做出一个行为,它影响下一次决策的输入。

(5)对比

In Out 目的 案例
监督学习 (supervised learning) 有标签 有反馈 预测结果 猫狗分类 房价预测
无监督学习 (unsupervised learning) 无标签 无反馈 发现潜在结构 “物以类聚,人以群分”
半监督学习 (Semi-Supervised Learning) 部分有标签,部分无标签 有反馈 降低数据标记的难度
强化学习 (reinforcement learning) 决策流程及激励系统 一系列行动 长期利益最大化 学下棋

4 模型评估

模型评估是模型开发过程不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。

按照数据集的目标值不同,可以把模型评估分为分类模型评估和回归模型评估。

(1)分类模型评估

准确率:预测正确的数占样本总数的比例。

其他评价指标:精确率、召回率、F1-score、AUC指标等

(2)回归模型评估

均方根误差(Root Mean Squared Error,RMSE)

其他评价指标:相对平方误差(Relative Squared Error,RSE)、平均绝对误差(Mean Absolute Error,MAE)、相对绝对误差(Relative Absolute Error,RAE)

(3)拟合

模型评估用于评价训练好的的模型的表现效果,其表现效果大致可以分为两类:过拟合、欠拟合。

在训练过程中,可能会遇到如下问题:训练数据训练的很好啊,误差也不大,为什么在测试集上面有问题呢?

当算法在某个数据集当中出现这种情况,可能就出现了拟合问题。

欠拟合(under-fitting):因为机器学习到的天鹅特征太少了,导致区分标准太粗糙,不能准确识别出天鹅。模型学习的太过粗糙,连训练集中的样本数据特征关系都没有学出来。

过拟合(over-fitting):机器已经基本能区别天鹅和其他动物了。然后,很不巧已有的天鹅图片全是白天鹅的,于是机器经过学习后,会认为天鹅的羽毛都是白的,以后看到羽毛是黑的天鹅就会认为那不是天鹅。所建的机器学习模型或者是深度学习模型在训练样本中表现得过于优越,导致在测试数据集中表现不佳

5 深度学习

深度学习(Deep Learning)(也称为深度结构学习【Deep Structured Learning】、层次学习【Hierarchical Learning】或者是深度机器学习【Deep Machine Learning】)是一类算法集合,是机器学习的一个分支。

深度学习方法近年来,在会话识别、图像识别和对象侦测等领域表现出了惊人的准确性。

但是,“深度学习”这个词语很古老,它在1986年由Dechter在机器学习领域提出,然后在2000年有Aizenberg等人引入到人工神经网络中。而现在,由于Alex Krizhevsky在2012年使用卷积网络结构赢得了ImageNet比赛之后受到大家的瞩目。


网站公告

今日签到

点亮在社区的每一天
去签到