DAY01:【ML 第一弹】机器学习概述

发布于:2025-07-14 ⋅ 阅读:(19) ⋅ 点赞:(0)

一、三大概念

1.1 人工智能(AI)

  • Artificial Intelligence 人工智能
  • AI is the field that studies the synthesis and analysis of computational agents that act intelligently

1.2 机器学习(ML)

  • Machine Learning 机器学习
  • Field of study that gives computers the ability to learn without being explicitly programmed

1.3 深度学习(DL)

  • Deep Learning 深度学习

1.4 三者关系

在这里插入图片描述

  1. 机器学习是实现人工智能的一种途径。
  2. 深度学习是机器学习的一种方法。

1.5 学习方式

1.5.1 基于规则的学习

  • 基于规则的预测
  • 图像与语音识别
  • 自然语言处理

1.5.2 基于模型的学习

在这里插入图片描述

  • 通过编写机器学习算法,让机器自己学习从历史数据中获得经验、训练模型

二、人工智能应用领域和发展史

2.1 应用领域

在这里插入图片描述

  • 用户分析:社交网络、影评、商品评论
  • 搜素引擎:网页、图片、规频、新闻、学术、地图
  • 信息推荐:新闻、商品、游戏、书籍
  • 图片识别:人像、用品、劢物、交通工具
  • 机器翻译、摘要生成 … 生物信息学习 … 多模态 AR/VR

2.2 发展历史

在这里插入图片描述

2.3 发展三要素

在这里插入图片描述

  1. CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务。
  2. GPU:更加适合矩阵运算;主要适合计算密集型任务。
  3. TPU:Tensor,专门针对神经网络训练设计一款处理器。

三、常见术语

  1. 样本(sample):一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录。
  2. 特征(feature):一列数据一个特征,有时也被称为属性。
  3. 标签/目标(label/target):模型要预测的那一列数据。
  4. 数据集:
    • 训练集(training set):用来训练模型(model)的数据集
    • 测试集(testing set):用来测试模型的数据集

四、算法分类

4.1 有监督学习

4.1.1 定义

  输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的。

4.1.2 数据集

在这里插入图片描述

数据人工标注

4.1.3 分类

在这里插入图片描述

目标值(标签值)不连续
分类种类:二分类和多分类

4.1.4 回归

在这里插入图片描述

目标值(标签值)连续

4.2 无监督学习

4.2.1 定义

  输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现事物内部 结构及相互关系。

4.2.2 数据集

在这里插入图片描述

数据无需标注

4.2.3 特点

  1. 训练数据无标签。
  2. 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系。

4.3 半监督学习

4.3.1 工作原理

在这里插入图片描述

  1. 标注少量数据。
  2. 利用已经标注的少量数据训练出一个模型。
  3. 再利用训练出的模型去套用未标记的数据。
  4. 对比专家分类结果与模型分类结果,从而对模型做进一步改善和提高。

4.3.2 特点

  1. 大幅降低标注成本

4.4 强化学习

4.4.1 工作原理

在这里插入图片描述

四要素:

  • agent
  • 环境状态
  • 行动
  • 奖励

4.5 四者对比

在这里插入图片描述

Input output 目的 案例
监督学习(supervised learning) 有标签 有反馈 预测结果 猫狗分类、房价预测
无监督学习(unsupervised learning) 无标签 无反馈 发现潜在结构 “物以类聚,人以群分”
半监督学习(Semi-Supervised Learning) 部分有标签,部分无标签 有反馈 降低数据标记的难度
强化学习(reinforcement learning) 决策流程及激励系统 一系列行动 长期利益最大化 学下棋

五、建模流程

步骤序号 步骤名称 具体内容
1 获取数据 获取经验数据、图像数据、文本数据 …
2 数据基本处理 数据缺失值处理、异常值处理 …
3 特征工程 特征提取、特征预处理、特征降维 …
4 机器学习(模型训练) 线性回归、逻辑回归、决策树、GBDT
5 模型评估 回归评测指标、分类评测指标、聚类评测指标

六、特征工程

6.1 定义

  1. 从数据集的角度,指一列一列的数据。
  2. 从模型训练的角度,指对预测结果有用的属性。

  利用专业背景知识和技巧处理数据,让机器学习算法效果最好。数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。

6.2 特征提取

  从原始数据中提取与任务相关的特征,构成特征向量。对于文本、图片这种非行列形式的数据行列形式转换,一旦转换成行列形式一列就是特征。

6.3 特征预处理

  将不同的单位的特征数据转换成同一个范围内,使训练数据中不同特征对模型产生较为一致的影响。

6.4 特征降维

  将原始数据的维度降低,会丢失部分信息,但需要保证数据的主要信息要保留下来。

6.5 特征选择

  原始数据通常存在丰富多样的特征,对于给定任务而言,有效特征仅为全体特征构成集合中的一个子集。此时,需从原始特征集合里,甄别并选取对任务具备显著价值的重要特征或强相关特征,且整个过程不会对原始数据本身的特征表示与分布产生改变。

6.6 特征组合

  通过加法、乘法等方法把多个的特征合并成一个特征。

  • [A x B]:将两个特征的值相乘形成的特征组合
  • [A x B x C x D x E]:将五个特征的值相乘形成的特征组合
  • [A x A]:对单个特征的值求平方形成的特征组合

七、模型拟合

  1. 拟合
    • 定义:表示模型对样本点的拟合情况
  2. 欠拟合
    • 定义:模型在训练集上表现很差,在测试集表现也很差
    • 原因:模型过于简单
  3. 过拟合
    • 定义:模型在训练集上表现很好,在测试集表现很差
    • 原因:模型过于复杂,数据不纯,训练数据太少
  4. 泛化
    • 定义:模型在新数据集上的表现好坏的能力
  5. 奥卡姆剃刀原则
    • 给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

微语录:在一切破旧褪色中,请你永远闪烁。


网站公告

今日签到

点亮在社区的每一天
去签到