机器学习-第二天

发布于:2022-11-09 ⋅ 阅读:(15) ⋅ 点赞:(0) ⋅ 评论:(0)

一、机器学习框架

在这里插入图片描述

  • 一、数据收集
  • 二、数据模型
    • 问题定义
      • 首先要思考的就是我们到底尝试解决什么问题?
      • 其次就是考虑这是一个监督问题还是一个非监督问题呢?
      • 是分类还是回归问题呢?
    • 数据
      • 我们现有的和需要使用的数据是什么类型的呢?
      • 是结构化数据? 例如是CSV还是EXCEL?
      • 是非结构话数据?例如是图像还是视频呢?
    • 评估和结果预期
      • 要实现什么样的效果才说明我们成功达到了我们的目标呢?
    • 特征
      • 我们是否了解了数据的特征呢?
    • 模型选择与创建
      • 基于我们的问题和数据,我们应该选择什么样的模型和算法呢?
    • 实验
      • 测试一下我们的模型是否成功,根据结果考虑是否重复之前的过程呢?
  • 三、模型部署

二、什么时候不应该使用机器学习

根据之前学习的概念,我们已经基本可以确认:简单的、需要手工编码的基础系统是不需要使用机器学习的!

三、机器学习主要分类

  • 监督学习
    • 有数据标签
    • 分类
    • 回归
  • 非监督学习
    • 没有预先划定的数据标签
  • 迁移学习
    • 利用一种机器学习模型在另一种机器学习中使用
  • 强化学习
    • 提供一种奖励机制,做的好的奖励,做的不好的惩罚

四、数据科学工作流程

  • 一、准备静态数据
  • 二、使用jupyter notebook
  • 三、pandas
  • 四、matplotlib
  • 五、sklearn

五、评估

  • 准确度
  • 精确率
  • 召回率

六、模型选择和训练

  • 一、选择一个模型
  • 二、训练模型
  • 三、比较模型

七、数据划分

  • 训练集 70%~~80%
  • 验证集 10%~~15%
  • 测试集 10%~~15%

八、关于欠拟合与过拟合

  • 欠拟合
    • 简单来说就是模型做的不够好
  • 过拟合
    • 模型在当前数据下表现形式太好了,打个比方的话就是期末考试之前已经把考试题做了,考试的分数自然很高
  • 一些解决方案:
    • 欠拟合
      • 尝试更高级的模型
      • 修改模型超参数
      • 减少特征数量
      • 训练更长时间
    • 过拟合
      • 收集更多数据
      • 使用低级模型

九、总结

对机器学习的基本框架和概念有一个大概的了解,下面就开始实践。

纸上学来终觉浅,绝知此事要躬行 — —陆游