一、机器学习框架
- 一、数据收集
- 二、数据模型
- 问题定义
- 首先要思考的就是我们到底尝试解决什么问题?
- 其次就是考虑这是一个监督问题还是一个非监督问题呢?
- 是分类还是回归问题呢?
- 数据
- 我们现有的和需要使用的数据是什么类型的呢?
- 是结构化数据? 例如是CSV还是EXCEL?
- 是非结构话数据?例如是图像还是视频呢?
- 评估和结果预期
- 要实现什么样的效果才说明我们成功达到了我们的目标呢?
- 特征
- 我们是否了解了数据的特征呢?
- 模型选择与创建
- 基于我们的问题和数据,我们应该选择什么样的模型和算法呢?
- 实验
- 测试一下我们的模型是否成功,根据结果考虑是否重复之前的过程呢?
- 问题定义
- 三、模型部署
二、什么时候不应该使用机器学习
根据之前学习的概念,我们已经基本可以确认:简单的、需要手工编码的基础系统是不需要使用机器学习的!
三、机器学习主要分类
- 监督学习
- 有数据标签
- 分类
- 回归
- 非监督学习
- 没有预先划定的数据标签
- 迁移学习
- 利用一种机器学习模型在另一种机器学习中使用
- 强化学习
- 提供一种奖励机制,做的好的奖励,做的不好的惩罚
四、数据科学工作流程
- 一、准备静态数据
- 二、使用jupyter notebook
- 三、pandas
- 四、matplotlib
- 五、sklearn
五、评估
- 准确度
- 精确率
- 召回率
六、模型选择和训练
- 一、选择一个模型
- 二、训练模型
- 三、比较模型
七、数据划分
- 训练集 70%~~80%
- 验证集 10%~~15%
- 测试集 10%~~15%
八、关于欠拟合与过拟合
- 欠拟合
- 简单来说就是模型做的不够好
- 过拟合
- 模型在当前数据下表现形式太好了,打个比方的话就是期末考试之前已经把考试题做了,考试的分数自然很高
- 一些解决方案:
- 欠拟合
- 尝试更高级的模型
- 修改模型超参数
- 减少特征数量
- 训练更长时间
- 过拟合
- 收集更多数据
- 使用低级模型
- 欠拟合
九、总结
对机器学习的基本框架和概念有一个大概的了解,下面就开始实践。
纸上学来终觉浅,绝知此事要躬行 — —陆游