作者:禅与计算机程序设计艺术
1.简介
从事机器学习(ML)领域的人都知道,一个好的模型可以极大的提升我们的工作效率,但如何构建一个高质量的ML系统却是一个很头疼的问题。如何快速构建一个可用于实际生产环境的系统?我们应该怎么做才能更好地解决这个问题呢?
在这篇文章中,我将带你领略到使用Python构建ML系统的诸多知识点。通过本文,你可以掌握到以下知识点:
- 数据处理的基本方法
- 可复用代码实现机器学习算法
- 模型评估指标的设计及评估方法
- 深入理解机器学习系统的错误类型
- 超参数调优和自动化机器学习系统搭建
- 使用TensorFlow或PyTorch构建深度学习模型
- 总结
2.数据预处理
2.1 数据收集与整理
首先,我们需要获得机器学习模型所需的数据集。数据集可以来自多个源头,比如网页爬虫、数据库查询结果、日志文件等。通常情况下,数据集应当满足如下要求:
- 有足够的规模,能够代表整个数据分布,比如50万条或者100万条记录;
- 每条记录应该足够描述性,且不含有噪声和异常值;
- 每个特征应该有清晰的定义,能够区分不同种类的数据。
接着,我们需要对数据进行清洗、处理和转换,使之满足机器学习算法所需要的输入格式。一般来说,数据的预处理包括如下几个步骤:
- 数据缺失值的处理
- 数据规范化(归一化)
- 数据变换(如对称性、拉普拉斯平滑)
- 将离散变量转为连续变量