数据集:
链接: https://pan.baidu.com/s/1Qi8KoBILgpLzdZ4f7X9d_g?pwd=12gr 提取码: 12gr
目录
介绍
这里我的关于吴恩达机器学习作业代码实现的博客,相对于我学习的那些博客(在上面写了,几乎全部免费,非常感谢大佬),在案例介绍上稍显简略,另外就是可能对于几个额外的案例实现略去了,相对而言,我在部分理论解释和推导方向稍微详细,主要是在学习时就对这方面比较关注,再就是补充了一篇关于决策树的博客。欢迎大家批评指正。
值得一提的是,我想强调一下机器学习的可推导性和严密逻辑性,换句话说,只要你有不明白的地方,比如协方差的作用是什么,反向传播的推导,你完全可以用ai来查它的数学原理,也就是你可以从数学角度来理解这些算法的原理,这在深度学习的算法中就不一定能做到了。这是我在学习时感受最深的点。
下面我再列一下各个作业的应用场景
应用场景
线性回归预测
- 经济领域:用于预测房价,根据房屋的面积、房间数量、地理位置等特征预测其价格;预测股票价格走势,通过公司的财务指标、行业趋势等因素进行股价预估 。
- 工业生产:预测产品的产量,依据原材料投入量、设备运行时间、员工数量等因素来估算最终的产量;预测生产过程中的能耗,结合生产规模、设备参数等特征进行能耗预测。
- 医疗领域:预测患者的医疗费用,根据患者的疾病类型、治疗周期、用药情况等因素进行费用预估。
线性可分逻辑回归
- 垃圾邮件分类:根据邮件的文本内容(如关键词、句子结构等)、发件人信息等特征,判断邮件是否为垃圾邮件。
- 客户流失预测:依据客户的购买频率、消费金额、在网时长等特征,预测客户是否会流失。
- 疾病诊断辅助:根据患者的症状(如体温、咳嗽程度、白细胞数量等)判断患者是否患有某种疾病(前提是特征和疾病之间存在线性可分关系)。
线性不可分逻辑回归
- 手写数字识别:对 0 - 9 这十个手写数字进行分类,手写数字的特征复杂,不是线性可分的,逻辑回归可通过添加多项式特征等方式进行分类。
- 图像内容分类:判断图像中是否包含某种物体,例如通过图像的颜色、纹理、形状等复杂特征,判断图像中是否有汽车。
- 情感分析:分析文本内容所表达的情感是积极、消极还是中性,文本的语义特征具有非线性,线性不可分逻辑回归可处理此类问题。
逻辑回归手写多分类问题
- 手写字符识别:不仅是数字,还包括字母、汉字等手写字符的分类,在手写文档电子化等场景中有应用。
- 手势识别:对不同的手势动作进行分类,例如在智能交互设备中,根据手势特征判断用户做出的不同手势指令。
神经网络正向传播
- 图像识别:在大规模图像数据集上,识别图像中的物体类别、场景等,例如 ImageNet 图像分类任务。
- 语音识别:将语音信号转换为文本,通过正向传播处理语音特征向量,输出对应的文字结果。
- 自然语言处理中的文本分类:对新闻文章进行分类(如政治、体育、娱乐等类别) ,根据文本的词向量等特征,通过神经网络正向传播进行类别预测。
反向传播
反向传播是神经网络训练的关键算法,与正向传播配合,用于优化神经网络的参数。应用场景和神经网络一致,涵盖图像、语音、自然语言处理等多个领域,旨在让神经网络通过不断学习数据特征,提升模型预测或分类的准确性。
方差与偏差
方差与偏差分析并非具体算法,而是评估模型性能的概念,应用于所有机器学习模型:
- 模型选择与调优:在选择不同复杂度的模型时,通过分析方差和偏差来判断模型是否过拟合或欠拟合。例如在决策树模型中,调整树的深度,通过方差 - 偏差权衡来确定最优深度。
- 模型集成:在集成学习中,通过组合多个模型降低方差或偏差。如随机森林通过构建多个决策树来降低方差,提升模型的稳定性和泛化能力。
SVM 支持向量机
- 文本分类:在文本分类任务中表现出色,如对新闻文本、学术论文进行分类,相比逻辑回归,在小样本数据集上能有较好的分类效果。
- 生物信息学:用于基因序列分类,根据基因序列的特征判断其所属的类别;蛋白质结构预测,通过蛋白质的相关特征预测其结构类型。
- 图像分类:在图像数据量不大的情况下,可用于图像的二分类或多分类,例如区分手写数字图像。
kmeans 聚类
- 客户分群:根据客户的消费行为、购买偏好等特征,将客户分成不同的群体,以便企业针对不同群体制定营销策略。
- 文档聚类:对大量文档进行聚类,将主题相似的文档归为一类,方便信息检索和管理。
- 图像分割:将图像中相似的像素点聚类,实现图像的分割,例如从一张自然风景图中分割出天空、树木、草地等不同区域。
PCA 主成分分析
- 数据降维:在高维数据处理中,如基因表达数据(成千上万个基因表达量构成高维数据),通过 PCA 降维,减少数据维度,降低计算复杂度,同时保留主要信息。
- 图像压缩:将图像的像素矩阵进行 PCA 变换,提取主要成分,去除冗余信息,实现图像的压缩存储,同时保证图像的主要视觉特征不丢失。
- 可视化:将高维数据映射到二维或三维空间,便于数据的可视化展示,例如在人脸识别数据中,通过 PCA 降维后在二维平面上展示不同人脸数据的分布情况。
异常检测
- 信用卡欺诈检测:通过分析用户的交易行为(交易金额、时间、地点等特征),检测异常的交易行为,判断是否存在信用卡欺诈。
- 工业设备故障检测:监测工业设备的运行参数(如温度、压力、振动频率等),发现设备运行中的异常状态,提前预防设备故障。
- 网络安全:检测网络流量中的异常数据,识别可能的网络攻击行为,如 DDoS 攻击、恶意软件传播等。
协同过滤(电影推荐系统)
- 电子商务推荐:根据用户的购买历史、浏览记录、收藏偏好等,为用户推荐可能感兴趣的商品,如淘宝、京东等电商平台的商品推荐。
- 音乐推荐:依据用户的听歌历史、收藏歌单、歌手偏好等,为用户推荐新的音乐作品,像网易云音乐、QQ 音乐的个性化推荐。
- 新闻推荐:根据用户的浏览新闻类型、阅读时长等,推荐符合用户兴趣的新闻内容,例如今日头条的新闻推送。
决策树和随机森林
- 决策树:
- 医疗诊断:根据患者的症状、检查结果等特征构建决策树,辅助医生进行疾病诊断。
- 金融风险评估:依据客户的信用记录、收入水平、负债情况等因素,判断客户的信用风险等级。
- 随机森林:
- 空气质量预测:结合气象数据(温度、湿度、风速等)、工业排放数据等,预测空气质量等级。
- 农作物产量预测:综合考虑土壤质量、降雨量、施肥量等多种因素,预测农作物的产量。