吴恩达机器学习合集

发布于:2025-09-07 ⋅ 阅读:(19) ⋅ 点赞:(0)

数据集
链接: https://pan.baidu.com/s/1Qi8KoBILgpLzdZ4f7X9d_g?pwd=12gr 提取码: 12gr

学习来源:机器学习之旅:从线性回归到深度学习-CSDN博客

目录

吴恩达机器学习作业一:线性回归预测

吴恩达机器学习作业二:线性可分逻辑回归

吴恩达机器学习作业三 线性不可分逻辑回归

吴恩达机器学习作业四:逻辑回归手写多分类问题

吴恩达机器学习作业五:神经网络正向传播

吴恩达机器学习作业六:反向传播

吴恩达机器学习作业七:方差与偏差

吴恩达机器学习作业八:SVM支持向量机

吴恩达机器学习作业九:kmeans聚类

吴恩达机器学习作业十 PCA主成分分析

吴恩达机器学习作业十一:异常检测

吴恩达机器学习作业十二:协同过滤(电影推荐系统)

吴恩达机器学习补充:决策树和随机森林

介绍

这里我的关于吴恩达机器学习作业代码实现的博客,相对于我学习的那些博客(在上面写了,几乎全部免费,非常感谢大佬),在案例介绍上稍显简略,另外就是可能对于几个额外的案例实现略去了,相对而言,我在部分理论解释和推导方向稍微详细,主要是在学习时就对这方面比较关注,再就是补充了一篇关于决策树的博客。欢迎大家批评指正。

值得一提的是,我想强调一下机器学习的可推导性和严密逻辑性,换句话说,只要你有不明白的地方,比如协方差的作用是什么,反向传播的推导,你完全可以用ai来查它的数学原理,也就是你可以从数学角度来理解这些算法的原理,这在深度学习的算法中就不一定能做到了。这是我在学习时感受最深的点。

下面我再列一下各个作业的应用场景

应用场景

线性回归预测

  • 经济领域:用于预测房价,根据房屋的面积、房间数量、地理位置等特征预测其价格;预测股票价格走势,通过公司的财务指标、行业趋势等因素进行股价预估 。
  • 工业生产:预测产品的产量,依据原材料投入量、设备运行时间、员工数量等因素来估算最终的产量;预测生产过程中的能耗,结合生产规模、设备参数等特征进行能耗预测。
  • 医疗领域:预测患者的医疗费用,根据患者的疾病类型、治疗周期、用药情况等因素进行费用预估。

线性可分逻辑回归

  • 垃圾邮件分类:根据邮件的文本内容(如关键词、句子结构等)、发件人信息等特征,判断邮件是否为垃圾邮件。
  • 客户流失预测:依据客户的购买频率、消费金额、在网时长等特征,预测客户是否会流失。
  • 疾病诊断辅助:根据患者的症状(如体温、咳嗽程度、白细胞数量等)判断患者是否患有某种疾病(前提是特征和疾病之间存在线性可分关系)。

线性不可分逻辑回归

  • 手写数字识别:对 0 - 9 这十个手写数字进行分类,手写数字的特征复杂,不是线性可分的,逻辑回归可通过添加多项式特征等方式进行分类。
  • 图像内容分类:判断图像中是否包含某种物体,例如通过图像的颜色、纹理、形状等复杂特征,判断图像中是否有汽车。
  • 情感分析:分析文本内容所表达的情感是积极、消极还是中性,文本的语义特征具有非线性,线性不可分逻辑回归可处理此类问题。

逻辑回归手写多分类问题

  • 手写字符识别:不仅是数字,还包括字母、汉字等手写字符的分类,在手写文档电子化等场景中有应用。
  • 手势识别:对不同的手势动作进行分类,例如在智能交互设备中,根据手势特征判断用户做出的不同手势指令。

神经网络正向传播

  • 图像识别:在大规模图像数据集上,识别图像中的物体类别、场景等,例如 ImageNet 图像分类任务。
  • 语音识别:将语音信号转换为文本,通过正向传播处理语音特征向量,输出对应的文字结果。
  • 自然语言处理中的文本分类:对新闻文章进行分类(如政治、体育、娱乐等类别) ,根据文本的词向量等特征,通过神经网络正向传播进行类别预测。

反向传播

反向传播是神经网络训练的关键算法,与正向传播配合,用于优化神经网络的参数。应用场景和神经网络一致,涵盖图像、语音、自然语言处理等多个领域,旨在让神经网络通过不断学习数据特征,提升模型预测或分类的准确性。

方差与偏差

方差与偏差分析并非具体算法,而是评估模型性能的概念,应用于所有机器学习模型:

  • 模型选择与调优:在选择不同复杂度的模型时,通过分析方差和偏差来判断模型是否过拟合或欠拟合。例如在决策树模型中,调整树的深度,通过方差 - 偏差权衡来确定最优深度。
  • 模型集成:在集成学习中,通过组合多个模型降低方差或偏差。如随机森林通过构建多个决策树来降低方差,提升模型的稳定性和泛化能力。

SVM 支持向量机

  • 文本分类:在文本分类任务中表现出色,如对新闻文本、学术论文进行分类,相比逻辑回归,在小样本数据集上能有较好的分类效果。
  • 生物信息学:用于基因序列分类,根据基因序列的特征判断其所属的类别;蛋白质结构预测,通过蛋白质的相关特征预测其结构类型。
  • 图像分类:在图像数据量不大的情况下,可用于图像的二分类或多分类,例如区分手写数字图像。

kmeans 聚类

  • 客户分群:根据客户的消费行为、购买偏好等特征,将客户分成不同的群体,以便企业针对不同群体制定营销策略。
  • 文档聚类:对大量文档进行聚类,将主题相似的文档归为一类,方便信息检索和管理。
  • 图像分割:将图像中相似的像素点聚类,实现图像的分割,例如从一张自然风景图中分割出天空、树木、草地等不同区域。

PCA 主成分分析

  • 数据降维:在高维数据处理中,如基因表达数据(成千上万个基因表达量构成高维数据),通过 PCA 降维,减少数据维度,降低计算复杂度,同时保留主要信息。
  • 图像压缩:将图像的像素矩阵进行 PCA 变换,提取主要成分,去除冗余信息,实现图像的压缩存储,同时保证图像的主要视觉特征不丢失。
  • 可视化:将高维数据映射到二维或三维空间,便于数据的可视化展示,例如在人脸识别数据中,通过 PCA 降维后在二维平面上展示不同人脸数据的分布情况。

异常检测

  • 信用卡欺诈检测:通过分析用户的交易行为(交易金额、时间、地点等特征),检测异常的交易行为,判断是否存在信用卡欺诈。
  • 工业设备故障检测:监测工业设备的运行参数(如温度、压力、振动频率等),发现设备运行中的异常状态,提前预防设备故障。
  • 网络安全:检测网络流量中的异常数据,识别可能的网络攻击行为,如 DDoS 攻击、恶意软件传播等。

协同过滤(电影推荐系统)

  • 电子商务推荐:根据用户的购买历史、浏览记录、收藏偏好等,为用户推荐可能感兴趣的商品,如淘宝、京东等电商平台的商品推荐。
  • 音乐推荐:依据用户的听歌历史、收藏歌单、歌手偏好等,为用户推荐新的音乐作品,像网易云音乐、QQ 音乐的个性化推荐。
  • 新闻推荐:根据用户的浏览新闻类型、阅读时长等,推荐符合用户兴趣的新闻内容,例如今日头条的新闻推送。

决策树和随机森林

  • 决策树
    • 医疗诊断:根据患者的症状、检查结果等特征构建决策树,辅助医生进行疾病诊断。
    • 金融风险评估:依据客户的信用记录、收入水平、负债情况等因素,判断客户的信用风险等级。
  • 随机森林
    • 空气质量预测:结合气象数据(温度、湿度、风速等)、工业排放数据等,预测空气质量等级。
    • 农作物产量预测:综合考虑土壤质量、降雨量、施肥量等多种因素,预测农作物的产量。

网站公告

今日签到

点亮在社区的每一天
去签到