机器学习概述

发布于:2025-08-29 ⋅ 阅读:(23) ⋅ 点赞:(0)

也是结束数据分析,来到了机器学习的阶段了,第一张概述对这个阶段的所有内容做个简单了解

人工智能概述

什么是人工智能?

Artificial Intelligence(AI)

是一个研究领域,像人一样、机器智能的综合与分析

研究目标:使用计算机来模拟或者代替人类

机器学习

Machine Learning(ML)

从数据中获取规律;来了一个新数据,产生一个新预测;

这个规律就是模型,可有理解成y = kx+b

深度学习

Deep Learning(DL)

深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物

三者间的关系

机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法

学习方式

基于规则的学习

程序员根据经验利用手工的if-else方式进行预测

有很多问题无法明确的写下规则,此时我们无法使用规则学习的方式来解决这一类问题,比如:图像和语音识别和自然语言处理

于是引出了:

基于模型的学习

从数据中自动学出规律

举个例子:

1 利用线性关系来模拟面积和房价之间的关系

      让直线尽可能多的经过这些点,不能经过的点分布直线两侧

2 机器学习模型

     直线记成y = ax + b 就是模型,其中 a、b 就是我们要训练的模型参数

机器学习的应用领域和发展史

应用领域

计算机视觉CV:对人看到的东西进行理解

自然语言处理:对人交流的东西进行理解

数据挖掘和数据分析:也属于人工智能的范畴

发展史

1956年人工智能元年

2012年计算机视觉深度神经网络方法研究兴起

2017年自然语言处理应用大幕拉开

2022chatGPT的出现,引起AIGC的发展

人工智能发展三要素

数据算法,算力
CPU:主要适合I\O密集型的任务
GPU:主要适合计算密集型任务
TPU:专门针对大型网络训练而设计的一款处理器

机器学习常用术语

样本、特征、标签

样本(sample) :一行数据就是一个样本;多个样本组成数据集;有时一条样本被叫成一条记录

特征(feature) 一列数据一个特征,有时也被称为属性

标签/目标(label/target) 模型要预测的那一列数据。本场景是就业薪资

就业薪资 与 培训学科、作业考试、学历、工作经验、工作地点 5个特征有关系

特征如何理解(重点)特征是从数据中抽取出来的,对结果预测有用的信息   eg:房价预测、车图片识别

数据集划分

数据集可划分两部分:训练集、测试集   比例:8 : 27 : 3(一般都是这个比例)

训练集(training set) :用来训练模型(model的数据集

测试集(testing set):用来测试模型的数据集

机器学习的算法分类

有监督学习

定义:输入数据是由输入特征值和目标值所组成,即输入的训练数据有标签的
数据集:需要标注数据的标签/目标值
有监督分类问题&回归问题
分类问题
目标值(标签值)是不连续的
分类种类:二分类、多分类

回归问题
目标值(标签值)是连续的

无监督学习

定义:输入数据没有被标记,即样本数据类别未知,没有标签

           根据样本间的相似性,对样本集聚类,以发现事物内部结构及相互关系。

特点:1 训练数据无标签

           2 根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系

半监督学习

工作原理:

1 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型

2 再利用该模型去套用未标记的数据

3 通过询问领域专家分类结果与模型分类结果做对比,从而对模型做进一步改善和提高

半监督学习方式可大幅降低标记成本

强化学习

1 强化学习(Reinforcement Learning:机器学习的一个重要分支

2 应用场景:里程碑AlphaGo围棋、各类游戏、对抗比赛、无人驾驶场景

3 基本原理:通过构建四个要素:agent环境状态,行动,奖励,

  agent根据环境状态进行行动获得最多的累计奖励。

举个例子:

•无人驾驶汽车通过摄像头、雷达、激光测距仪、传感器等对环境进行观测,获取到丰富的环境信息,然后通过深度强化学习模型中的CNN、RNN等对环境信息进行处理、抽象和转化,在结合强化学习算法框架预测出最应该执行的动作(是加速、减速、转向等),来实现自动驾驶
•当然,无人驾驶汽车每次执行的动作,都会让它到目的地的路程更短,即每次行动都会有相应奖励。

总结

机器学习建模流程

1 获取数据

获取经验数据

图像数据

文本数据

.......

2 数据基本处理

数据缺失值处理

异常值处理

3 特征工程

特征提取

特征预处理

特征降维

......

4 机器学习(模型训练)

线性回归

逻辑回归

决策树

GBDT

5 模型评估

回归评测指标

分类评测指标

聚类评测指标

特征工程概念入门

特征的定义 Feature

特征是指事物或对象所具有的独特属性或标志,用于描述、区分或识别该事物。在数据分析、机器学习、统计学等领域,特征通常指数据集中的变量或维度,用于构建模型或进行分析

特征工程

利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已

特征提取

从原始数据中提取与任务相关的特征

特征预处理

特征对模型产生影响量纲问题,有些特征对模型影响大、有些影响小

特征降维

将原始数据的维度降低,叫做特征降维

特征选择

原始数据特征很多,但是对模型训练相关是其中一个特征集合子集

特征组合

多个的特征合并成一个特征。一般利用乘法或加法来完成

模型拟合问题

拟合指通过调整模型参数,使模型输出尽可能接近真实数据的过程。在机器学习中,模型通过训练数据学习规律,目标是泛化到未知数据。

欠拟合(Underfitting)

模型过于简单,无法捕捉数据中的基本模式。表现包括训练集和测试集误差均较高。常见原因:

  • 模型复杂度不足(如线性模型拟合非线性数据)
  • 特征不足或未充分训练

解决方法:
增加模型复杂度(如更高阶多项式、更深神经网络)
引入更多有效特征或延长训练时间

过拟合(Overfitting)

模型过度依赖训练数据细节(如噪声),导致泛化能力差。表现包括训练误差低但测试误差高。常见原因:

  • 模型复杂度过高
  • 训练数据量不足或噪声过多

解决方法:
使用正则化(L1/L2正则化)
增加数据量或数据增强
采用早停(Early Stopping)、Dropout(神经网络)
交叉验证选择最佳模型

泛化 Generalization :模型在新数据集(非训练数据)上的表现好坏的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

机器学习的开发环境

基于Pythonscikit-learn

1.简单高效的数据挖掘和数据分析工具
2.可供大家使用,可在各种环境中重复使用
3.建立在NumPySciPymatplotlib
4.开源,可商业使用-获取BSD许可证


网站公告

今日签到

点亮在社区的每一天
去签到