Scikit-learn - 机器学习库初步了解-EW帮帮网

1. 主要算法分类

目前主流的算法可分为以下几类：

1.1 监督学习 (Supervised Learning)

向计算机提供已标记的数据（即数据与对应的正确答案/标签），让其学习数据与标签之间的映射关系。

常见的神经网络就属于监督学习的一种方式。

1.2 非监督学习 (Unsupervised Learning)

仅向计算机提供数据，不提供任何标签或答案，由计算机自行探索数据内部的结构、关联和规律。

计算机通过观察数据间的特性，自动进行聚类或降维，总结出隐藏的模式。

1.3 半监督学习 (Semi-Supervised Learning)

结合了监督学习与非监督学习的特点，利用少量有标签的样本和大量无标签的样本共同进行训练和分类。

1.4 强化学习 (Reinforcement Learning)

通过“试错”来学习。将计算机（Agent）置于一个陌生的环境中，通过与环境交互获得奖励或惩罚，从而学习到能最大化奖励的行为策略。

Agent自行尝试各种行为，根据行为结果（奖励或惩罚）不断调整和优化策略，最终学会在特定环境下完成任务的方法。

AlphaGo便是应用强化学习的著名案例。

1.5 遗传算法 (Genetic Algorithm)

模拟生物进化论中“适者生存，优胜劣汰”原则的一种优化算法。

过程：

初始化：创建一组初始解决方案（“种群”）。
评估：根据预设标准评估每个方案的优劣。
选择：淘汰表现差的方案，选择表现好的方案（“强者”）进行“繁殖”和“变异”。
迭代：重复评估和选择过程，不断进化出更优的解决方案或模型。

2. 选择合适的机器学习模型

在开始选择模型前，需要对数据进行初步评估：

数据量检查：样本数量 (Sample Size) 是首要的判断依据。

样本数量 < 50：当前数据量过小，训练出的模型可能泛化能力差、准确度低。应优先考虑收集更多的数据。
样本数量 > 50：可以进入下一步，根据任务类型选择合适的算法分支。

可以将机器学习问题大致归为以下四类：

2.1 分类 (Classification)

预测一个数据样本属于哪个预定义的类别。

学习类型：监督学习

2.2 回归 (Regression)

预测一个连续的数值，而非类别。

学习类型：监督学习

2.3 聚类 (Clustering)

在没有预先定义类别的情况下，将数据根据其内在的相似性自动分组（分簇）。

学习类型：非监督学习

2.4 降维 (Dimensionality Reduction)

减少数据中的特征（属性）数量，同时尽可能保留最重要的信息。

学习类型：通常为非监督学习

降维并非简单地从原有特征中挑选一部分，而是通过数学变换，将高维特征（例如，描述房价的20个因素）映射为低维的新特征（例如2个综合因素）。新的特征是原有所有特征的综合体现，旨在抓住数据的主要矛盾。

算法的通用性

许多机器学习算法非常灵活，稍作调整即可用于解决不同类型的问题。例如，随机梯度下降 (SGD) 是一种基础的优化算法，它既可以用于分类任务 (SGDClassifier)，也可以用于回归任务 (SGDRegressor)，只是在处理和优化目标上有所不同。

特征 (Features) vs. 标签 (Labels)：

特征：描述数据点的属性或输入变量。在房价预测案例中，“房屋面积”、“地段”、“建造年份”等都是特征。

标签：我们希望预测的目标变量，即正确答案。在房价预测案例中，“房屋价格”就是标签。监督学习需要同时包含特征和标签的数据，而非监督学习通常只使用特征。

3. 使用 KNN 算法对鸢尾花 (Iris) 进行分类

Scikit-learn 将绝大多数机器学习模型的应用流程进行了统一，掌握此模式即可触类旁通，高效使用库中的各种算法。其核心步骤可概括为：

导入：从 sklearn 库中导入所需的模型

实例化：创建模型对象，可在此步骤设置模型的超参数

训练 (Fit) ：使用 .fit(X_train, y_train) 方法，将训练集数据喂给模型进行学习

预测：使用 .predict(X_test) 方法，让训练好的模型对新的测试数据进行预测

3.1 导入库与数据

import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split # 用于划分数据集
from sklearn.neighbors import KNeighborsClassifier # KNN模型

numpy: 用于高效的数值计算。

sklearn.datasets: 包含多种可供练习的经典数据集，如此处用到的 load_iris。

sklearn.model_selection.train_test_split: 将数据集划分为训练集和测试集的标准工具。

sklearn.neighbors.KNeighborsClassifier: 本次案例中使用的分类算法。

3.2 数据加载

首先，加载 sklearn 内置的鸢尾花数据集，并分离特征和标签。

# 1.载入数据集
iris = datasets.load_iris()

# 2.分离数据集
iris_X = iris.data  # 特征
iris_y = iris.target    # 标签

特征 (iris_X) ：描述样本属性的数据。每个样本包含 4 个特征。

说明：鸢尾花数据集的 4 个特征分别是：花萼长度 (Sepal Length)、花萼宽度 (Sepal Width)、花瓣长度 (Petal Length)、花瓣宽度 (Petal Width)。

示例数据：

[[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]]

标签 (iris_y) ：每个样本所属的类别。

说明：该数据集包含 3 个类别，分别用 0, 1, 2 表示。

数据概览：[0, 0, ..., 1, 1, ..., 2, 2, ...]

3.3 数据集划分

为了客观评估模型的性能，需将数据集划分为训练集（用于学习）和测试集（用于评估）。

# 3.划分数据集
X_train, X_test, y_train, y_test = train_test_split(iris_X, iris_y, test_size=0.3)

train_test_split(...)：是 scikit-learn 库中的一个函数，用来把数据集分成两部分：训练集和测试集

test_size=0.3：这个参数表示测试集占总数据的 30%，训练集占 70%

返回值：

X_train, X_test, y_train, y_test

函数会返回 4 个结果：

名称	含义
`X_train`	训练集的特征数据
`X_test`	测试集的特征数据
`y_train`	训练集的标签数据
`y_test`	测试集的标签数据

train_test_split的作用：

防止数据泄露：模型在训练时不应接触到测试数据，否则评估结果会过于乐观，无法反映其在未知数据上的真实表现。

自动打乱数据：该函数默认会随机打乱数据顺序再进行划分。这对于机器学习至关重要，可以防止模型因数据原始排列顺序（如按类别排序）而产生偏见。

3.4 模型训练与预测

遵循 Scikit-learn 的标准流程进行模型训练和预测。

# 4.实例化模型
knn = KNeighborsClassifier()

# 5.训练模型
knn.fit(X_train, y_train)   # 训练完成后，所有学习到的参数都保存在模型对象自身的属性中，

# 6.对测试集进行预测
predictions = knn.predict(X_test)

3.5 结果评估

将模型的预测结果与真实的测试集标签进行对比，以评估模型效果。

print("预测结果:\n",predictions,"\n")
print("真实结果:\n",y_test,)

输出示例:

预测结果:
[1 2 0 1 2 1 0 0 2 0 1 1 2 1 1 0 2 1 1 0 2 2 2 0 0 2 0 0 1 0 2 1 0 1 0 0 1
 2 2 0 2 2 2 2 2] 

真实结果: 
[1 2 0 1 2 1 0 0 2 0 1 1 2 1 1 0 2 1 1 0 2 2 2 0 0 2 0 0 1 0 2 1 0 1 0 0 1
 1 2 0 2 2 2 2 2]

结论：可以看到预测结果与真实结果高度相似，但可能存在个别误差。这是机器学习的本质——模型致力于逼近真实规律，而非实现 100% 的精确复刻。如同人类会犯错一样，模型也存在误差范围。

4. 数据集的加载与生成

sklearn.datasets 为机器学习实践提供了丰富的数据来源，主要包含两大类数据：

真实世界数据集：

经过清洗和格式化的、源于真实世界问题的经典数据集。通常以 load_* 的形式调用，例如 load_iris()、load_boston()。

合成数据集：

可根据用户指定的参数（如样本数、特征数、噪声水平等）动态生成具有特定统计特性的数据。通常以 make_* 的形式调用，例如 make_regression()、make_classification()。

4.1 加载真实数据集并进行线性回归

使用加州房价数据集(fetch_california_housing()) 来加载数据并应用线性回归模型。

from sklearn import datasets
from sklearn.linear_model import LinearRegression   # 线性回归模型
from sklearn.model_selection import train_test_split

# 1.加载数据集
loaded_data = datasets.fetch_california_housing()

# 2.分离数据集
data_X = loaded_data.data   # 特征
data_y = loaded_data.target # 标签

# 3.划分数据集
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y,)

# 4.实例化模型
model = LinearRegression()

# 5.训练模型
model.fit(X_train, y_train)

# 6.对测试集进行预测
predictions = model.predict(X_test[:4, :])

print("预测房价:", predictions)
print("真实房价:", data_y[:4])

Scikit-learn 的标准化数据接口：
通过 load_* 加载的数据集对象，其特征和标签分别存储在 .data 和 .target 属性中，这种高度统一的模式简化了数据调用流程。

运行结果：

预测房价: [2.22492568 4.02422823 1.34033317 0.88996126]
真实房价: [4.526 3.585 3.521 3.413]

预测值与真实值存在差距
模型的预测结果与真实值不完全一致是正常的，这是机器学习的固有特性。原因包括：

模型简化：线性回归模型本身是一个简化的数学抽象，可能无法捕捉所有复杂现实因素。

数据质量：原始数据可能包含噪声或未包含所有关键特征。

缺少优化步骤：为了获得更高精度，通常需要：

数据预处理：例如对特征进行归一化。
模型调优：尝试不同的模型或调整当前模型的超参数。

4.2 生成合成回归数据并可视化

使用 make_regression 生成一组用于回归分析的数据，并用 matplotlib 将其可视化。

import matplotlib.pyplot as plt

# 1. 使用 make_regression 生成随机数据
#    n_samples: 样本数量
#    n_features: 特征数量
#    n_targets: 目标值数量
#    noise: 数据的噪声水平，值越大，数据点越离散
X, y = datasets.make_regression(n_samples=100, n_features=1, n_targets=1, noise=10)

# 2. 使用散点图进行可视化
plt.scatter(X, y)

# 3. 显示图像
plt.show()

make_regression 关键参数：

n_samples: 生成的样本点数量。
n_features: 每个样本点的特征维度。
noise: 施加到数据上的高斯噪声的标准差，用于模拟真实世界数据的不完美性。

执行上述代码会生成一张散点图。图中的数据点大致沿一条直线分布，但由于设置了 noise，点会在这条直线周围散布，为训练和测试回归模型提供了一个理想的、可控的数据环境。

5. 模型属性与方法

5.1 区分超参数和学习到的属性

超参数：在创建模型时由用户手动设置的参数，用于控制模型的学习过程，如LinearRegression(fit_intercept=True) 中的 fit_intercept，使用 model.get_params() 方法查看

学习到的属性：模型在调用 .fit() 方法、从数据中学习后所得到的内部参数，Scikit-learn 的所有学习属性都以一个下划线 _ 结尾，例如 coef_，在模型训练 (.fit()) 完成后，通过 model.attribute_ 查看

5.2 `LinearRegression`模型的核心属性与功能

from sklearn import datasets
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split 

# 1.加载数据集
loaded_data = datasets.fetch_california_housing()

# 2.分离数据集
data_X = loaded_data.data   # 特征
data_y = loaded_data.target # 标签

# 3.划分数据集
X_train, X_test, y_train, y_test = train_test_split(data_X, data_y,)

# 4.实例化模型
model = LinearRegression()

# 5.训练模型
model.fit(X_train, y_train)

print("模型系数 (coef_):", model.coef_)

print("模型截距 (intercept_):", model.intercept_)

print("模型参数 (get_params):", model.get_params())

score = model.score(X_test, y_test)
print(f"模型在测试集上的 R^2 得分: {score}")

5.2.1 查看学习到的属性

在线性回归的数学公式 y = w_1*x_1 + ... + w_n*x_n + b 中：

model.coef_ ：系数 (Coefficients)， 对应于公式中的权重 w，是一个数组，每个值代表对应特征的重要性或影响力。

model.intercept_ ：截距 (Intercept)， 对应于公式中的偏置项 b，是一个标量值，代表当所有特征值都为0时，预测值的基准。

5.2.2 查看模型的超参数

model.get_params() ：以字典形式返回创建模型时设置的所有超参数。如果你没有手动设置，则返回的是默认值。

输出示例：{'copy_X': True, 'fit_intercept': True, 'n_jobs': None, 'positive': False}

5.2.3 评估模型性能

model.score(X, y) ：对模型进行性能评估并返回一个分数。

score 方法的打分机制：

对于回归模型：返回的是 R² (R-squared, 决定系数)， 表示模型对数据变化的解释程度。值域通常在 0 到 1 之间。
对于分类模型：返回的是平均准确率， 即“预测正确的样本数 / 总样本数”。

好的，这是根据您提供的视频字幕和截图资料，为您生成的一份关于特征缩放（Feature Scaling）的学习笔记。

6. 特征缩放

特征缩放是将不同特征的数值范围调整到相似的尺度上。

当一个模型中的多个特征数值范围（量纲）差异巨大时（例如，房屋面积为 0-2000平方英尺，而房间数量为 1-5个），优化算法（如梯度下降）的收敛过程会变得低效。未缩放的特征会导致成本函数 J(θ) 的等高线图呈椭圆形，算法需要多次振荡才能找到最优解（最小值点）。

在进行特征缩放后，成本函数的等高线图会更接近圆形，使得梯度下降可以沿着更直接、更高效的路径收敛到最优点，从而加快模型训练速度并提升性能。

Scikit-Learn 的 preprocessing 模块提供了多种特征缩放工具，preprocessing.scale() 的作用是将数据进行标准化，即分别处理每一列特征，使其平均值为 0，标准差为 1。

代码示例：

from sklearn import preprocessing
import numpy as np

# 创建一个特征尺度差异很大的数组
# 第1列范围: -100 ~ 120
# 第2列范围: 2.7 ~ 20
# 第3列范围: -2 ~ 40
a = np.array([
    [10, 2.7, 3.6],
    [-100, 5, -2],
    [120, 20, 40]
], dtype=np.float64)

# 使用 scale 函数进行标准化
scaled_a = preprocessing.scale(a)

print("原始数据:\n", a)
print("\n标准化后的数据:\n", scaled_a)

输出结果：

原始数据:
 [[  10.    2.7   3.6]
 [-100.    5.   -2. ]
 [ 120.   20.   40. ]]

标准化后的数据:
 [[ 0.         -0.85170713 -0.55138018]
 [-1.22474487 -0.55187146 -0.852133  ]
 [ 1.22474487  1.40357859  1.40351318]]

可以看到，标准化后，每一列的数值都被缩放到一个相似的范围内。

说明：****StandardScaler 类与 scale 函数
在实际项目中，更推荐使用 sklearn.preprocessing.StandardScaler 类。scale 函数会一步到位地计算并转换整个数据集，但在划分训练集和测试集时，我们必须保证用训练集的参数（均值、标准差）来转换测试集，以防止数据泄露。StandardScaler 对象可以先在训练数据上 fit()，然后用同一个对象去 transform() 训练集和测试集，操作更规范、安全。

特征缩放对支持向量机（SVC）分类准确率的影响：

生成并可视化数据
使用 make_classification 生成一组具有较大尺度（scale=100）的样本数据。从散点图可以看出，数据本身是线性可分的，但其特征值分布在 -400 到 400 的广大区间内。
对比实验
使用相同的 SVC 模型，在“未缩放”和“已缩放”两种数据上分别进行训练和评估。
直接在原始数据上训练模型，其在测试集上的准确率仅为 48.8% 。这表明模型完全无法有效学习。
先使用 preprocessing.scale() 对数据进行标准化，再进行训练和测试，准确率大幅提升至 94.4% 。

from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification
from sklearn.svm import SVC
import matplotlib.pyplot as plt

# 1. 生成数据
X, y = make_classification(
    n_samples=300, 
    n_features=2, 
    n_redundant=0, 
    n_informative=2,
    random_state=22, 
    n_clusters_per_class=1, 
    scale=100
)

# 2. 对比实验
X_scaled = preprocessing.scale(X) # 对整个特征集进行标准化
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.3)

# 3. 训练并评估模型
clf = SVC()
clf.fit(X_train, y_train)
print("进行特征缩放后的准确率: ", clf.score(X_test, y_test))

其他缩放方法：归一化 (Min-Max Scaling)
除了标准化，另一种常见的缩放方法是归一化，它通过 sklearn.preprocessing.MinMaxScaler 实现。归一化将每个特征的数值线性地缩放到一个给定的区间，默认为 [0, 1]。其计算公式为：
X_scaled = (X - X_min) / (X_max - X_min)
当数据分布有明显的边界且不符合高斯分布时，归一化是一个不错的选择。

哪些算法需要特征缩放？

高度敏感的算法一般需要特征缩放， 任何基于距离计算的算法（如 K-NN、K-Means）、依赖梯度下降优化的算法（如线性回归、逻辑回归、神经网络）以及依赖特征方差的算法（如主成分分析 PCA）。支持向量机（SVM）对尺度也非常敏感。

基本不敏感则一般不需要： 树模型（如决策树、随机森林、梯度提升树）。因为树模型在选择分裂点时是基于单个特征的，不涉及特征间的距离或幅度比较，因此对尺度不敏感。

Scikit-learn - 机器学习库初步了解

目录

1. 主要算法分类

1.1 监督学习 (Supervised Learning)

1.2 非监督学习 (Unsupervised Learning)

1.3 半监督学习 (Semi-Supervised Learning)

1.4 强化学习 (Reinforcement Learning)

1.5 遗传算法 (Genetic Algorithm)

2. 选择合适的机器学习模型

2.1 分类 (Classification)

2.2 回归 (Regression)

2.3 聚类 (Clustering)

2.4 降维 (Dimensionality Reduction)

3. 使用 KNN 算法对鸢尾花 (Iris) 进行分类

3.1 导入库与数据

3.2 数据加载

3.3 数据集划分

3.4 模型训练与预测

3.5 结果评估

4. 数据集的加载与生成

4.1 加载真实数据集并进行线性回归

4.2 生成合成回归数据并可视化

5. 模型属性与方法

5.1 区分超参数和学习到的属性

5.2 `LinearRegression`模型的核心属性与功能

5.2.1 查看学习到的属性

5.2.2 查看模型的超参数

5.2.3 评估模型性能

6. 特征缩放

网站公告

今日签到

热门文章

最新发布

Scikit-learn - 机器学习库初步了解

目录

1. 主要算法分类

1.1 监督学习 (Supervised Learning)

1.2 非监督学习 (Unsupervised Learning)

1.3 半监督学习 (Semi-Supervised Learning)

1.4 强化学习 (Reinforcement Learning)

1.5 遗传算法 (Genetic Algorithm)

2. 选择合适的机器学习模型

2.1 分类 (Classification)

2.2 回归 (Regression)

2.3 聚类 (Clustering)

2.4 降维 (Dimensionality Reduction)

3. 使用 KNN 算法对鸢尾花 (Iris) 进行分类

3.1 导入库与数据

3.2 数据加载

3.3 数据集划分

3.4 模型训练与预测

3.5 结果评估

4. 数据集的加载与生成

4.1 加载真实数据集并进行线性回归

4.2 生成合成回归数据并可视化

5. 模型属性与方法

5.1 区分超参数和学习到的属性

5.2 LinearRegression模型的核心属性与功能

5.2.1 查看学习到的属性

5.2.2 查看模型的超参数

5.2.3 评估模型性能

6. 特征缩放

网站公告

今日签到

热门文章

最新发布

5.2 `LinearRegression`模型的核心属性与功能