机器学习中的无量纲化预处理-EW帮帮网

一、引言

在机器学习项目中，数据预处理是构建高效模型的关键步骤之一。无量纲化（Normalization/Scaling）是预处理阶段的重要技术，它通过对数据进行缩放和转换，使不同特征具有相同的尺度，从而提高模型的性能和稳定性。

本文将详细介绍机器学习中常用的无量纲化方法，包括它们的数学原理、适用场景、Python实现以及相关API的详细参数解释。

二、为什么需要无量纲化？

在现实数据中，不同特征往往具有不同的量纲和范围。例如：

年龄：0-100岁
收入：0-数百万
身高：1.5-2.0米

这种量纲差异会导致：

基于距离的算法（如KNN、SVM、K-Means）会偏向数值较大的特征
梯度下降算法在不同特征方向上收敛速度不一致
正则化惩罚项对较大尺度的特征影响更大

无量纲化可以解决这些问题，使各特征对模型的贡献更加公平。

三、常用无量纲化方法

1. 标准化（Standardization）

数学公式：

其中μ是均值，σ是标准差

特点：

处理后数据均值为0，方差为1
对异常值有一定鲁棒性
适用于数据近似服从正态分布的情况

API：sklearn.preprocessing.StandardScaler

from sklearn.preprocessing import StandardScaler

# 示例数据
data = [[0, 10], [1, 20], [2, 30], [3, 40]]

# 创建StandardScaler对象
scaler = StandardScaler(copy=True, with_mean=True, with_std=True)

"""
参数说明：
- copy: 是否创建数据的副本，默认为True。如果为False，则原地缩放数据
- with_mean: 是否中心化数据（减去均值），默认为True
- with_std: 是否缩放数据至单位方差，默认为True
"""

# 拟合数据并转换
scaler.fit(data)  # 计算均值和标准差
transformed_data = scaler.transform(data)

print("原始数据:\n", data)
print("标准化后数据:\n", transformed_data)
print("均值:", scaler.mean_)  # 各特征的均值
print("标准差:", scaler.scale_)  # 各特征的标准差

# 可以直接使用fit_transform合并两步
scaler = StandardScaler()
transformed_data = scaler.fit_transform(data)

2. 归一化（Normalization/Min-Max Scaling）

数学公式

特点：

将数据缩放到[0,1]区间
对异常值敏感（因为最大值最小值易受异常值影响）
适用于数据分布范围有限的情况

API：sklearn.preprocessing.MinMaxScaler

from sklearn.preprocessing import MinMaxScaler

data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]

# 创建MinMaxScaler对象
scaler = MinMaxScaler(feature_range=(0, 1), copy=True)

"""
参数说明：
- feature_range: 缩放范围，默认为(0,1)
- copy: 是否创建数据的副本，默认为True
"""

# 拟合并转换数据
scaler.fit(data)
transformed_data = scaler.transform(data)

print("原始数据:\n", data)
print("归一化后数据:\n", transformed_data)
print("数据最小值:", scaler.data_min_)  # 各特征的最小值
print("数据最大值:", scaler.data_max_)  # 各特征的最大值

# 也可以指定不同的缩放范围
scaler = MinMaxScaler(feature_range=(-1, 1))
transformed_data = scaler.fit_transform(data)
print("缩放到[-1,1]后的数据:\n", transformed_data)

3. 鲁棒缩放（Robust Scaling）

数学公式：

其中IQR是四分位距（Q3-Q1）

（四分位距（Interquartile Range，简称 IQR）是统计学中衡量数据离散程度的重要指标，它通过将数据分为四个相等部分（四分位数）来反映数据的分布特征。

Q1 的位置：(n+1)/4 = 2.5，即第 2 和第 3 个数的平均值：(3+4)/2 = 3.5
Q3 的位置：3(n+1)/4 = 7.5，即第 7 和第 8 个数的平均值：(10+12)/2 = 11
四分位距：IQR = 11 - 3.5 = 7.5

不受极端值影响

）

特点：

使用中位数和四分位数，对异常值鲁棒
适用于数据中有较多异常值的情况

API：sklearn.preprocessing.RobustScaler

from sklearn.preprocessing import RobustScaler

# 包含异常值的数据
data = [[0, 10], [1, 20], [2, 30], [3, 40], [100, 10000]]

scaler = RobustScaler(with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True)

"""
参数说明：
- with_centering: 是否减去中位数，默认为True
- with_scaling: 是否除以IQR，默认为True
- quantile_range: 用于计算scale的分位数范围，默认为(25.0,75.0)
- copy: 是否创建数据的副本，默认为True
"""

transformed_data = scaler.fit_transform(data)

print("原始数据:\n", data)
print("鲁棒缩放后数据:\n", transformed_data)
print("中位数:", scaler.center_)  # 各特征的中位数
print("四分位距:", scaler.scale_)  # 各特征的IQR

4. 最大绝对值缩放（MaxAbs Scaling）

数学公式：

特点：

将每个特征缩放到[-1,1]区间
不移动/居中数据，因此不会破坏数据的稀疏性
适用于稀疏数据

API：sklearn.preprocessing.MaxAbsScaler

from sklearn.preprocessing import MaxAbsScaler

# 稀疏数据示例
data = [[1, 2, 0], [0, -1, 1], [0, 0, 0.5]]

scaler = MaxAbsScaler(copy=True)

"""
参数说明：
- copy: 是否创建数据的副本，默认为True
"""

transformed_data = scaler.fit_transform(data)

print("原始数据:\n", data)
print("最大绝对值缩放后数据:\n", transformed_data)
print("最大绝对值:", scaler.max_abs_)  # 各特征的最大绝对值

四、API使用进阶技巧

1. 管道(Pipeline)中的使用

无量纲化通常作为预处理步骤可以整合到Pipeline中：

from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

# 假设X是特征，y是标签
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# 创建包含标准化的Pipeline
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # 第一步：标准化
    ('classifier', LogisticRegression())  # 第二步：逻辑回归
])

# 训练模型
pipeline.fit(X_train, y_train)

# 评估模型
score = pipeline.score(X_test, y_test)
print("模型准确率:", score)

2. 分类型特征的处理

对于包含分类特征的数据集，可以使用ColumnTransformer：

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# 假设数据集有数值特征(0,1列)和分类特征(2列)
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), [0, 1]),  # 对0,1列数值特征标准化
        ('cat', OneHotEncoder(), [2])  # 对2列分类特征进行独热编码
    ])

# 然后在Pipeline中使用
pipeline = Pipeline([
    ('preprocessor', preprocessor),
    ('classifier', LogisticRegression())
])

3. 自定义转换器

当内置转换器不满足需求时，可以创建自定义转换器：

from sklearn.base import BaseEstimator, TransformerMixin
import numpy as np

class LogTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, add_one=True):
        self.add_one = add_one
        
    def fit(self, X, y=None):
        return self  # 不需要学习任何参数
        
    def transform(self, X):
        if self.add_one:
            return np.log1p(X)  # log(x+1)
        else:
            return np.log(X)

# 使用示例
transformer = LogTransformer(add_one=True)
transformed_data = transformer.fit_transform(data)

五、无量纲化方法的选择指南

方法	适用场景	优点	缺点
标准化(StandardScaler)	数据近似正态分布	保持异常值信息，适用于大多数算法	对非正态分布效果可能不好
归一化(MinMaxScaler)	数据边界已知，无异常值	保持原始数据比例，结果范围固定	对异常值敏感
鲁棒缩放(RobustScaler)	数据有较多异常值	不受异常值影响	丢失异常值信息
最大绝对值缩放(MaxAbsScaler)	稀疏数据	保持数据稀疏性，范围[-1,1]	对异常值敏感

选择建议：

默认可以尝试StandardScaler，它在大多数情况下表现良好
如果数据有异常值，使用RobustScaler
对于图像等已知范围的数据(如像素值0-255)，可以使用MinMaxScaler
对于稀疏数据，使用MaxAbsScaler

六、常见问题解答

Q1: 应该在训练集还是整个数据集上进行拟合？

A: 应该只在训练集上拟合scaler，然后使用相同的scaler转换测试集，避免数据泄露。

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)  # 注意这里只用transform

Q2: 无量纲化对树模型有必要吗？

A: 决策树及其衍生算法(随机森林、GBDT等)通常不需要无量纲化，因为它们基于特征排序而非距离。

Q3: 如何处理稀疏矩阵的无量纲化？

A: 对于稀疏矩阵，可以使用MaxAbsScaler或设置StandardScaler的with_mean=False。

Q4: 无量纲化会改变数据的分布吗？

A: 标准化和归一化不会改变数据的分布形状，只是进行线性变换。如果需要进行分布变换，可以考虑PowerTransformer或QuantileTransformer。

七、总结

无量纲化是机器学习预处理中不可或缺的一步。本文详细介绍了四种主要的无量纲化方法及其API使用，包括：

StandardScaler：最常用的标准化方法
MinMaxScaler：将数据缩放到固定范围
RobustScaler：对异常值鲁棒的缩放方法
MaxAbsScaler：适用于稀疏数据的缩放方法

正确选择和应用无量纲化技术可以显著提高模型性能，特别是在基于距离或正则化的算法中。在实际应用中，建议通过交叉验证比较不同缩放方法的效果，选择最适合当前数据和模型的预处理方式。

希望本文能帮助您更好地理解和应用机器学习中的无量纲化技术！

机器学习中的无量纲化预处理

一、引言

二、为什么需要无量纲化？

三、常用无量纲化方法

1. 标准化（Standardization）

2. 归一化（Normalization/Min-Max Scaling）

3. 鲁棒缩放（Robust Scaling）

4. 最大绝对值缩放（MaxAbs Scaling）

四、API使用进阶技巧

1. 管道(Pipeline)中的使用

2. 分类型特征的处理

3. 自定义转换器

五、无量纲化方法的选择指南

六、常见问题解答

七、总结

网站公告

今日签到

热门文章

最新发布