1. 主成分分析
主成分分析(Principal Component Analysis,简称PCA)是一种常用的降维技术,旨在将数据从高维空间投影到一个新的低维空间,同时尽可能保留原始数据的结构和信息,这样做可以减少存储数据的空间以及进行计算时的运算量。(选择包含信息量大的维度(特征),去除信息量少的“干扰”维度(特征))
主成分分析的核心: 从数据中提取出主要特征(主成分)作为新的特征(新的坐标轴),剔除不重要的特征。
这里有一个概念:新的维度(主成分)是数据方差最大的方向。什么叫数据方差最大的方向?
方差(Variance) 是衡量数据分布广泛程度的一种方式。它表示数据点与均值的平方距离的平均。方差越大,意味着数据点分布得越分散,变化越剧烈。
即: 方差小的方向表示数据在该方向上的变化很小,数据点比较集中。因此,方差大的方向包含了更多的变化信息,也就是说,数据在这个方向上的变异性更多,提供了更多的信息。
那么,主成分就是数据变化最显著的方向,因为它们捕捉到数据的主要变异性和结构,包含了最多的信息。
2.PCA的基本步骤:
1) 数据标准化: 由于PCA对数据的量纲敏感,所以首先需要对数据进行标准化(零均值,单位方差)。常见的方法是每一维特征减去其均值后除以标准差。
PCA对数据的量纲敏感解释 : 数据的单位和尺度对结果有很大影响
2) 计算协方差矩阵: 用协方差矩阵(Covariance Matrix)衡量不同特征之间的相关性。协方差矩阵是一个方阵,表示数据集中各个特征之间的协方差关系。协方差矩阵的每个元素 C i j C_{ij} Cij 表示第 𝑖 个特征与第 𝑗 个特征之间的协方差。
正相关: 当我们说两个特征是正相关的时,意味着这两个特征之间存在一种线性关系,且当一个特征的值增加时,另一个特征的值也倾向于增加,反之亦然。
不相关: 当两个特征是不相关的时,意味着这两个特征之间没有明显的线性关系。也就是说,一个特征的变化不能预测另一个特征的变化,它们之间的关系很弱或者没有关系。
负相关: 当我们说两个特征是负相关的时,意味着这两个特征之间存在一种线性关系,并且当一个特征的值增加时,另一个特征的值倾向于减少。
3) 计算协方差矩阵的特征值和特征向量: 主成分分析(PCA)的关键步骤,这一步可从多维数据中提取出最具代表性的特征,并将其降维到较低的维度,同时尽量保留数据的方差信息。
特征值: 数据在某个方向上的“变异程度”或“信息量”。通过计算协方差矩阵的特征值,来判断哪些方向包含的数据方差最大,这些具有最大特征值的方向表示数据的主要特征。
特征向量: 数据的变化方向。每个特征向量是一个单位向量,它的大小并不重要。PCA中,具有最大特征值的特征向量作为新的坐标轴(主成分)。
协方差矩阵的特征值排序: 计算得到所有的特征值后,我们按照特征值的大小对特征向量进行排序。特征值大的方向是数据变化最显著的方向,因此对应的特征向量就是我们需要的主成分。PCA通过选择特征值较大的前几个特征向量,来构建新的特征空间。这些特征向量构成了新的坐标轴,数据将在这些轴上进行投影,从而实现降维。
4) 将数据投影到主成分上: 将原始数据点投影到新的主成分空间中,得到降维后的数据。具体来说,选择前 𝑘 个主成分,形成一个新的矩阵 V k V_k Vk ,这个矩阵的列是前 𝑘 个特征向量。用标准化后的数据X乘以该矩阵 V k V_k Vk ,即得到投影后的数据(降维后的数据)。