2. 核心思想
该论文的核心思想是将流形学习(Manifold Learning)与鲁棒回归(Robust Regression)相结合,并引入低秩约束和联合稀疏性,以构建一个更鲁棒、更具判别性的特征提取模型。
传统的流形学习方法(如LPP)通过构建邻域图来保持数据的局部几何结构,但其性能易受噪声和异常值影响,因为它们通常使用对异常值敏感的Frobenius范数(F-norm)作为损失函数。此外,它们学习的投影矩阵通常是非稀疏的,无法进行有效的特征选择。
本文提出的低秩线性嵌入(Low-Rank Linear Embedding, LRLE) 方法从以下几个方面进行了改进:
- 回归视角重构LPP:将LPP的目标函数重新表述为一个回归问题,即用每个样本的邻域点来回归该样本本身。
- 鲁棒损失函数:使用对异常值不敏感的 L2,1L_{2,1}L2,1-范数代替F-norm作为损失函数,以最小化重构误差,从而提高模型的鲁棒性。
- 低秩约束:在回归矩阵上施加低秩约束,以挖掘不同邻居之间的潜在关系,并发现数据的全局结构。
- 联合稀疏正则化:在目标函数中加入 L2,1L_{2,1}L2,1-范数正则化项,迫使回归矩阵的行趋向于零向量,从而实现联合稀疏性,达到特征选择的目的。
3. 目标函数
论文最终提出的目标函数如下:
minA,B∑ij∥xiT−xjTAB∥2Wij+λ∥AB∥2,1s.t.ATA=Id \min_{A,B} \sum_{ij} \left\| x_i^T - x_j^T AB \right\|_2 W_{ij} + \lambda \left\| AB \right\|_{2,1} \quad \text{s.t.} \quad A^T A = I_d A,Bminij∑
xiT−xjTAB
2Wij+λ∥AB∥2,1s.t.ATA=Id
其中:
- X=[x1,x2,...,xn]∈Rm×nX = [x_1, x_2, ..., x_n] \in \mathbb{R}^{m \times n}X=[x1,x2,...,xn]∈Rm×n 是包含 nnn 个 mmm 维样本的数据矩阵。
- WijW_{ij}Wij 是邻域图的权重,定义了数据点 xix_ixi 和 xjx_jxj 之间的局部关系。
- A∈Rm×dA \in \mathbb{R}^{m \times d}A∈Rm×d 是投影矩阵,用于将高维数据投影到 ddd 维的低维子空间。
- B∈Rd×mB \in \mathbb{R}^{d \times m}B∈Rd×m 是回归矩阵。
- Z=AB∈Rm×mZ = AB \in \mathbb{R}^{m \times m}Z=AB∈Rm×m 是回归矩阵,其低秩性由 ddd 控制(因为 rank(Z)≤d\text{rank}(Z) \leq drank(Z)≤d)。
- ∥⋅∥2\left\| \cdot \right\|_2∥⋅∥2 是 L2L_2L2-范数,∥⋅∥2,1\left\| \cdot \right\|_{2,1}∥⋅∥2,1 是 L2,1L_{2,1}L2,1-范数,定义为 ∥X∥2,1=∑i=1m∥xi∥2\|X\|_{2,1} = \sum_{i=1}^m \|x_i\|_2∥X∥2,1=∑i=1m∥xi∥2,其中 xix_ixi 是矩阵 XXX 的第 iii 行。
- λ>0\lambda > 0λ>0 是正则化系数。
- ATA=IdA^T A = I_dATA=Id 是正交约束,用于避免平凡解。
这个目标函数有两部分:
- 第一项 ∑ij∥xiT−xjTAB∥2Wij\sum_{ij} \left\| x_i^T - x_j^T AB \right\|_2 W_{ij}∑ij xiT−xjTAB 2Wij 是 L2,1L_{2,1}L2,1-范数损失函数,旨在让每个样本 xix_ixi 能够被其邻域点 xjx_jxj 的低维表示 xjTAx_j^T AxjTA 经过回归矩阵 BBB 重构回来,从而保持局部流形结构并最小化重构误差。
- 第二项 λ∥AB∥2,1\lambda \left\| AB \right\|_{2,1}λ∥AB∥2,1 是 L2,1L_{2,1}L2,1-范数正则化项,它促使 ABABAB 矩阵的行是稀疏的,即某些行会趋近于零,这意味着与这些行对应的原始特征是不重要的,从而实现了特征选择。
4. 目标函数的优化过程
由于目标函数中同时包含 AAA 和 BBB,并且 L2,1L_{2,1}L2,1-范数不可微,直接求解非常困难。作者设计了一个交替迭代重加权算法(Iterative Reweighted Algorithm)来求解。
优化步骤
引入辅助变量:
为了处理 L2,1L_{2,1}L2,1-范数,引入两个对角权重矩阵 DDD 和 MMM 来近似 L2,1L_{2,1}L2,1-范数。- 对于损失项,定义对角矩阵 DDD,其第 (i,j)(i,j)(i,j) 个对角元素为:
Dij=Wij2∥xiT−xjTAB∥2+δD_{ij} = \frac{W_{ij}}{2\left\| x_i^T - x_j^T AB \right\|_2 + \delta}Dij=2 xiT−xjTAB 2+δWij
其中 δ\deltaδ 是一个极小的常数,防止分母为零。这个权重 DijD_{ij}Dij 与重构误差成反比:重构误差越小,权重越大,反之则越小。 - 对于正则项,定义对角矩阵 MMM,其第 iii 个对角元素为:
Mii=12∥(AB)i∥2+δM_{ii} = \frac{1}{2\left\| (AB)_i \right\|_2 + \delta}Mii=2∥(AB)i∥2+δ1
其中 (AB)i(AB)_i(AB)i 是矩阵 ABABAB 的第 iii 行。这个权重 MiiM_{ii}Mii 与该行的模长成反比:某行的模长越大,其对应的权重越小,正则化对其影响越小;反之,模长小的行权重大会被更严厉地惩罚。
- 对于损失项,定义对角矩阵 DDD,其第 (i,j)(i,j)(i,j) 个对角元素为:
交替优化:
在每次迭代中,固定一个变量,优化另一个变量。B-step (固定 A,求解 B):
将 L2,1L_{2,1}L2,1-范数损失和正则项用其加权平方和近似,目标函数可转化为一个加权的二次型。对 BBB 求偏导并令其为零,得到 BBB 的闭式解:
B=(ATXGXTA+λATMA)−1ATXDXT B = (A^T X G X^T A + \lambda A^T M A)^{-1} A^T X D X^T B=(ATXGXTA+λATMA)−1ATXDXT
其中 GGG 是一个对角矩阵,其第 iii 个对角元素为 Gii=∑jDijG_{ii} = \sum_j D_{ij}Gii=∑jDij。A-step (固定 B,求解 A):
将上述求得的 BBB 代回目标函数,经过一系列推导(详见原文),优化问题转化为一个比值迹(Ratio Trace)最大化问题:
maxATA=Idtr[(AT(XGXT+λM)A)−1ATXDXTXDTXTA] \max_{A^T A = I_d} \text{tr} \left[ (A^T (X G X^T + \lambda M) A)^{-1} A^T X D X^T X D^T X^T A \right] ATA=Idmaxtr[(AT(XGXT+λM)A)−1ATXDXTXDTXTA]
这个问题的最优解可以通过求解以下广义特征值问题得到:
(XGXT+λM)−1(XDXTXDTXT)A=AΛ~ (X G X^T + \lambda M)^{-1} (X D X^T X D^T X^T) A = A \tilde{\Lambda} (XGXT+λM)−1(XDXTXDTXT)A=AΛ~
其中 Λ~\tilde{\Lambda}Λ~ 是特征值矩阵。最优的投影矩阵 AAA 由该方程的 ddd 个最大特征值对应的正交特征向量构成。
迭代更新:
重复执行 B-step 和 A-step,每次迭代后,根据当前的 AAA 和 BBB 更新权重矩阵 DDD 和 MMM,然后用新的权重重新求解 BBB 和 AAA。这个过程一直持续到目标函数值收敛或达到最大迭代次数。
5. 主要贡献点
该论文的主要贡献可以总结为以下四点:
- 提出新颖的模型:提出了一个基于低秩约束的流形回归新模型(LRLE)。该模型利用 L2,1L_{2,1}L2,1-范数作为损失函数和正则化项,构建了一个既能保持流形结构、又具备鲁棒性和联合稀疏特征选择能力的统一框架。
- 解决低秩优化:通过将回归矩阵 ZZZ 分解为投影矩阵 AAA 和回归矩阵 BBB(即 Z=ABZ=ABZ=AB),巧妙地将非凸的低秩约束问题融入到模型中,并通过交替迭代的方式进行求解。
- 提供理论分析:对提出的迭代算法进行了理论分析,证明了其收敛性(定理1),并分析了算法的计算复杂度。此外,还揭示了LRLE与传统OLPP之间的理论联系(定理2):当正则化参数 λ→0\lambda \to 0λ→0 时,LRLE退化为在重加权OLPP子空间中的回归。
- 验证有效性:在多个基准数据集(包括AR, FERET, Yale, Binary alpha, LFW, Fashion-MNIST, CIFAR-10)上进行了大量实验,结果表明LRLE在识别率上优于LPP、OLPP、UDFS、JELSR等现有方法,尤其是在处理含噪声或遮挡的图像时表现出更强的鲁棒性。
6. 算法实现过程详解
根据论文的 Algorithm 1 和优化过程,LRLE的完整实现步骤如下:
输入:数据矩阵 X∈Rm×nX \in \mathbb{R}^{m \times n}X∈Rm×n,目标维度 ddd,近邻数 kkk,正则化参数 λ\lambdaλ,最大迭代次数,收敛阈值。
输出:投影矩阵 A∈Rm×dA \in \mathbb{R}^{m \times d}A∈Rm×d。
过程:
初始化:
- 使用k近邻法构建邻域图 WWW。
- 初始化投影矩阵 AAA(例如,随机初始化或使用PCA结果)。
- 初始化回归矩阵 BBB(例如,随机初始化)。
- 初始化迭代计数器 t=0t = 0t=0。
迭代循环(直到收敛或达到最大迭代次数):
步骤1:计算权重矩阵 DDD 和 MMM
- 根据当前的 AAA 和 BBB,计算重构误差 eij=xiT−xjTABe_{ij} = x_i^T - x_j^T ABeij=xiT−xjTAB。
- 计算 L2,1L_{2,1}L2,1-范数损失的权重矩阵 DDD:
Dij=Wij2∥eij∥2+δD_{ij} = \frac{W_{ij}}{2\left\| e_{ij} \right\|_2 + \delta}Dij=2∥eij∥2+δWij - 计算 L2,1L_{2,1}L2,1-范数正则项的权重矩阵 MMM:
Mii=12∥(AB)i∥2+δM_{ii} = \frac{1}{2\left\| (AB)_i \right\|_2 + \delta}Mii=2∥(AB)i∥2+δ1 - 构建对角矩阵 DDD 和 MMM。
步骤2:更新 BBB (B-step)
- 计算对角矩阵 GGG:Gii=∑jDijG_{ii} = \sum_j D_{ij}Gii=∑jDij。
- 计算中间矩阵 Γ=ATXGXTA+λATMA\Gamma = A^T X G X^T A + \lambda A^T M AΓ=ATXGXTA+λATMA。
- 计算 BBB 的更新值:
B=Γ−1ATXDXTB = \Gamma^{-1} A^T X D X^TB=Γ−1ATXDXT
步骤3:更新 AAA (A-step)
- 计算矩阵 P=XDXTXDTXTP = X D X^T X D^T X^TP=XDXTXDTXT。
- 计算矩阵 Q=XGXT+λMQ = X G X^T + \lambda MQ=XGXT+λM。
- 求解广义特征值问题:
Q−1PA=AΛ~Q^{-1} P A = A \tilde{\Lambda}Q−1PA=AΛ~ - 将 AAA 更新为该方程的 ddd 个最大特征值对应的正交特征向量。
步骤4:检查收敛性
- 计算当前目标函数值 Jt=∑ij∥xiT−xjTAB∥2Wij+λ∥AB∥2,1J_t = \sum_{ij} \left\| x_i^T - x_j^T AB \right\|_2 W_{ij} + \lambda \left\| AB \right\|_{2,1}Jt=∑ij xiT−xjTAB 2Wij+λ∥AB∥2,1。
- 如果 ∣Jt−Jt−1∣<ϵ|J_t - J_{t-1}| < \epsilon∣Jt−Jt−1∣<ϵ 或 ttt 达到最大值,则停止迭代。
- 否则,t=t+1t = t + 1t=t+1,返回步骤1。
输出:返回最终的投影矩阵 AAA。
特征提取:对于一个新的测试样本 xtestx_{\text{test}}xtest,其低维特征表示为 ytest=ATxtesty_{\text{test}} = A^T x_{\text{test}}ytest=ATxtest。
该算法的核心在于通过交替迭代和重加权,将一个复杂的非凸、非光滑优化问题分解为两个相对容易求解的子问题,从而有效地逼近原问题的解。
这个公式:
minA,B∑ij∥xiT−xjTAB∥2Wij \min_{A,B} \sum_{ij} \left\| x_i^T - x_j^T AB \right\|_2 W_{ij} A,Bminij∑
xiT−xjTAB
2Wij
是论文中提出的低秩线性嵌入(LRLE)模型的核心部分,它通过回归的视角重新定义了流形学习的目标。我们可以从以下几个层面来理解其物理含义:
1. 核心思想:用邻居来“重构”自己
传统的流形学习方法(如LPP)主要关注的是保持数据点之间的相对距离或邻近关系。而这个公式则引入了一个更深层次的、基于重建(Reconstruction)的思想。
- xiTx_i^TxiT: 这是原始高维空间中第 iii 个样本点 xix_ixi 的转置。
- xjTABx_j^T ABxjTAB: 这是关键的一环。它表示将第 jjj 个样本点 xjx_jxj 先投影到一个低维子空间(通过 AAA),然后通过一个回归矩阵 BBB 将其“拉回”或“映射”回原始高维空间的一个估计值。
- ∥xiT−xjTAB∥2\left\| x_i^T - x_j^T AB \right\|_2 xiT−xjTAB 2: 这个项计算的是原始样本 xix_ixi 和由其邻居 xjx_jxj 经过投影和回归后得到的估计值之间的欧氏距离(L2范数)。这个距离衡量了重建误差。
因此,整个公式的物理含义可以概括为:
对于每一个样本点 xix_ixi,我们都希望它能够被其在邻域图中的邻居 xjx_jxj 所“重建”出来。 我们不是简单地要求它们的距离很近,而是要求 xix_ixi 能够被 xjx_jxj 经过一个特定的变换(先投影再回归)所很好地逼近。
2. 邻居关系的重要性 (WijW_{ij}Wij)
- WijW_{ij}Wij: 这是邻域图的权重矩阵。如果 xix_ixi 和 xjx_jxj 是近邻(例如,xjx_jxj 在 xix_ixi 的k近邻集合内),那么 WijW_{ij}Wij 会是一个较大的正数(通常为1);否则,WijW_{ij}Wij 为0。
- 加权求和 ∑ij⋯Wij\sum_{ij} \cdots W_{ij}∑ij⋯Wij: 这个权重机制确保了只有那些真正相关的邻居才会对总损失产生显著影响。离得远的点,即使有误差,也不会被惩罚。这使得模型能够专注于局部几何结构。
3. 为什么这样设计?——从LPP的视角看
这个公式是对经典LPP(Locality Preserving Projections)目标函数的一种深刻重构。
- LPP的传统目标: LPP的目标是 minQ∑ij∥QTxi−QTxj∥2Wij\min_Q \sum_{ij} \|Q^T x_i - Q^T x_j\|^2 W_{ij}minQ∑ij∥QTxi−QTxj∥2Wij。它的物理含义是:在低维空间中,如果两个点在高维空间是邻居,它们的投影也应该靠近。
- LRLE的回归视角重构: LRLE将这个目标转化为一个回归问题。它假设,在高维空间中,一个点 xix_ixi 可以被其邻居 xjx_jxj 通过一个线性变换(即 ABABAB)来近似。这种“重建”能力不仅保留了局部结构,还隐含地捕捉了数据点之间的内在生成关系。如果一个点能被其邻居很好地重建,说明这些点共享相似的局部模式或特征。
4. 总结物理含义
综合来看,这个目标函数的物理含义是:
我们寻找一个最优的投影矩阵 AAA 和回归矩阵 BBB,使得在高维空间中,每个数据点 xix_ixi 都能被其附近的邻居 xjx_jxj 通过一个线性变换(ABABAB)非常精确地重建出来。 换句话说,我们希望数据点与其邻居之间存在一种强的、可预测的线性关系。通过最小化所有这种“重建误差”的加权和,我们就能找到一个既能保持局部流形结构、又能揭示数据内部生成规律的低维表示。
这种基于重建的思路比单纯的距离保持更为严格和鲁棒,因为它要求模型不仅要知道“谁和谁近”,还要知道“如何从一个点推断出另一个点”。