核心思想
论文的核心思想是针对部分标签学习(Partial Label Learning, PLL)问题提出一种新型方法PL-CL(Partial Label learning based on Complementary Learning)。在PLL中,每个训练样本关联一个候选标签集,其中只有一个是真实的ground-truth标签,而现有方法的主要挑战是消歧(disambiguation),即从候选标签集中识别出真实标签。现有工作通常忽略了非候选标签集(即互补标签,complementary labels)的价值,这些标签精确地指示了样本不属于的类别集。
论文创新性地利用非候选标签诱导一个互补分类器(complementary classifier),该分类器与传统PLL的普通分类器(ordinary classifier)形成对抗关系(adversarial relationship),从而消除候选标签集中的假阳性标签。同时,假设特征空间和标签空间共享相同的局部拓扑结构(local topological structure),通过一个动态图(dynamic graph)捕捉这种结构一致性,进一步辅助消歧。整体框架如论文图1所示:候选标签生成普通分类器,非候选标签生成互补分类器,通过对抗约束和图正则化实现优化。该方法充分利用实例间相关性、实例到候选标签的映射以及非候选标签的准确信息,提升PLL的性能。
目标函数
论文的目标函数是基于最小化损失的形式化,综合考虑普通分类器、互补分类器、对抗关系以及图正则化。完整的目标函数如下:
minW,b,W^,b^,P,Q,G∥XW+1nbT−P∥F2+β∥1n×l−P−Q∥F2+α∥XW^+1nb^T−Q∥F2+μ∥PT−PTG∥F2+γ∥XT−XTG∥F2+λ(∥W∥F2+∥W^∥F2) \min_{W,b,\hat{W},\hat{b},P,Q,G} \left\| XW + 1_n b^T - P \right\|_F^2 + \beta \left\| 1_{n \times l} - P - Q \right\|_F^2 + \alpha \left\| X \hat{W} + 1_n \hat{b}^T - Q \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2 + \gamma \left\| X^T - X^T G \right\|_F^2 + \lambda \left( \left\| W \right\|_F^2 + \left\| \hat{W} \right\|_F^2 \right) W,b,W^,b^,P,Q,Gmin XW+1nbT−P F2+β∥1n×l−P−Q∥F2+α XW^+1nb^T−Q F2+μ PT−PTG F2+γ XT−XTG F2+λ(∥W∥F2+ W^ F2)
约束条件:
P1q=1n,0n×l≤P≤Y,Y^≤Q≤1n×l P 1_q = 1_n, \quad 0_{n \times l} \leq P \leq Y, \quad \hat{Y} \leq Q \leq 1_{n \times l} P1q=1n,0n×l≤P≤Y,Y^≤Q≤1n×l
GT1n=1n,0n×n≤G≤U G^T 1_n = 1_n, \quad 0_{n \times n} \leq G \leq U GT1n=1n,0n×n≤G≤U
其中:
- X∈Rn×qX \in \mathbb{R}^{n \times q}X∈Rn×q 是实例矩阵(nnn个样本,qqq维特征)。
- Y∈{0,1}n×lY \in \{0,1\}^{n \times l}Y∈{0,1}n×l 是部分标签矩阵(lll个类别),Y^=1n×l−Y\hat{Y} = 1_{n \times l} - YY^=1n×l−Y 是互补标签矩阵。
- P∈Rn×lP \in \mathbb{R}^{n \times l}P∈Rn×l 是标签置信矩阵(labeling confidence matrix),pijp_{ij}pij 表示第jjj个标签是第iii个样本真实标签的概率。
- Q∈Rn×lQ \in \mathbb{R}^{n \times l}Q∈Rn×l 是互补标签置信矩阵,qijq_{ij}qij 表示第jjj个标签不是第iii个样本真实标签的置信度。
- G∈Rn×nG \in \mathbb{R}^{n \times n}G∈Rn×n 是局部相似性图矩阵,捕捉特征和标签空间的局部结构。
- W,W^∈Rq×lW, \hat{W} \in \mathbb{R}^{q \times l}W,W^∈Rq×l 和 b,b^∈Rlb, \hat{b} \in \mathbb{R}^lb,b^∈Rl 分别是普通分类器和互补分类器的权重和偏置。
- UUU 是kkk-最近邻位置矩阵,1n1_n1n 是全1向量,∥⋅∥F\left\| \cdot \right\|_F∥⋅∥F 是Frobenius范数。
- α,β,γ,μ,λ\alpha, \beta, \gamma, \mu, \lambdaα,β,γ,μ,λ 是超参数,用于平衡不同项。
函数分解:
- 第一项:普通分类器的最小二乘损失。
- 第二项:对抗损失,确保P+Q=1n×lP + Q = 1_{n \times l}P+Q=1n×l。
- 第三项:互补分类器的损失。
- 第四、五项:图正则化,确保特征和标签空间的局部一致性。
- 第六项:正则化控制模型复杂度。
目标函数详细的优化过程
优化采用交替迭代(alternating optimization)方式,逐个变量固定其他变量求解,直到收敛。论文引入核扩展(kernel extension)以处理非线性关系,使用高斯核K(xi,xj)=exp(−∥xi−xj∥22/(2σ2))K(x_i, x_j) = \exp(-\left\| x_i - x_j \right\|_2^2 / (2\sigma^2))K(xi,xj)=exp(−∥xi−xj∥22/(2σ2)),其中σ\sigmaσ为训练样本平均距离。定义输出矩阵H=ΦW+1nbTH = \Phi W + 1_n b^TH=ΦW+1nbT 和 H^=ΦW^+1nb^T\hat{H} = \Phi \hat{W} + 1_n \hat{b}^TH^=ΦW^+1nb^T,其中Φ\PhiΦ是核映射后的特征矩阵,核矩阵K=ΦΦTK = \Phi \Phi^TK=ΦΦT。
更新 W,bW, bW,b 和 W^,b^\hat{W}, \hat{b}W^,b^:
- 对于普通分类器:求解 minW,b∥XW+1nbT−P∥F2+λ∥W∥F2\min_{W,b} \left\| XW + 1_n b^T - P \right\|_F^2 + \lambda \left\| W \right\|_F^2minW,b XW+1nbT−P F2+λ∥W∥F2。
- 核版本使用拉格朗日乘子AAA,通过KKT条件得:
A=(12λK+12In×n)−1(P−1nbT),b=sPs1nT A = \left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1} \left( P - 1_n b^T \right), \quad b = \frac{s P}{s 1_n}^T A=(2λ1K+21In×n)−1(P−1nbT),b=s1nsPT
其中s=1nT(12λK+12In×n)−1s = 1_n^T \left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1}s=1nT(2λ1K+21In×n)−1。 - 类似地更新A^,b^\hat{A}, \hat{b}A^,b^,替换PPP为QQQ,λ\lambdaλ为λ/α\lambda / \alphaλ/α。
更新 QQQ:
- 子问题:minQ∥Q−αH^+β(1n×l−P)α+β∥F2\min_Q \left\| Q - \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right\|_F^2minQ Q−α+βαH^+β(1n×l−P) F2,s.t. Y^≤Q≤1n×l\hat{Y} \leq Q \leq 1_{n \times l}Y^≤Q≤1n×l。
- 解:元素-wise阈值操作
Q=T1(TY^(αH^+β(1n×l−P)α+β)) Q = T_1 \left( T_{\hat{Y}} \left( \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right) \right) Q=T1(TY^(α+βαH^+β(1n×l−P)))
其中T1(m)=min{1,m}T_1(m) = \min\{1, m\}T1(m)=min{1,m},TY^(m)=max{y^ij,m}T_{\hat{Y}}(m) = \max\{\hat{y}_{ij}, m\}TY^(m)=max{y^ij,m}。
更新 GGG:
- 子问题:minGγ∥XT−XTG∥F2+μ∥PT−PTG∥F2\min_G \gamma \left\| X^T - X^T G \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2minGγ XT−XTG F2+μ PT−PTG F2,s.t. GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq UGT1n=1n,0n×n≤G≤U。
- 列-by-列求解,对于第iii列g^i\hat{g}_ig^i(仅更新kkk最近邻系数):转化为二次规划(QP)
ming^ig^iT(γBxi+μBpi)g^i,s.t.g^iT1k=1,0k≤g^i≤1k \min_{\hat{g}_i} \hat{g}_i^T (\gamma B_{x_i} + \mu B_{p_i}) \hat{g}_i, \quad \text{s.t.} \quad \hat{g}_i^T 1_k = 1, \quad 0_k \leq \hat{g}_i \leq 1_k g^iming^iT(γBxi+μBpi)g^i,s.t.g^iT1k=1,0k≤g^i≤1k
其中Bxi,BpiB_{x_i}, B_{p_i}Bxi,Bpi是Gram矩阵,使用QP求解器。
更新 PPP:
- 子问题:minP∥P−H+β(1n×l−Q)1+β∥F2+μ1+β∥PT−PTG∥F2\min_P \left\| P - \frac{H + \beta (1_{n \times l} - Q)}{1 + \beta} \right\|_F^2 + \frac{\mu}{1 + \beta} \left\| P^T - P^T G \right\|_F^2minP P−1+βH+β(1n×l−Q) F2+1+βμ PT−PTG F2,s.t. P1q=1n,0n×l≤P≤YP 1_q = 1_n, 0_{n \times l} \leq P \leq YP1q=1n,0n×l≤P≤Y。
- 向量化后转化为QP:minp⃗12p⃗T(C+2(1+β)μInl×nl)p⃗−2(1+β)μo⃗Tp⃗\min_{\vec{p}} \frac{1}{2} \vec{p}^T (C + \frac{2(1 + \beta)}{\mu} I_{nl \times nl}) \vec{p} - \frac{2(1 + \beta)}{\mu} \vec{o}^T \vec{p}minp21pT(C+μ2(1+β)Inl×nl)p−μ2(1+β)oTp,s.t. 行和约束,使用QP求解器。其中CCC是块对角矩阵基于(I−G)(I−G)T(I - G)(I - G)^T(I−G)(I−G)T。
复杂度:总体为O(n3+nql+nl+nk3+n3q3)O(n^3 + n q l + n l + n k^3 + n^3 q^3)O(n3+nql+nl+nk3+n3q3)。
主要的贡献点
- 首次引入互补分类器:在PLL文献中首次提出利用非候选标签诱导互补分类器,该分类器提供准确的负信息,帮助消除候选集中的假阳性标签。
- 对抗项设计:提出对抗损失β∥1n×l−P−Q∥F2\beta \left\| 1_{n \times l} - P - Q \right\|_F^2β∥1n×l−P−Q∥F2,将互补分类器的信息传递到普通分类器,指导消歧过程。
- 自适应图正则化:引入动态图GGG捕捉特征和标签空间的局部一致性,提升鲁棒性。
- 实验验证:在4个控制UCI数据集和6个真实世界数据集上显著优于SOTA方法(如PL-AGGD、SURE等),并通过消融研究证实互补分类器和图结构的有效性。胜率达92.1%以上,且对超参数鲁棒。
算法的实现过程
算法实现基于伪代码(Algorithm 1),采用迭代优化框架。输入:部分标签数据DDD,超参数α,β,μ,γ,λ\alpha, \beta, \mu, \gamma, \lambdaα,β,μ,γ,λ,测试样本x∗x^*x∗。输出:x∗x^*x∗的预测标签y∗y^*y∗。
初始化:
- 初始化GGG:求解minG∥XT−XTG∥F2\min_G \left\| X^T - X^T G \right\|_F^2minG XT−XTG F2,s.t. GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq UGT1n=1n,0n×n≤G≤U(基于kkk-NN的重构)。
- 初始化PPP:求解minP∥PT−PTG∥F2\min_P \left\| P^T - P^T G \right\|_F^2minP PT−PTG F2,s.t. P1q=1n,0n×l≤P≤YP 1_q = 1_n, 0_{n \times l} \leq P \leq YP1q=1n,0n×l≤P≤Y。
- 初始化QQQ:对于每个qijq_{ij}qij,如果yij=0y_{ij}=0yij=0则qij=1/(l−∑jyij)q_{ij}=1/(l - \sum_j y_{ij})qij=1/(l−∑jyij),否则qij=0q_{ij}=0qij=0。
迭代优化(重复直到收敛):
- 更新A,bA, bA,b:使用公式(16)计算普通分类器的核参数。
- 更新A^,b^\hat{A}, \hat{b}A^,b^:使用公式(17)计算互补分类器的核参数。
- 更新QQQ:使用公式(19)的阈值操作。
- 更新GGG:列-by-列QP求解公式(22)。
- 更新PPP:QP求解公式(25)。
预测新样本:
- 对于未见样本x∗x^*x∗,计算预测:
y∗=argmaxk∑i=1n12λAikK(x∗,xi)+bk y^* = \arg \max_k \sum_{i=1}^n \frac{1}{2\lambda} A_{ik} K(x^*, x_i) + b_k y∗=argkmaxi=1∑n2λ1AikK(x∗,xi)+bk
- 对于未见样本x∗x^*x∗,计算预测:
实现细节:在实践中,使用QP求解器(如CVXOPT或Gurobi)处理QP子问题。核矩阵KKK预计算以加速。收敛标准可设为目标函数变化小于阈值或最大迭代次数。实验中k=10k=10k=10,超参数通过网格搜索选择。