SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》-EW帮帮网

核心思想

论文的核心思想是针对部分标签学习（Partial Label Learning, PLL）问题提出一种新型方法PL-CL（Partial Label learning based on Complementary Learning）。在PLL中，每个训练样本关联一个候选标签集，其中只有一个是真实的ground-truth标签，而现有方法的主要挑战是消歧（disambiguation），即从候选标签集中识别出真实标签。现有工作通常忽略了非候选标签集（即互补标签，complementary labels）的价值，这些标签精确地指示了样本不属于的类别集。

论文创新性地利用非候选标签诱导一个互补分类器（complementary classifier），该分类器与传统PLL的普通分类器（ordinary classifier）形成对抗关系（adversarial relationship），从而消除候选标签集中的假阳性标签。同时，假设特征空间和标签空间共享相同的局部拓扑结构（local topological structure），通过一个动态图（dynamic graph）捕捉这种结构一致性，进一步辅助消歧。整体框架如论文图1所示：候选标签生成普通分类器，非候选标签生成互补分类器，通过对抗约束和图正则化实现优化。该方法充分利用实例间相关性、实例到候选标签的映射以及非候选标签的准确信息，提升PLL的性能。

目标函数

论文的目标函数是基于最小化损失的形式化，综合考虑普通分类器、互补分类器、对抗关系以及图正则化。完整的目标函数如下：

$min⁡W,b,W^,b^,P,Q,G∥XW+1nbT−P∥F2+β∥1n×l−P−Q∥F2+α∥XW^+1nb^T−Q∥F2+μ∥PT−PTG∥F2+γ∥XT−XTG∥F2+λ(∥W∥F2+∥W^∥F2) \min_{W,b,\hat{W},\hat{b},P,Q,G} \left\| XW + 1_n b^T - P \right\|_F^2 + \beta \left\| 1_{n \times l} - P - Q \right\|_F^2 + \alpha \left\| X \hat{W} + 1_n \hat{b}^T - Q \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2 + \gamma \left\| X^T - X^T G \right\|_F^2 + \lambda \left( \left\| W \right\|_F^2 + \left\| \hat{W} \right\|_F^2 \right)$

约束条件：

$P1q=1n,0n×l≤P≤Y,Y^≤Q≤1n×l P 1_q = 1_n, \quad 0_{n \times l} \leq P \leq Y, \quad \hat{Y} \leq Q \leq 1_{n \times l}$

$G^T 1_n = 1_n, \quad 0_{n \times n} \leq G \leq U$

其中：

$\in \mathbb{R}^{n \times q}$ 是实例矩阵（ $n$ 个样本， $q$ 维特征）。
$\in \{0,1\}^{n \times l}$ 是部分标签矩阵（ $l$ 个类别）， $Y^=1n×l−Y\hat{Y} = 1_{n \times l} - Y$ 是互补标签矩阵。
$\in \mathbb{R}^{n \times l}$ 是标签置信矩阵（labeling confidence matrix）， $p_{ij}$ 表示第 $j$ 个标签是第 $i$ 个样本真实标签的概率。
$\in \mathbb{R}^{n \times l}$ 是互补标签置信矩阵， $q_{ij}$ 表示第 $j$ 个标签不是第 $i$ 个样本真实标签的置信度。
$\in \mathbb{R}^{n \times n}$ 是局部相似性图矩阵，捕捉特征和标签空间的局部结构。
$W,W^∈Rq×lW, \hat{W} \in \mathbb{R}^{q \times l}$ 和 $b,b^∈Rlb, \hat{b} \in \mathbb{R}^l$ 分别是普通分类器和互补分类器的权重和偏置。
$U$ 是 $k$ -最近邻位置矩阵， $1_n$ 是全1向量， $∥⋅∥F\left\| \cdot \right\|_F$ 是Frobenius范数。
$α,β,γ,μ,λ\alpha, \beta, \gamma, \mu, \lambda$ 是超参数，用于平衡不同项。

函数分解：

第一项：普通分类器的最小二乘损失。
第二项：对抗损失，确保 $1_{n \times l}$ 。
第三项：互补分类器的损失。
第四、五项：图正则化，确保特征和标签空间的局部一致性。
第六项：正则化控制模型复杂度。

目标函数详细的优化过程

优化采用交替迭代（alternating optimization）方式，逐个变量固定其他变量求解，直到收敛。论文引入核扩展（kernel extension）以处理非线性关系，使用高斯核 $K(xi,xj)=exp⁡(−∥xi−xj∥22/(2σ2))K(x_i, x_j) = \exp(-\left\| x_i - x_j \right\|_2^2 / (2\sigma^2))$ ，其中 $σ\sigma$ 为训练样本平均距离。定义输出矩阵 $\Phi W + 1_n b^T$ 和 $H^=ΦW^+1nb^T\hat{H} = \Phi \hat{W} + 1_n \hat{b}^T$ ，其中 $Φ\Phi$ 是核映射后的特征矩阵，核矩阵 $\Phi \Phi^T$ 。

更新 $W, b$ 和 $W^,b^\hat{W}, \hat{b}$ ：
- 对于普通分类器：求解 $min⁡W,b∥XW+1nbT−P∥F2+λ∥W∥F2\min_{W,b} \left\| XW + 1_n b^T - P \right\|_F^2 + \lambda \left\| W \right\|_F^2$ 。
- 核版本使用拉格朗日乘子 $A$ ，通过KKT条件得：
  $\left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1} \left( P - 1_n b^T \right), \quad b = \frac{s P}{s 1_n}^T$
  其中 $1_n^T \left( \frac{1}{2\lambda} K + \frac{1}{2} I_{n \times n} \right)^{-1}$ 。
- 类似地更新 $A^,b^\hat{A}, \hat{b}$ ，替换 $P$ 为 $Q$ ， $λ\lambda$ 为 $λ/α\lambda / \alpha$ 。
更新 $Q$ ：
- 子问题： $min⁡Q∥Q−αH^+β(1n×l−P)α+β∥F2\min_Q \left\| Q - \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right\|_F^2$ ，s.t. $Y^≤Q≤1n×l\hat{Y} \leq Q \leq 1_{n \times l}$ 。
- 解：元素-wise阈值操作
  $Q=T1(TY^(αH^+β(1n×l−P)α+β)) Q = T_1 \left( T_{\hat{Y}} \left( \frac{\alpha \hat{H} + \beta (1_{n \times l} - P)}{\alpha + \beta} \right) \right)$
  其中 $T_1(m) = \min\{1, m\}$ ， $TY^(m)=max⁡{y^ij,m}T_{\hat{Y}}(m) = \max\{\hat{y}_{ij}, m\}$ 。
更新 $G$ ：
- 子问题： $min⁡Gγ∥XT−XTG∥F2+μ∥PT−PTG∥F2\min_G \gamma \left\| X^T - X^T G \right\|_F^2 + \mu \left\| P^T - P^T G \right\|_F^2$ ，s.t. $GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq U$ 。
- 列-by-列求解，对于第 $i$ 列 $g^i\hat{g}_i$ （仅更新 $k$ 最近邻系数）：转化为二次规划（QP）
  $min⁡g^ig^iT(γBxi+μBpi)g^i,s.t.g^iT1k=1,0k≤g^i≤1k \min_{\hat{g}_i} \hat{g}_i^T (\gamma B_{x_i} + \mu B_{p_i}) \hat{g}_i, \quad \text{s.t.} \quad \hat{g}_i^T 1_k = 1, \quad 0_k \leq \hat{g}_i \leq 1_k$
  其中 $B_{x_i}, B_{p_i}$ 是Gram矩阵，使用QP求解器。
更新 $P$ ：
- 子问题： $min⁡P∥P−H+β(1n×l−Q)1+β∥F2+μ1+β∥PT−PTG∥F2\min_P \left\| P - \frac{H + \beta (1_{n \times l} - Q)}{1 + \beta} \right\|_F^2 + \frac{\mu}{1 + \beta} \left\| P^T - P^T G \right\|_F^2$ ，s.t. $1_q = 1_n, 0_{n \times l} \leq P \leq Y$ 。
- 向量化后转化为QP： $min⁡p⃗12p⃗T(C+2(1+β)μInl×nl)p⃗−2(1+β)μo⃗Tp⃗\min_{\vec{p}} \frac{1}{2} \vec{p}^T (C + \frac{2(1 + \beta)}{\mu} I_{nl \times nl}) \vec{p} - \frac{2(1 + \beta)}{\mu} \vec{o}^T \vec{p}$ ，s.t. 行和约束，使用QP求解器。其中 $C$ 是块对角矩阵基于 $I - G)(I - G)^T$ 。

复杂度：总体为 $O(n^3 + n q l + n l + n k^3 + n^3 q^3)$ 。

主要的贡献点

首次引入互补分类器：在PLL文献中首次提出利用非候选标签诱导互补分类器，该分类器提供准确的负信息，帮助消除候选集中的假阳性标签。
对抗项设计：提出对抗损失 $β∥1n×l−P−Q∥F2\beta \left\| 1_{n \times l} - P - Q \right\|_F^2$ ，将互补分类器的信息传递到普通分类器，指导消歧过程。
自适应图正则化：引入动态图 $G$ 捕捉特征和标签空间的局部一致性，提升鲁棒性。
实验验证：在4个控制UCI数据集和6个真实世界数据集上显著优于SOTA方法（如PL-AGGD、SURE等），并通过消融研究证实互补分类器和图结构的有效性。胜率达92.1%以上，且对超参数鲁棒。

算法的实现过程

算法实现基于伪代码（Algorithm 1），采用迭代优化框架。输入：部分标签数据 $D$ ，超参数 $α,β,μ,γ,λ\alpha, \beta, \mu, \gamma, \lambda$ ，测试样本 $x^*$ 。输出： $x^*$ 的预测标签 $y^*$ 。

初始化：
- 初始化 $G$ ：求解 $min⁡G∥XT−XTG∥F2\min_G \left\| X^T - X^T G \right\|_F^2$ ，s.t. $GT1n=1n,0n×n≤G≤UG^T 1_n = 1_n, 0_{n \times n} \leq G \leq U$ （基于 $k$ -NN的重构）。
- 初始化 $P$ ：求解 $min⁡P∥PT−PTG∥F2\min_P \left\| P^T - P^T G \right\|_F^2$ ，s.t. $1_q = 1_n, 0_{n \times l} \leq P \leq Y$ 。
- 初始化 $Q$ ：对于每个 $q_{ij}$ ，如果 $y_{ij}=0$ 则 $qij=1/(l−∑jyij)q_{ij}=1/(l - \sum_j y_{ij})$ ，否则 $q_{ij}=0$ 。
迭代优化（重复直到收敛）：
- 更新 $A, b$ ：使用公式(16)计算普通分类器的核参数。
- 更新 $A^,b^\hat{A}, \hat{b}$ ：使用公式(17)计算互补分类器的核参数。
- 更新 $Q$ ：使用公式(19)的阈值操作。
- 更新 $G$ ：列-by-列QP求解公式(22)。
- 更新 $P$ ：QP求解公式(25)。
预测新样本：
- 对于未见样本 $x^*$ ，计算预测：
  $y^* = \arg \max_k \sum_{i=1}^n \frac{1}{2\lambda} A_{ik} K(x^*, x_i) + b_k$

实现细节：在实践中，使用QP求解器（如CVXOPT或Gurobi）处理QP子问题。核矩阵 $K$ 预计算以加速。收敛标准可设为目标函数变化小于阈值或最大迭代次数。实验中 $k = 10$ ，超参数通过网格搜索选择。

SIGKDD-2023《Complementary Classifier Induced Partial Label Learning》

核心思想

目标函数

目标函数详细的优化过程

主要的贡献点

算法的实现过程

网站公告

今日签到

热门文章

最新发布