Orchestrate Latent Expertise: Advancing Online Continual Learning with Multi-Level Supervision and Reverse Self-Distillation
https://arxiv.org/abs/2404.00417
https://github.com/AnAppleCore/MOSE
abstract
这篇文章主要介绍了一种名为Multi-level Online Sequential Experts (MOSE)的创新方法,用于推进在线持续学习。MOSE通过编排潜在专业知识和整合多级监督来解决在线持续学习的挑战。该方法利用反向自蒸馏技术,有效处理顺序到达的内容,与传统的持续学习方法有所不同。
contribution
本文的主要创新点包括以下几个方面:
- 对在线持续学习(OCL)问题进行了深入分析,指出其特定挑战源于观察数据分布的过拟合-欠拟合困境。
- 提出了一种创新方法,利用多级监督和反向自蒸馏,在在线方式下实现适当的收敛。
- 通过实证实验,展示了MOSE相对于现有基线方法的卓越性能,显著提升了OCL的表现。
related work
本文的相关工作部分可以从以下三个方面进行概括:
持续学习(Continual Learning,CL):介绍了持续学习领域的研究现状,包括传统CL方法的分类和特点,如基于架构、正则化和重放的方法。传统CL方法通常需要多轮训练来处理任务,难以应对在线持续学习中的一次性数据流。
在线持续学习(Online Continual Learning,OCL):强调了OCL作为更具挑战性和现实性的学习设置,需要在一次性数据流中进行持续学习。当前OCL方法主要依赖于对旧训练样本的内存重放。然而,从CL到OCL存在着额外的过拟合-欠拟合困境,需要创新方法来解决。
持续学习中的蒸馏(Knowledge Distillation in Continual Learning):介绍了在持续学习中的蒸馏技术,包括保存旧模型的知识来“教导”当前模型的知识蒸馏方法。不同的蒸馏方法包括基于logits、特征和关系的蒸馏方法,用于在不同任务之间传递知识和保持模型的鲁棒性。
method
本文方法MOSE的步骤如下:
多级监督和反向自蒸馏:
- 多级监督:在多个阶段传递监督信号,促进新任务的适当收敛。
- 反向自蒸馏:利用知识蒸馏技术,从专家中获取各种优势,减轻旧任务性能下降的问题。
算法流程:
- 输入:训练数据集 D = { D t } t ≤ T D = \{D_t\}_{t\leq T} D={Dt}t≤T,网络 F F F及其专家 { E i } i ≤ n \{E_i\}_{i\leq n} {Ei}i≤n,数据增强函数Aug(·)。
- 输出:在OCL网络中实现多级监督和反向自蒸馏。
- 算法步骤:
- 对于所有任务 t ≤ T t \leq T t≤T:
- 对于所有传入的批次 B t ∼ D t B_t \sim D_t Bt∼Dt:
- 内存检索: B M ∼ M , B = B t ∪ B M B_M \sim M, B = B_t \cup B_M BM∼M,B=Bt∪BM。
- 数据增强: B ~ = B ∪ A u g ( B ) \tilde{B} = B \cup Aug(B) B~=B∪Aug(B)。
- 计算在 B ~ \tilde{B} B~上的多级监督损失 L M L S L_{MLS} LMLS和反向自蒸馏损失 L R S D L_{RSD} LRSD。
- 使用 L M O S E = L M L S + L R S D L_{MOSE} = L_{MLS} + L_{RSD} LMOSE=LMLS+LRSD更新 F F F, { E i } i ≤ n \{E_i\}_{i\leq n} {Ei}i≤n。
- 更新内存: M ← M , B t M \leftarrow M, B_t M←M,Bt。
- 对于所有传入的批次 B t ∼ D t B_t \sim D_t Bt∼Dt:
- 对于所有任务 t ≤ T t \leq T t≤T:
实验验证:
- 在实证实验中,MOSE方法展示了在学习新样本和保留过去知识方面的显著效果,通过多级专家实现了OCL性能的显著提升。
通过这些步骤,MOSE方法能够有效地处理在线持续学习中的挑战,实现了新任务的适当收敛并保持旧任务性能的稳定。
experiments
本文的实验部分主要包括以下内容:
整体性能:对比MOSE方法与其他基线方法在不同数据集(如Split CIFAR-100和Split Tiny-ImageNet)上的平均准确率(ACC),展示MOSE方法在在线持续学习任务中的优越性。
专家数量:研究不同专家数量对MOSE方法性能的影响,通过实验结果展示专家数量为4时能够平衡模型复杂度和性能。
小内存缓冲区:针对内存容量有限的情况,展示在小内存缓冲区下MOSE方法的性能表现,以及在Split Tiny-ImageNet中使用10个任务配置的结果。
应对过拟合-欠拟合:记录新任务的测试准确率和平均BOF(Best of Forgetting),以评估MOSE方法在应对过拟合-欠拟合困境方面的效果。
通过这些实验,MOSE方法在不同设置下的性能表现得到了验证,展示了其在在线持续学习任务中的优越性和有效性。
valuate metrics
本文实验中使用了以下两个评估指标来评估模型性能:
平均准确率(ACC):ACC是评估模型在学习每个任务后对所有任务的平均准确率。通过计算每个任务的准确率并取平均值,可以评估模型在整个学习过程中的表现。
平均遗忘(AF):AF是评估模型对旧任务遗忘程度的指标。通过计算模型在学习新任务后对旧任务准确率的变化,可以评估模型在学习新任务时是否会导致对旧任务的遗忘。
这些评估指标能够全面评估模型在在线持续学习任务中的性能表现,包括对新任务的学习能力和对旧任务的保持能力。
dataset
本文实验使用了以下两个数据集进行评估:
Split CIFAR-100:
- 任务数:包含10个任务。
- 数据规模:数据集总共包含50000张图像。
- 特点:是CIFAR-100数据集的一个拆分版本,用于模拟在线持续学习任务。
Split Tiny-ImageNet:
- 任务数:包含10个任务。
- 数据规模:数据集规模较小,适用于在内存容量有限的情况下进行实验。
- 特点:是Tiny-ImageNet数据集的一个拆分版本,用于评估模型在更具挑战性的数据集上的性能。
这两个数据集被广泛应用于在线持续学习任务的评估,能够有效地验证模型在不同场景下的性能表现。