【领域泛化】论文介绍《Respecting domain relations Hypothesis invariance for domain generalization》
摘要
在领域泛化中,学习 域不变表示(DIRs) 是普遍的主流方法,但是DIRs完美对齐不同领域的表示是否太过严格,本文提出一种新观点 假设不变表示(HIRs) ,学习域不变后验,放松了DIRs的假设。
在本文中,提出了 表示的充分性,表示的不变性 这两个概念,又证明了DIRs不利于学习域的特有信息,会损害表示的充分性,最后在公共数据集上验证了HIRs在领域泛化中的有效性和竞争性。
核心思想
领域泛化所要解决的
如图所示,有标签空间 Y {Y} Y,领域空间 D {D} D,数据空间 X {X} X,表示空间Z来预测目标域标签空间 Y ^ \hat{Y} Y^,如果 Y {Y} Y与 D {D} D彼此独立,即 P ( Y ∣ D ) = P ( Y ) {P(Y|D) = P(Y)} P(Y∣D)=P(Y),但大多数情况下,由于跨域造成的类分布不平衡,造成 Y {Y} Y依赖于 D {D} D,则发生了 先验偏移 ,如果 P ( Y ∣ D T ) {P(Y|D_{T}) } P(Y∣DT)和 P ( Y ∣ D S ) {P(Y|D_{S}) } P(Y∣DS)显著不同,就会导致模型的泛化性能急剧下降,而 领域泛化(Domain Generalization) 便是研究如何解决该问题。
动机
DIRs启发了领域泛化,DIRs捕捉脱离域特有信息,一般情况下,为了实现表示的不变性,会保持输入的互信息的情况下提取输入的最小信息,而这样强制严格要求源域目标域位于表示空间的同一位置,会丢失很多细节信息,这对于分类任务来说是否是必要的?
不同域分布之间的关系在DIRs方法中会被损害,而这种关系是可以用来推断目标域的。DIRs对齐域之间的数据样本表示,强制不同域的数据表示在表示空间的同一位置,HIRs仅对齐域之间的分类器预测,保留不同域在表示空间的相对位置。
那么,如何进一步证明HIRs确实比DIRs有可取之处,本文提出表示充分性,表示不变性两个概念,来衡量 领域泛化 性能。
表示的充分性
在一般的监督学习中,存在马尔科夫链 X → Z → Y {X \rightarrow Z \rightarrow Y} X→Z→Y,如果存在 P ( Y ∣ X , Z ) = P ( Y ∣ Z ) {P(Y|X,Z) = P(Y|Z)} P(Y∣X,Z)=P(Y∣Z),可以认为Z对X的表示是充分的,即 X {X} X对 Y {Y} Y的互信息等于 Z {Z} Z对 Y {Y} Y的互信息, Z {Z} Z充分提取了 X {X} X对分类任务所需的有用信息,对于 领域泛化 来说,则拓展为:
∀ D d ∈ D , P ( Y ∣ X , Z , D d ) = P ( Y ∣ Z , D d ) {\forall}D_{d}{\in}D, P(Y|X, Z,D_{d}) = P(Y|Z,D_{d}) ∀Dd∈D,P(Y∣X,Z,Dd)=P(Y∣Z,Dd)
表示的不变性
在大多数的 领域泛化 研究中,都反复提出一个概念, 领域不变表示 ,认为不仅在目标域,在所有领域中,存在一种都不变的表示。该概念目前没有明确的定义,本文给出一种分为 类不可知的域不变表示(Class-agnostic DIRs) 和 类条件依赖的域不变表示(Class-conditional DIRs) 两类的分法。
类不可知的域不变表示(Class-agnostic DIRs)
这一类方法不考虑标签,要求对齐不同域的表示空间 Z {Z} Z,诸如MMD,COCAL对齐等方式,是多年前的主流方法。
∀ D d ∈ D , P ( Z ∣ D d ) = P ( Z ) {\forall}D_{d}{\in}D, P(Z|D_{d}) = P(Z) ∀Dd∈D,P(Z∣Dd)=P(Z)
类条件依赖的域不变表示(Class-conditional DIRs)
与 类不可知的与不变表示 相比,该类方法对齐相同类不同域的表示空间 Z {Z} Z。
∀ D d ∈ D , P ( Z ∣ Y , D d ) = P ( Z ∣ Y ) {\forall}D_{d}{\in}D, P(Z|Y,D_{d}) = P(Z|Y) ∀Dd∈D,P(Z∣Y,Dd)=P(Z∣Y)
域不变表示(DIRs)的不足
学习 域不变表示(DIRs) 是在表示的不变性的基础上做了更严格的限制,输入数据中的域特有信息会被损失,域之间的关系无法确立,也就造成了 表示的充分性 的丢失,所以本文提出的HIRs放松了 表示的不变性 的约束,保留了域间的关系信息。
假设不变表示(HIRs)
假设不变表示(HIRs) 使域领域 D {D} D对预测假设 Y {Y} Y保持不变,而不是使特征表示 Z {Z} Z对域领域 D {D} D不变,对齐不同域的表示空间 Z {Z} Z的预测假设 Y {Y} Y,即对于同一个 Y {Y} Y:
∀ D d 1 , D d 2 ∈ D , arg max Y P ( y ∣ D d 1 ) = arg max Y P ( Y ∣ D d 2 ) {\forall}D_{d1}, D_{d2}{\in}D, \argmax\limits_{Y} P(y|D_{d1}) = \argmax\limits_{Y} P(Y|D_{d2}) ∀Dd1,Dd2∈D,YargmaxP(y∣Dd1)=YargmaxP(Y∣Dd2)
HIRs应满足:
∀ D d ∈ D , arg max Y P ( Y ∣ Z , D d ) = arg max Y P ( Y ∣ Z ) {\forall}D_{d}{\in}D, \argmax\limits_{Y} P(Y|Z,D_{d}) = \argmax\limits_{Y} P(Y|Z) ∀Dd∈D,YargmaxP(Y∣Z,Dd)=YargmaxP(Y∣Z)
arg max Y P ( Y ∣ Z , D ) \argmax\limits_{Y} P(Y|Z,D) YargmaxP(Y∣Z,D) 更容易被满足,因为它允许不同域的表示不同,即可以允许 ∃ D d 1 , D d 2 ∈ D , P ( Z ∣ Y , D d 2 ) ≠ P ( Z ∣ Y , D d 2 ) {\exists}D_{d1}, D_{d2}{\in}D, P(Z|Y, D_{d2}) \neq P(Z|Y, D_{d2}) ∃Dd1,Dd2∈D,P(Z∣Y,Dd2)=P(Z∣Y,Dd2)
假设不变表示(HIRs)
论文引用
Wang Z, Loog M, van Gemert J. Respecting domain relations: Hypothesis invariance for domain generalization[C]//2020 25th International Conference on Pattern Recognition (ICPR). IEEE, 2021: 9756-9763.