作者:禅与计算机程序设计艺术
1.背景介绍
在机器学习领域,有一种被称作“弱监督”(weak supervision)的方法,这种方法并不直接给出标签信息,而是利用已有的无监督数据来提高训练数据的质量。该方法能够更好地处理未标注的数据集、更好地解决样本稀疏的问题、增强模型的泛化能力等。
通常情况下,弱监督方法有两种主要的类型:
“半监督”(Semi-supervised):即用部分有标注的数据来训练模型,然后用部分无监督的数据来辅助训练模型。这种方法可以达到较好的分类性能。
“域适应”(Domain Adaptation):即利用源域(source domain)的数据进行训练,利用目标域(target domain)的数据来提升模型的鲁棒性。这种方法可以有效地将不同领域的知识迁移到新的数据上。
在过去几年里,随着人工智能的飞速发展,弱监督学习也成为一个重要研究方向。其中一些代表性工作有:
· 自然语言处理中的无监督语法特征学习:研究者们提出了使用无监督语法特征学习方法对自然语言进行标注的工作。通过对大规模语料库的分析,学习到未登录词的各种句法结构特性,进而用来进行序列标注任务。
· 深度学习中的无监督表示学习:很多工作都致力于利用无监督学习来从非结构化或半结构化数据中学习有用的特征表示。利用无监督表示学习方法,人们可以使用非结构化文本数据来构建图像描述符,从而提升计算机视觉任务的效果。
· 图像分割中的弱监督学习:借助深度网