AI架构师必知必会系列:自监督学习在无监督特征学习中的应用

发布于:2023-10-25 ⋅ 阅读:(78) ⋅ 点赞:(0)

作者:禅与计算机程序设计艺术

1.背景介绍

概述

在深度学习的历史上,主要分为两个阶段:训练阶段(Supervised Learning)和预训练阶段(Pre-trained Model)。而自监督学习则是另一个重要的研究方向。

所谓自监督学习,就是通过人工标注数据,训练机器学习模型来解决无监督或半监督问题。自监督学习通常包括无监督分类、聚类、生成模型等。无监督分类中,标签是不可用的,只给定输入数据,通过数据本身的结构和关联性来进行数据的划分。聚类中,同类的样本被划分到一个集群内,不同类的样本被划分到不同的集群。生成模型可以基于已有的数据生成新的数据。

当数据量少或者样本质量不高时,无法手工标注所有数据,那么如何从数据中提取有效信息呢?这就需要无监督特征学习。无监督特征学习的目标是在没有标签的情况下,对原始数据进行分析、挖掘、处理,形成具有代表性的特征。它通常包括PCA、LDA、T-SNE等。PCA降维就是一种无监督特征学习方法。LDA可以将不同类的样本分开,使得同类样本距离更近;而T-SNE可以使用概率分布模型来建模复杂的高维空间,并将高维空间中的数据点映射到低维空间,从而得到相对较高的可视化效果。

但是自监督学习的假设是“每个样本都是由其他样本得到的”,这种强假设限制了自监督学习的能力。例如,自监督模型需要知道输入图片中的物体是否真实存在,否则就无法训练出正确的模型。然而,许多数据集不存在这样的情况——整个数据集中都没有标记,只有原始输入数据。所以,如何融合无监督学习和监督学习才能更好地实现无监督特征学习任务呢?这也是本文要讨论的内容。

2.核心概念与联系<


网站公告

今日签到

点亮在社区的每一天
去签到