作者:禅与计算机程序设计艺术
1.简介
在自然语言处理领域,对文本、图像等多模态信息进行情感分析已经成为一个重要的研究方向。传统的文本分类方法依赖于特征工程或者使用深度学习模型,而多模态的方法则使用多种模态的信息来提升性能。现有的一些多模态方法均属于无监督学习,即没有使用带标签的数据进行训练,因此准确性无法保证。受限于标签数据的缺乏,很多多模态方法都难以取得很好的效果。另外,传统的多模态方法往往需要组合多个模型,对结果的解释也比较困难。为了解决上述问题,最近出现了一种新的多模态方法——Contrastive Pretraining。通过对两个相似的样本(如文本和图片)进行建模,使得模型能够同时从两个数据中学习到有效特征。因此,Contrastive Pretraining可以作为一种有效的多模态情感分析工具。
2.基本概念术语说明
2.1 数据集
首先介绍一下相关的基本概念和术语。
文本
文本就是一段自然语言信息。通常情况下,我们会将文本分成句子、词、短语等。每一个单独的符号或词组代表着意义上的一个实体。例如,“I love playing football”中的“football”是一个实体,其代表着体育运动。
文本序列
对于每一个文本,都可以用一个向量来表示其含义。每个向量里面的元素都是用数字来表示的。对于一段文本序列,比如一段微博,可以采用如下的方式来表示: