DFER-CLIP——使用创新视觉语言模型进行动态面部表情识别

发布于:2024-04-26 ⋅ 阅读:(26) ⋅ 点赞:(0)

概述

面部表情识别(FER)是一项重要的技术,它在人机交互、驾驶辅助系统和心理健康评估等多个领域都有广泛的应用。FER 的核心目标是将人类面部表情分类为基本的情绪类别,这通常包括快乐、悲伤、惊讶、恐惧、厌恶和愤怒等。

动态面部表情识别(DFER)是 FER 的一个分支,它专注于识别随时间变化的面部表情,这比静态表情识别更具挑战性,因为它需要捕捉到表情的动态变化。早期的 DFER 研究多在受控环境下进行,但近年来,研究者们开始关注在更自然、更真实世界条件下的 DFER,这涉及到处理光线变化、遮挡以及面部表情的复杂性和多样性。

为了提高 DFER 的准确性,研究者们探索了多种方法。其中,视觉语言预学习(V-LP)模型是一个新兴的方向。这类模型通过学习图像和文本之间的语义关系来获得丰富的视觉表征,这可能有助于提高对动态面部表情的识别能力。

本文提出的 “DFER-CLIP” 方法是一种创新的尝试,它结合了动态面部特征和与表情相关的文字描述,以期实现更精确的面部表情识别。CLIP(Contrastive Language-Image Pre-training)是一个著名的 V-LP 模型,它通过对比学习的方式训练,使得模型能够学习到图像和文本之间的对应关系。DFER-CLIP 方法通过整合 CLIP 的优势,可能在理解和识别动态面部表情方面取得更好的效果。

下图可能展示了传统 DFER 方法、基于 CLIP 的方法和 DFER-CLIP 方法之间的差异,包括它们如何处理动态数据和面部表情的特征,以及它们在识别精度上的表现。不过,由于您提供的信息中没有包含具体的图表,无法对图表内容进行详细说明。如果您有图表并需要对其内容进行解释,请提供图表的详细信息或上传图表文件。

cos() 表示余弦相似度。 M 表示可学习的上下文编号。 C 表示表达式的类别。

此外,实验结果表明,通过使用动态特征和可学习文本提示,DFER-CLIP 的性能优于现有的 DFER 方法。这有望在更自然的环境中提高面部表情识别的准确性,并增强人类与计算机之间的相互理解。
论文地址:https://arxiv.org/abs/2308.13382
源码地址:https://github.com/zengqunzhao/dfer-clip

算法框架

DFER-CLIP 提出了一种利用图像和文本破译人类面部表情的创新方法。它由两个主要部分组成:视觉部分和文本部分。视觉部分以 CLIP 图像编码器为基础,引入了一个具有多个变换编码器的模型,以捕捉不同时间段的面部特征。最后,通过可学习的类标记提取视频级面部特征。在文本方面,使用面部行为描述来代替通用类名。此外,还引入了可学习的提示,以便模型在训练过程中为每个面部表情学习适当的上下文信息。

此外,人类的面部表情既有共同的特征,也有独特的特点。例如,快乐和惊讶的表情都有扬眉的动作,而悲伤和愤怒的表情则有低眉和皱额的动作。基于这些相似性和特殊性,DFER-CLIP 将面部表情的动作描述作为文本编码器的输入。具体来说,该方法使用大规模语言模型自动生成上下文化的面部表情描述。这样就能全面描述每个面部表情类别的详细视觉特征。

语言模型的下列输入提示。

  • 问:哪些视觉特征对{类名}的面部表情有用?
  • 答:{类名}面部表情的有用视觉特征包括: …

每个生成的面部表情类别的描述符组合在一起,形成一个综合描述。

数据集

研究使用三个主要数据集来评估面部表情识别的准确性。这些数据集包含了各种真实世界场景中丰富的情绪表达,可以对 DFER-CLIP 的有效性进行广泛验证。

DFEW 数据集包含从全球 1,500 多部电影中收集的 11,697 个视频片段。在专家的指导下,十名注释员将这些视频分为七种基本面部表情(快乐、悲伤、中性、愤怒、惊讶、厌恶和恐惧)。这些视频包含许多具有挑战性的条件,如极端光线、遮挡和不同的头部姿势。数据集分为五个大小相等的部分,并采用五部分交叉验证的方法进行评估。

FERV39k 数据集包含 38,935 个视频片段,是目前最大的野生 DFER 数据集。这些视频片段来自四个场景,包括犯罪、日常生活、演讲和战争等 22 个细分场景,并由 30 位注释者标注了基本面部表情。视频被随机洗牌并分成训练集(80%)和测试集(20%)。

MAFW 数据集包含 10,045 个视频片段,是首个大规模多模态、多标签情感数据库,包含 11 个单一表情类别和 32 个多重表情类别,以及情感描述文本。该数据集还通过五部分交叉验证进行了评估。

这些数据集为了解我们的研究如何应对复杂现实条件下的情感识别挑战提供了宝贵的资源。

实验结果

利用上述三个基准数据集对 DFER-CLIP 进行了消融分析。该分析旨在确定模型的每个组成部分如何影响整体性能。

学习人脸的时间特征对于基于视频的面部表情识别任务非常重要。分析表明,时间模型的引入分别显著提高了 DFER、FERV39k 和 MAFW 数据集的性能。结果如下表所示。

然而,研究发现,增加模型的深度和可训练情境的数量并不一定能改善结果,反而会增加过度学习的风险。结果表明,适当平衡的方法对于实现最佳性能至关重要。

与传统的基于分类器的方法不同,DFER-CLIP 模型还采用了基于文本(无分类器)的训练策略。分析结果表明,与线性探测法和完全微调法相比,所提出的方法在所有数据集上的表现都更好。结果如下表所示。

特别是,即使不使用时态模型,我们的方法也优于基于分类器的方法,甚至在零镜头学习环境中也能取得显著效果。

V-LP 模型可以利用提示来设计无分类器的预测模型,这使得提示工程变得非常重要。与人工设计的"[类别]图片 “和”[类别]表征 "提示相比,我们发现所提出的方法在 DFEW 和 FERV39k 数据集上的表现更好,而在 MAFW 数据集上的表现稍差,但仍有竞争力。结果如下表所示。这表明,基于学习的语境始终能产生更优的结果。

此外,在 DFER-CLIP 中,我们采用的方法是将解释放在提示语的末尾,并使用特定班级的可学习语境。我们对不同的位置和语境共享策略进行了测试,但发现将解释放在最后并使用针对具体班级的语境效果最好。结果如下表所示。

通过这一分析,我们对如何最大限度地提高 DFER-CLIP 模型的准确性和效率有了重要的认识。视频中的情感识别在从日常交流到安全防范等各种应用中发挥着重要作用。我们的研究旨在进一步加快这一领域的技术发展。

此外,还使用三个关键基准–DFEW、FERV39k 和 MAFW,将 DFER-CLIP 模型的性能与最先进的方法进行了比较。每个基准都提供了不同的挑战,是衡量面部表情识别技术准确性和多功能性的重要基准。

在 DFEW 和 MAFW 中的实验与之前的研究一样,使用了五部分交叉验证;在 FERV39k 中,使用了一个训练集和一个测试集。为了提高结果的可靠性和可重复性,使用不同的随机种子对模型进行了三次训练,并将其平均值作为最终结果。

结果如下表 5 所示。

DFER-CLIP 在 UAR(用户平均正确率)和 WAR(加权平均正确率)方面的表现均优于现有方法。具体而言,DFEW 的 UAR 和 WAR 分别提高了 2.05% 和 0.41%,FERV39k 的 UAR 和 WAR 分别提高了 0.04% 和 0.31%,MAFW 的 UAR 和 WAR 分别提高了 4.09% 和 4.37% FERV39k 是目前最大的 DFER 基准,包含 38,935 个视频数据。这些结果尤其值得注意,因为它包含 38,935 个视频数据集。要在大型数据集上取得重大改进是一项极具挑战性的任务。

通过对比分析,我们证实 DFER-CLIP 模型在面部表情识别领域树立了新的标准。性能的提高,尤其是在大型数据集上的性能提高,预示着未来的研究大有可为。

总结

本文提出了一种新的视觉语言模型 DFER-CLIP,用于露天(野外)动态面部表情识别。
在视觉部分,以 CLIP 图像编码器为基础,引入了一个由多个 Transformer 编码器组成的时间模型,模拟随时间变化的面部表情特征。在文本部分,采用了与面部行为相关的面部表情描述符,这些描述符由大规模语言模型(如 ChatGPT)生成。我们还为这些描述符设计了可学习的上下文,以帮助模型在训练过程中学习每个面部表情的相关上下文信息。

广泛的实验证明了 DFER-CLIP 各个组成部分的有效性。此外,所提出的方法在三个基准测试中取得了最先进的结果。