TensorFlow深度学习实战——Transformer模型评价指标

发布于:2025-06-21 ⋅ 阅读:(15) ⋅ 点赞:(0)

0. 前言

可以使用多种类型的指标评估 Transformer 模型。在本节中,我们将学习一些用于评估 Transformer 的关键因素,即质量、规模和服务成本,通常,需要在这些指标间进行权衡。

1. 质量

Transformer 模型的质量 (Quality) 可以通过一系列可用的数据集进行衡量,接下来,将介绍一些常用的数据集。

1.1 GLUE

通用语言理解评估 (General Language Understanding Evaluation, GLUE) 基准是一个用于训练、评估和分析自然语言理解系统的资源集合。GLUE 包含:

  • 九个基于已有数据集的句子或句子对语言理解任务的基准,旨在覆盖不同的数据集规模、文本类型和难度等级
  • 一个诊断数据集,旨在评估和分析模型在自然语言中发现的各种语言现象方面的表现
  • 一个公共排行榜,用于跟踪基准测试的性能,以及一个用于可视化模型在诊断集上表现的仪表盘

下图显示了 GLUE 排行榜:

GLUE

1.2 SuperGLUE

近年来,新的预训练和迁移学习模型及方法在一系列语言理解任务中带来了显著的性能提升。GLUE 基准提供了一个单一的数字指标,汇总了在多样化任务上的进展,但最近的基准测试表现已经接近非专业人士的水平,这表明进一步研究的空间有限。
SuperGLUE 是一个以 GLUE 为蓝本的新基准,包含一组更困难的语言理解任务、改进的资源和新的公共排行榜。下图显示了 SuperGLUE 排行榜:

SuperGLUE

1.3 SQuAD

SQuAD 是一个用于评估问答系统的数据集。具体而言,斯坦福问答数据集 (Stanford Question Answering Dataset, SQuAD) 是一个阅读理解数据集,包含由工作者对一组维基百科文章提出的问题,其中每个问题的答案是对应阅读段落中的一段文本,否则该问题可能无法回答。
SQuAD2.0SQuAD1.1 中的 100,000 个问题与超过 50,000 个由工作者编写的无法回答的问题结合在一起,这些无法回答的问题看起来与可回答的问题相似。为了在 SQuAD2.0 上表现良好,系统不仅需要在可能的情况下回答问题,还必须确定何时段落中没有支持答案的内容,并避免回答。

1.4 RACE

RACE (ReAding Comprehension dataset from Examinations) 是一个机器阅读理解数据集,由来自英语考试的 27,933 篇文章和 97,867 个问题组成,主要针对年龄在 1218 岁之间的中国学生。RACE 分为两个子集:RACE-M (中学考试)和 RACE-H (高中考试)。RACE-M 包含 28,293 个问题,RACE-H 包含 69,574 个问题。每个问题都有四个候选答案,其中一个是正确的。RACE 的数据生成过程与大多数机器阅读理解数据集有所不同。与通过启发式方法生成问题和答案不同,RACE 中的问题是由领域专家专门设计的,旨在测试人类的阅读技能。

1.5 NLP-progress

NLP-progress 是一个用于跟踪自然语言处理(NLP)进展的资源库,包括最常见的自然语言处理任务的数据集和当前的最先进模型。该网站旨在跟踪自然语言处理的进展,并提供最常见自然语言处理任务的最先进模型及其对应数据集的概述。NLP-progress 的目标是覆盖传统和核心自然语言处理任务,如依存句法分析和词性标注,以及阅读理解和自然语言推理等任务。

2. 参数规模

上一小节概述了 Transformer 质量指标。本节重点介绍各种 Transformer 架构中使用的参数数量。如下图所示,近年来 Transformer 的规模不断增加。早在 2018 年,BERT 的规模约为 3.4 亿个参数,到 2021 年,T5 达到了 110 亿个参数,而 Megatron 超过了 5000 亿个参数。最近的 Switch Transformer 参数超过了 10000 亿个,并且预计很快会出现具有 100 万亿个参数的模型。确实,有证据表明,模型越大,记忆信息和泛化的能力越强。然而,训练如此大规模的模型需要大量的计算资源。

模型参数

实际上,训练大模型在云计算成本和二氧化碳排放方面对可持续性有着较大影响:

计算成本

因此,规模并不是提升 Transformer 质量的唯一因素,在实际应用中可能仅带来边际收益,并且需要大量的计算资源进行训练。
2022 年初,出现了一种新趋势,即将大型模型与传统的检索机制结合使用的混合方法 RETRO (Retrieval Enhanced Transformer)。RETRO 语言模型实现了一种基于外部记忆使用的学习方案。DeepMindRETRO 的表现相当于其 25 倍大小的神经网络。GPT-31750 亿个参数,而 RETRO 仅使用了 70 亿个参数。同时,这种方法需要的训练时间、能源和计算能力都较少。

3. 服务成本

模型的服务成本取决于许多因素,且在没有合理假设的情况下很难估算。当然,服务成本与模型中的参数数量有关。此外,提交给模型进行推理的查询次数也是一个因素。然后,还需要考虑云提供商是否管理模型,或模型是否在本地基础设施中运行。MLOps 是开发机器学习模型并将其部署为生产系统的过程,采用 MLOps 的最佳实践可以优化服务成本。

相关链接

TensorFlow深度学习实战(1)——神经网络与模型训练过程详解
TensorFlow深度学习实战(2)——使用TensorFlow构建神经网络
TensorFlow深度学习实战(3)——深度学习中常用激活函数详解
TensorFlow深度学习实战(4)——正则化技术详解
TensorFlow深度学习实战(5)——神经网络性能优化技术详解
TensorFlow深度学习实战(6)——回归分析详解
TensorFlow深度学习实战(7)——分类任务详解
TensorFlow深度学习实战(8)——卷积神经网络
TensorFlow深度学习实战(12)——词嵌入技术详解
TensorFlow深度学习实战(13)——神经嵌入详解
TensorFlow深度学习实战(14)——循环神经网络详解
TensorFlow深度学习实战(15)——编码器-解码器架构
TensorFlow深度学习实战(16)——注意力机制详解
TensorFlow深度学习实战(21)——Transformer架构详解与实现
TensorFlow深度学习实战(22)——从零开始实现Transformer机器翻译
TensorFlow深度学习实战——Transformer变体模型


网站公告

今日签到

点亮在社区的每一天
去签到