大模型技术原理 - 基于Transformer的预训练语言模型-EW帮帮网

注：此文章内容均节选自充电了么创始人，CEO兼CTO陈敬雷老师的新书《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】

文章目录

《GPT多模态大模型与AI Agent智能体》系列二
- 1.2基于Transformer的预训练语言模型
- - 更多技术内容
总结

《GPT多模态大模型与AI Agent智能体》系列二

1.2基于Transformer的预训练语言模型

在自然语言处理领域，预训练语言模型已经成为了一种强大的工具，它们能够捕捉语言的深层结构和语义信息，从而在各种NLP任务中取得显著的性能提升。其中，基于Transformer的预训练语言模型更是引领了这场技术革命。ChatGPT作为当前最先进的对话生成模型之一，其强大的基础模型正是采用了Transformer架构。
Transformer模型的出现，彻底改变了传统NLP模型处理序列数据的方式。传统的循环神经网络（Recurrent Neural Network，RNN）和卷积神经网络（Convolutional Neural Network，CNN）在处理序列数据时，往往受到计算效率和长距离依赖问题的困扰。而Transformer模型通过引入自注意力机制，实现了对序列中任意位置信息的全局捕捉，从而有效地解决了这些问题。
Transformer模型的核心组件包括编码器和解码器。编码器负责将输入序列（如文本）转换为一组中间表示，这些中间表示捕捉了输入序列的深层语义信息。解码器则根据这些中间表示生成目标序列，完成诸如文本生成、翻译等任务。编码器和解码器都由多个堆叠的层组成，每一层都包含注意力模块和前馈神经网络模块。
在编码器中，自注意力模块允许模型在处理某个位置的信息时，能够参考序列中其他所有位置的信息。这种机制使得模型能够捕捉序列中长距离的依赖关系，克服了传统RNN在处理长序列时容易出现的梯度消失和梯度爆炸问题。同时，通过多头注意力机制，模型还能够从不同的子空间捕捉不同的依赖关系，进一步提高了模型的表达能力。
解码器在生成目标序列时，也采用了类似的自注意力机制。此外，解码器还引入了一个额外的编码器-解码器注意力模块，用于在生成每个目标词时，参考编码器的输出。这种机制使得解码器能够根据输入序列的语义信息生成合理的目标序列。
基于原始的Transformer模型，研究者们进一步衍生出了三类预训练语言模型：编码预训练语言模型、解码预训练语言模型和编解码预训练语言模型。这些模型针对不同的任务需求进行了优化和扩展，使得Transformer模型在自然语言处理领域的应用更加广泛和深入。
编码预训练语言模型主要关注于从输入序列中提取有用的信息，生成高质量的中间表示。这类模型通常采用掩码语言建模（Masked Language Modeling，MLM）的方式进行训练。在训练过程中，模型会接收一个部分词被掩码的输入序列，并尝试预测被掩码的词。通过这种方式，模型能够学习到丰富的语言知识和上下文信息。BERT（Bidirectional Encoder Representations from Transformers）是编码预训练语言模型的典型代表，它在各种NLP任务中都取得了显著的性能提升。
解码预训练语言模型则专注于根据中间表示生成目标序列。这类模型通常采用语言建模（Language Modeling，LM）的方式进行训练。在训练过程中，模型会接收一个完整的输入序列，并尝试预测下一个词。通过这种方式，模型能够学习到语言的生成规律和模式。GPT系列模型是解码预训练语言模型的代表，它们不仅在文本生成任务中表现出色，还在其他NLP任务中取得了不错的性能。
编解码预训练语言模型则结合了前两者的优点，能够同时处理编码和解码任务。这类模型通常采用序列到序列（Sequence-to-Sequence，Seq2Seq）的方式进行训练。在训练过程中，模型会接收一个输入序列和一个目标序列，并尝试根据输入序列生成目标序列。通过这种方式，模型能够学习到从输入到输出的映射关系。T5和BART等模型是编解码预训练语言模型的代表，它们在机器翻译、摘要生成等任务中取得了显著的性能提升。
ChatGPT所依赖的基础模型正是在这些预训练语言模型的基础上进行了进一步的优化和改进。ChatGPT采用了类似于GPT系列的解码预训练语言模型架构，但在模型规模、训练数据以及训练策略等方面进行了显著提升。通过更大规模的模型和更丰富的训练数据，ChatGPT能够更好地捕捉语言的深层结构和语义信息，从而生成更加自然、流畅和准确的文本响应。
此外，ChatGPT还引入了一些创新性的技术来提升模型的性能。例如，它采用了混合精度训练技术来加速训练过程并减少计算资源消耗；同时，它还采用了多种正则化技术来防止过拟合，提高模型的泛化能力。这些技术的引入使得ChatGPT能够在保持高性能的同时，降低训练和部署的成本。
总的来说，基于Transformer的预训练语言模型为自然语言处理领域的发展注入了新的活力。它们通过捕捉语言的深层结构和语义信息，为各种NLP任务提供了强大的支持。ChatGPT作为其中的佼佼者，以其出色的性能和广泛的应用前景，成为了当前自然语言处理领域的热点之一。随着技术的不断进步和创新，基于Transformer的预训练语言模型将在未来继续发挥重要作用，推动自然语言处理领域的发展迈向新的高度。
1.2.1编码预训练语言模型
在自然语言处理领域，预训练语言模型已经成为推动技术发展的重要力量。其中，编码预训练语言模型（Encoder-based Pretrained Language Models，EPLM）以其独特的架构和高效的性能，在多种NLP任务中展现出显著的优势。
编码预训练语言模型的核心在于其独特的预训练机制。这些模型通常仅利用原始Transformer模型中的编码器部分进行预训练，而不需要解码器部分。这种设计不仅简化了模型结构，还提高了模型的计算效率。预训练的核心任务是掩码语言建模。在这个任务中，模型会接收一个部分单词被掩码（用特殊字符[MASK]替换）的句子作为输入。然后，模型需要基于未被掩码的上下文信息，预测被遮掩的单词。这种预训练方式使得模型能够学习到丰富的上下文信息，并提升其在各种自然语言处理任务中的性能。
BERT是编码预训练语言模型中的杰出代表。BERT通过在大规模语料库上进行预训练，学习到了语言的内在规律和模式。它的预训练任务包括掩码语言建模和下一句预测任务。掩码语言建模任务使得BERT能够充分利用上下文信息来预测被遮掩的单词，而下一句预测任务则帮助BERT理解句子间的逻辑关系。通过这两个任务的联合训练，BERT成功地捕捉到了语言的深层结构，为下游任务提供了强大的特征表示。然而，BERT虽然强大，但也存在一些不足之处。例如，BERT的参数量较大，导致训练成本较高；同时，BERT在处理长文本时可能存在性能下降的问题。为了克服这些挑战，研究者们提出了多种优化方法。
ALBERT（A Lite BERT）是BERT的一个轻量级版本。它通过分解词向量矩阵和共享Transformer层参数来减少模型参数个数。具体来说，ALBERT将词嵌入矩阵分解为两个较小的矩阵，这大大减少了模型参数量。同时，通过共享Transformer层的参数，ALBERT进一步减少了冗余参数，提高了模型的效率。这些优化使得ALBERT在保持与BERT相近性能的同时，显著降低了训练成本。
RoBERTa（A Robustly Optimized BERT Pretraining Approach）是另一个对BERT进行优化的模型。相较于BERT，RoBERTa在预训练阶段采用了更多的语料以及动态掩码机制。通过使用更大规模的语料库进行预训练，RoBERTa能够学习到更丰富的语言知识和模式。动态掩码机制则通过在不同的训练轮次中掩码不同的单词，增加了模型的鲁棒性，防止模型过拟合到特定的掩码模式。此外，RoBERTa还去掉了BERT中的下一句预测任务，因为实验发现这个任务对于下游任务的性能提升并不显著。同时，RoBERTa采用了更大的批大小，这有助于加速训练过程并提高模型的稳定性。
除了BERT、ALBERT和RoBERTa之外，编码预训练语言模型领域还在不断发展壮大。新的模型和技术不断涌现，为NLP领域带来了更多的可能性。例如，ELECTRA模型采用了生成器-判别器的架构，通过让判别器区分原始句子和生成器生成的句子来进行预训练。这种架构使得ELECTRA在保持高性能的同时，减少了训练时间和计算资源的需求。
随着计算能力的提升和大数据的不断发展，编码预训练语言模型所依赖的语料库也在不断扩展和丰富。这使得模型能够学习到更加全面和深入的语言知识，进一步提升其性能。同时，随着多模态数据的普及和应用，多模态预训练模型也逐渐成为研究的热点。这些模型能够同时处理文本、图像、音频等多种模态的信息，为跨模态任务提供了强大的支持。
然而，尽管编码预训练语言模型已经取得了显著的进展，但仍存在一些挑战和限制。首先，模型的参数量仍然较大，需要消耗大量的计算资源和时间进行训练和推理。这限制了模型在资源有限的环境中的应用。其次，模型在处理长文本和复杂语言现象时可能仍存在一定的困难。此外，如何将预训练模型的知识有效地迁移到下游任务中，以及如何平衡模型的性能和效率，也是当前面临的挑战。
为了克服这些挑战，研究者们正在不断探索新的方法和技术。一方面，他们尝试通过模型压缩和剪枝等技术来减少模型的参数量，提高模型的效率。另一方面，他们也在研究如何设计更加有效的预训练任务和方法，以更好地捕捉语言的内在规律和模式。此外，还有一些研究者将注意力转向了多模态预训练模型，试图将文本、图像、音频等多种模态的信息进行融合，以进一步提升模型的性能和应用范围。
总之，编码预训练语言模型是自然语言处理领域的重要技术之一。通过在大规模语料库上进行预训练，这些模型学习到了语言的内在规律和模式，并在各种下游任务中展现出强大的性能。随着技术的不断进步和应用的不断拓展，编码预训练语言模型将继续为NLP领域的发展注入新的活力。
未来，可以期待编码预训练语言模型在以下几个方向上进行更深入的研究和应用：
首先，是模型效率与性能的平衡。尽管现有的编码预训练语言模型在性能上已经取得了显著的提升，但其庞大的参数量和计算需求仍然限制了其在实际应用中的广泛部署。因此，研究如何在保持高性能的同时，降低模型的参数量和计算复杂度，将是一个重要的研究方向。例如，通过模型压缩、知识蒸馏等技术，可以尝试在保持模型性能的同时，减少其所需的计算资源。
其次，是跨语言与多模态的应用。随着全球化的加速和多媒体内容的普及，跨语言处理和多模态处理的需求日益凸显。因此，研究如何将编码预训练语言模型应用于跨语言任务，以及如何将文本、图像、音频等多种模态的信息进行融合，将是一个具有挑战性的研究方向。通过构建多语言或多模态的预训练模型，可以更好地处理跨语言或多模态的数据，提升模型在各种复杂场景下的性能。
再次，是模型的解释性与可信赖性。虽然编码预训练语言模型在性能上表现出色，但其内部工作机制仍然是一个黑箱。这使得人们难以理解模型是如何做出决策的，也增加了模型在应用中的不确定性。因此，研究如何提高模型的解释性和可信赖性，将是一个重要且迫切的问题。通过引入可解释性方法、构建可信赖的评估指标等，可以更好地了解模型的工作原理，提升模型在实际应用中的稳定性和可靠性。
最后，是模型在社会与文化方面的应用。语言不仅是沟通的工具，也是文化和社会现象的反映。因此，研究如何将编码预训练语言模型应用于社会与文化分析，将是一个具有深远意义的研究方向。通过挖掘模型中的语言规律和模式，可以更好地理解社会现象、文化传承等问题，为社会科学和人文研究提供新的视角和方法。
和编码预训练语言模型相比，解码预训练语言模型，如GPT系列，则专注于文本的生成。这类模型利用Transformer模型中的解码器部分进行预训练，并通过自回归语言建模任务来学习生成连贯的文本。解码预训练语言模型的优势在于其能够生成自然流畅的文本，并在机器翻译、文本摘要等生成任务中展现出强大的性能。接下来将深入讲解解码预训练语言模型，这也是OpenAI GPT-4用到的核心技术。
1.2.2解码预训练语言模型
解码预训练语言模型（Decoder Pre-trained Language Models，DPLM）是一类专注于解码器部分的预训练语言模型，而GPT（Generative Pretrained Transformer）是这一类模型中的一个具体实例。GPT是OpenAI提出的一种仅包含解码器的预训练模型。这一创新之处在于，它摒弃了以往针对不同任务设计不同模型架构的繁琐方式，转而通过构建一个具备卓越泛化能力的模型，针对性地对下游任务进行微调。GPT系列模型，包括GPT-1、GPT-2、GPT-3、GPT-4，以其独特的方式在自然语言处理领域掀起了一股新的风潮。
1.GPT-1
GPT-1的诞生标志着自然语言处理领域的一大进步。在GPT-1之前，深度学习方法的广泛应用受限于高质量标注数据的稀缺性。而GPT-1巧妙地利用大规模无标注数据为模型训练提供指导，解决了数据标注成本高昂的问题。同时，它也解决了不同任务间表征差异导致的模型泛化难题。GPT-1通过预训练学习到的表征，能够灵活地应用于各种下游任务。
GPT-1结构设计简约而高效，它由12层Transformer Block叠加而成，包括自注意力模块和前馈神经网络模块。为了利用无标注自然语言数据进行训练，GPT-1采用了自左到右的生成式目标函数进行预训练。这一目标函数可以理解为在给定前i-1个token的情况下，对第i个token进行预测。通过这种方式，GPT-1能够深入挖掘自然语言中的语法和语义信息。
在完成了无监督的预训练之后，GPT-1进一步利用有标注的数据进行有监督的微调，以适应特定的下游任务。通过调整模型参数，GPT-1能够在给定输入序列时预测出最接近真实值的标签。这种两步走的训练方法不仅提高了模型在下游任务上的性能，而且使得预训练中获取的知识能够有效地迁移到不同任务中。
GPT-1的提出为自然语言处理领域带来了新的启示。与传统的Word2Vec等预训练方法相比，GPT-1不仅提高了模型的泛化能力，而且通过增大数据量和数据规模，使得模型能够学习到不同场景下的自然语言表示。这使得GPT-1能够在更多样化的任务中发挥出色的作用。GPT-1 原文中的总览图如图1-1所示，（a）图是 GPT-1 的架构以及训练时的目标函数；（b）图是对于不同下游任务上进行微调时模型输入与输出的改变。
在这里插入图片描述

(a) GPT-1架构及训练目标函数（b）模型微调输入与输出的改变
图1-1　GPT 模型架构及微调方式
其中（b）图包含了四种任务：分类、蕴含、相似性、多选题。
分类是自然语言处理中的一项核心任务，涉及将文本数据分配到一个或多个预先定义的类别中。简单来说，分类任务的目标是确定一个文本样本属于哪一个标签或类别。执行分类任务时，研究人员会使用各种机器学习算法，特别是深度学习模型，如卷积神经网络、循环神经网络和Transformer模型等。这些模型能够从文本数据中学习和提取特征，进而做出准确的分类决策。随着技术的进步，分类任务已经从简单的二元分类扩展到了多标签分类，甚至是不平衡数据集上的分类，这些都增加了任务的复杂性和挑战性。
蕴含属于自然语言推理（Natural Language Inference，NLI）的范畴。在这项任务中，模型的目标是判断一个假设（Hypothesis）是否可以从一个前提（Premise）中推导出来。换句话说，就是确定前提和假设之间的关系是否为蕴含关系。在NLP的蕴含任务中，通常会给定一对句子：一个是前提，另一个是假设。模型需要判断这两个句子之间的关系。如果假设完全符合前提的逻辑含义，或者说假设在前提的基础上是必然成立的，那么这对句子之间的关系就被认为是蕴含关系。举个例子，前提可能是“所有猫都是哺乳动物”，而假设可能是“Tom是一只猫”。在这种情况下，假设可以从前提中推导出来，因为如果Tom是一只猫，那么他必然也是一只哺乳动物，所以这两句话之间的关系是蕴含关系。蕴含任务要求模型不仅理解单个句子的意义，还要能够分析和推断两个句子之间的逻辑关系。这对于模型的语义理解和推理能力是一个很高的要求，也是自然语言处理领域的一个重要研究方向。
相似性在自然语言处理中通常指的是衡量两个文本片段间相似度的任务。这项任务涉及到理解和比较两段文本的内容，以确定它们在主题、观点或意义上有多接近。相似性任务在很多自然语言处理应用中都非常重要，比如文档聚类、信息检索、推荐系统、抄袭检测等。在进行相似性任务时，研究者会使用各种算法和技术来量化文本间的相似程度。这可能包括基于词汇重叠的方法，如Jaccard相似系数或余弦相似度；基于语义的方法，如Word2Vec或BERT等预训练的词向量模型；或者是更复杂的深度学习模型，如Siamese网络，它们能够捕获更深层次的语义关系。相似性任务的关键在于准确捕捉文本间的语义关联，而不是仅仅依赖于表面的文字匹配。因此，随着深度学习技术的发展，越来越多的研究开始关注如何通过神经网络模型来提升相似性判断的准确性和鲁棒性。
多选题属于问题回答（Question Answering，QA）范畴。在这种任务中，系统需要从给定的几个选项中选择正确的答案。这种题型广泛应用于教育领域的自动评分系统中，同时也被用作衡量机器学习模型理解和推理能力的标准之一。在多选题任务中，通常会提供一个背景段落，一个问题以及几个候选答案。模型的任务是基于背景段落和问题内容，判断哪个候选答案是正确的。这要求模型不仅要理解文本内容，还要具备一定的逻辑推理能力。例如，在一个阅读理解的多选题中，背景段落可能会描述一个故事情节，问题可能会询问故事中的某个细节，而候选答案则列出了几个可能的选项。模型需要正确解读背景段落，理解问题的意图，并从候选答案中选择最合适的那个。多选题任务的难点在于，正确答案的选择往往不是直接从文本中提取出来的，而是需要通过综合分析和推理来确定。因此，除了基础的文本理解能力外，模型还需要具备高级的语义推理能力。
总体来说，GPT-1旨在构建一个通用的自然语言表征，通过简单的调整，就能适应广泛的任务需求。如今回顾，GPT-1之所以取得巨大成功，主要得益于两大因素。首先，2017年Transformer模型的提出，使得模型能够捕捉自然语言中的长距离依赖关系，突破了以往模型在处理复杂语言结构时的局限。其次，GPT模型在预训练过程中充分利用了庞大的数据量以及更多的模型参数，从而能够从大规模语料库中学习到以往模型难以触及的深层次知识。而任务微调作为通用预训练与下游任务之间的桥梁，使得利用单一模型解决多种问题成为可能，为自然语言处理领域开辟了新的道路。
2.GPT-2
与GPT-1通过预训练-微调范式解决多个下游任务的方式不同，GPT-2更加聚焦于Zero-shot设定下语言模型的能力。在Zero-shot设定中，模型无需进行任何训练或微调，即不再根据下游任务的数据进行参数优化，而是凭借给定的指令自行理解并完成任务。
GPT-2在模型架构上并未对GPT-1进行颠覆性的创新，而是在GPT-1的基础上引入了任务相关信息作为输出预测的条件。这一调整使得GPT-1中的条件概率p(output|input)转变为p(output|input;task)。同时，GPT-2继续扩大了训练数据规模和模型本身的参数量，从而在Zero-shot设置下对多个任务展现了巨大的潜力。
尽管GPT-2在模型架构上没有显著的改变，但其将任务作为输出预测条件的引入，为Zero-shot设置下实现多个任务提供了全新的思路。这种思想实际上传达了一个深刻的观念：只要模型足够庞大，学到的知识足够丰富，任何有监督任务都可以通过无监督的方式来完成。换言之，任何任务都可以被视为一种生成任务。这一思想在后续的模型中得到了延续，为自然语言处理领域的发展注入了新的活力。
2.GPT-3
GPT-3继续沿用了GPT-2的模型和架构，但为了深入探索模型规模对性能的影响，研究团队训练了8个不同大小的模型。其中，最为引人注目的便是那个拥有1750亿参数的庞然大物——GPT-3。GPT-3的显著特点在于其庞大的规模。这种庞大不仅体现在模型本身的巨大参数量上，它拥有96层Transformer Decoder Layer，每一层都配备了96个128维的注意力头，单词嵌入的维度更是高达12，288维。同时，GPT-3在训练过程中所使用的数据集规模也达到了惊人的45TB。得益于如此庞大的模型规模和海量的数据，GPT-3在多个任务上均展现出了卓越的性能。
GPT-3延续了GPT-2将无监督模型应用于有监督任务的思想，并在Few-shot、One-shot和Zero-shot等设置下的任务表现均获得了显著提升。然而，尽管GPT-3取得了令人瞩目的成果，但它也存在一些限制。例如，由于其天然的从左到右生成式学习机制，GPT-3的理解能力仍有待提高。此外，对于一些简单的数学题目，GPT-3仍无法完美应对，同时还面临着模型性能提升所带来的社会伦理问题。
值得注意的是，GPT-3并没有对模型架构进行根本性的改变，而是通过不断增加训练数据量和模型参数量来增强模型效果。这导致了训练代价的剧增，使得普通机构和个人难以承担大型语言模型的训练甚至推理成本，从而大大提高了模型推广的门槛。
5.GPT-4
GPT-4是OpenAI公司推出的第四代GPT模型，相比于前几代模型，GPT-4在多模态处理能力上有显著提升，不仅限于处理文本信息，还能理解和解析图像、视频等非文本数据，并将这些视觉信息与文本信息相结合，生成连贯、准确且富有洞见的文本输出。该模型延续了Transformer架构的设计，通过大规模预训练和优化，能够预测文档中下一个令牌的概率，从而实现文本生成和理解等功能。
在训练过程中，GPT-4可能采用了更为先进的训练技术，比如人类反馈强化学习（Reinforcement Learning from Human Feedback，RLHF），通过收集和整合人类对模型生成内容的反馈来进一步调整和优化模型的输出质量，使其更符合人类价值观和期望。
另外，GPT-4在各种专业和学术基准测试上表现卓越，不仅在自然语言处理任务上有所突破，还在处理跨学科知识理解、多语言翻译等方面取得了显著成就，部分测试成绩甚至超越了大多数人类测试者。尽管如此，GPT-4同样面临着模型规模扩大带来的潜在风险和挑战，如可靠性问题、上下文理解的局限性以及安全性和隐私保护等方面的问题。因此，在实际应用中，需要谨慎评估并采取适当措施以确保模型的安全有效使用。
在大规模预训练后，GPT-4通过人类反馈强化学习进一步微调，从而在诸如模拟律师资格考试等复杂任务中达到顶尖人类水平，排名在前10%的高分段。人类反馈强化学习是一种混合型训练方法，主要用于提高人工智能系统的性能，特别是在那些期望行为需要高度对齐于人类价值观、道德规范和社会期望的场景中，例如大型语言模型。人类反馈强化学习结合了强化学习和监督学习的思想，通过收集人类对AI系统行为的反馈来指导模型的学习过程。在对语言模型进行人类反馈强化学习训练时，大致步骤如下：
（1）初步训练：首先，模型通过无监督或自我监督的方式在大规模文本数据集上进行预训练，学习语言的基本结构和模式。
（2）偏好采样：接下来，邀请人类标注员对模型生成的多个候选输出进行评价或排序，选出最符合期望标准的答案或行为。这一步形成的标注数据构成了强化学习中的奖励信号。
（3）强化学习阶段：使用标注好的样本作为训练数据，设置强化学习环境，其中模型扮演智能体的角色。智能体执行动作（生成文本响应），依据人类标注的偏好等级获得奖励或惩罚。
通过迭代更新智能体的策略（即模型参数），使得模型更倾向于生成得到高奖励的文本输出。
（4）微调：在强化学习循环中，模型不断优化其策略以最大化长期累积奖励，从而实现对齐人类偏好的行为。
通过这种方法，人类反馈强化学习可以使原本基于概率生成的模型更加精准地按照人类所认同的标准行动，减少有害或不符合预期的输出，并在诸如对话、问答、创作等领域提升模型的适用性和可靠性。ChatGPT就是应用人类反馈强化学习取得显著成效的一个实例，它在理解复杂指令和生成恰当、有用且符合社会规范的文本方面表现出色。更多GPT-4的细节将在第3章深入讲解。
1.2.3基于编解码架构的预训练语言模型
在预训练语言模型的领域中，基于编解码架构的模型因其独特的优势而备受关注。编解码架构通常结合了编码器和解码器两部分，从而能够同时处理语言理解任务和生成任务。这种架构既继承了编码器在全局信息捕获上的优势，又通过解码器实现了灵活的可变长度生成。
编码器部分通常采用双向编码，使得模型能够同时利用输入序列的前后文信息，因此在语言理解任务上展现出卓越的性能。然而，由于编码器无法直接进行可变长度的生成，它并不适用于生成任务。
与此相反，解码器部分采用单向自回归模式，使得模型能够按照从左到右的顺序逐步生成文本。这种机制使得解码器能够完成生成任务，但由于信息只能单向流动，模型在生成过程中只能依赖“上文”信息，而无法利用“下文”信息，从而缺乏双向交互的能力。为了弥补这一不足，一些模型采用了序列到序列的架构来融合编码器和解码器的优势。在这种架构中，编码器负责提取输入序列中有用的表示，然后将其传递给解码器以辅助并约束生成过程。这样，解码器在生成文本时既能够利用全局的上下文信息，又能够保持单向生成的能力。
BART模型是编解码架构的典型代表。BART的具体结构由一个双向的编码器和一个单向的自回归解码器组成。在预训练阶段，BART采用去噪重构的方式，即输入含有各种噪声的文本，然后由模型进行去噪并重构原始文本。在解码器部分，BART通过执行交叉注意力机制来聚合编码器中提取的关键信息。BART在维基百科和BookCorpus等大型数据集上进行训练，数据量达到了惊人的160GB。
除了BART之外，T5模型也是基于编解码架构的预训练语言模型中的佼佼者。T5模型提出了一种新的范式，将所有自然语言处理任务统一成“文本到文本”的生成任务。通过在输入之前加入提示词，T5模型能够实现用一个单一的模型解决多个任务，包括机器翻译、文本摘要、问答和分类等。为了支持这种多任务迁移学习的能力，T5模型在谷歌专门构造的C4数据集上进行训练，该数据集包含了海量的高质量和多样化的文本数据。
然而，随着语言模型的深入研究，模型参数的增加虽然能够显著提高性能，但也带来了运算量的剧增。为了解决这一问题，Switch Transformers模型引入了混合专家网络（Mixture-of-Experts，MoE）的条件运算思想。通过在Transformer的全连接层中引入条件运算，Switch Transformers实现了在不增加推理时运算量的前提下，增加模型的尺寸和容量。这种设计使得模型能够在保持高效推理的同时，进一步提升性能。
基于编解码架构的预训练语言模型结合了编码器和解码器的优势，既能够处理语言理解任务，又能够完成生成任务。通过不断的研究和创新，这些模型在性能和应用范围上不断取得新的突破，为自然语言处理领域的发展注入了新的活力。

总结

此文章有对应的配套新书教材和视频：

【配套新书教材】
《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）【陈敬雷编著】【清华大学出版社】
新书特色：《GPT多模态大模型与AI Agent智能体》（跟我一起学人工智能）是一本2025年清华大学出版社出版的图书，作者是陈敬雷，本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章，从大模型技术原理切入，逐步深入大模型训练及微调，还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体，从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面，本书提供了丰富的案例分析，如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人，以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用，也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读，也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统，既有理论知识的深入讲解，也有大量的实践案例和代码示例，能够帮助学生在掌握理论知识的同时，培养实际操作能力和解决问题的能力。通过阅读本书，读者将能够更好地理解大模型技术的前沿发展，并将其应用于实际工作中，推动人工智能技术的进步和创新。

【配套视频】

GPT多模态大模型与AI Agent智能体书籍本章配套视频 - 第1章大模型技术原理【陈敬雷】
视频特色： 前沿技术深度解析，把握行业脉搏
揭秘 DeepSeek、Sora、GPT-4 等多模态大模型的技术底层逻辑，详解 Transformer 架构如何突破传统神经网络局限，实现长距离依赖捕捉与跨模态信息融合。
对比编码预训练（BERT）、解码预训练（GPT 系列）及编解码架构（BART、T5）的技术差异，掌握大模型从 “理解” 到 “生成” 的核心逻辑。
实战驱动，掌握大模型开发全流程
提示学习与指令微调：通过 Zero-shot、Few-shot 等案例，演示如何用提示词激活大模型潜能，结合 LoRA 轻量化微调技术，实现广告生成、文本摘要等场景落地（附 ChatGLM3-6B 微调实战代码）。
人类反馈强化学习（RLHF）：拆解 PPO 算法原理，通过智谱 AI 等案例，掌握如何用人类偏好优化模型输出，提升对话系统的安全性与实用性。
智能涌现与 AGI 前瞻，抢占技术高地
解析大模型 “智能涌现” 现象（如上下文学习、思维链推理），理解为何参数规模突破阈值后，模型能实现从 “量变” 到 “质变” 的能力跃升。
前瞻通用人工智能（AGI）发展趋势，探讨多模态模型（如 Sora）如何推动 AI 从 “单一任务” 向 “类人智能” 进化，提前布局未来技术赛道。

推荐算法系统实战全系列精品课【陈敬雷】
视频特色：首先推荐系统不等于推荐算法，更不等于协同过滤。推荐系统是一个完整的系统工程，从工程上来讲是由多个子系统有机的组合，比如基于Hadoop数据仓库的推荐集市、ETL数据处理子系统、离线算法、准实时算法、多策略融合算法、缓存处理、搜索引擎部分、二次重排序算法、在线web引擎服务、AB测试效果评估、推荐位管理平台等，每个子系统都扮演着非常重要的角色，当然大家肯定会说算法部分是核心，这个说的没错，的确。推荐系统是偏算法的策略系统，但要达到一个非常好的推荐效果，只有算法是不够的。比如做算法依赖于训练数据，数据质量不好，或者数据处理没做好，再好的算法也发挥不出价值。算法上线了，如果不知道效果怎么样，后面的优化工作就无法进行。所以AB测试是评价推荐效果的关键，它指导着系统该何去何从。为了能够快速切换和优化策略，推荐位管理平台起着举足轻重的作用。推荐效果最终要应用到线上平台去，在App或网站上毫秒级别的快速展示推荐结果，这就需要推荐的在线Web引擎服务来保证高性能的并发访问。这么来说，虽然算法是核心，但离不开每个子系统的配合，另外就是不同算法可以嵌入到各个子系统中，算法可以贯穿到每个子系统。
从开发人员角色上来讲，推荐系统不仅仅只有算法工程师角色的人就能完成整个系统，需要各个角色的工程师相配合才行。比如大数据平台工程师负责Hadoop集群和数据仓库，ETL工程师负责对数据仓库的数据进行处理和清洗，算法工程师负责核心算法，Web开发工程师负责推荐Web接口对接各个部门，比如网站前端、APP客户端的接口调用等，后台开发工程师负责推荐位管理、报表开发、推荐效果分析等，架构师负责整体系统的架构设计等。所以推荐系统是一个多角色协同配合才能完成的系统。
下面我们就从推荐系统的整体架构以及各个子系统的实现给大家深度解密来自一线大型互联网公司重量级的实战产品项目！！！

自然语言处理NLP原理与实战视频教程【陈敬雷】
视频特色：《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理，以及源码级别的应用操作实战，直接讲解自然语言处理的核心精髓部分，自然语言处理从业者或者转行自然语言处理者必听视频！

人工智能《分布式机器学习实战》视频教程【陈敬雷】
视频特色：视频核心内容有互联网公司大数据和人工智能、大数据算法系统架构、大数据基础、Python编程、Java编程、Scala编程、Docker容器、Mahout分布式机器学习平台、Spark分布式机器学习平台、分布式深度学习框架和神经网络算法、自然语言处理算法、工业级完整系统实战（推荐算法系统实战、人脸识别实战、对话机器人实战）。

上一篇：《GPT多模态大模型与AI Agent智能体》系列一》大模型技术原理 - 大模型技术的起源、思想
下一篇：DeepSeek大模型技术系列五》DeepSeek大模型基础设施全解析：支撑万亿参数模型的幕后英雄

大模型技术原理 - 基于Transformer的预训练语言模型

文章目录

《GPT多模态大模型与AI Agent智能体》系列二

1.2基于Transformer的预训练语言模型

更多技术内容

总结

网站公告

今日签到

热门文章

最新发布