从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

发布于:2025-09-08 ⋅ 阅读:(21) ⋅ 点赞:(0)

🔥从 GPT 到 LLaMA:解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型(LLM)都长一个样?”
因为它们都有一个共同的“基因”——Decoder-Only 架构

在前面两节中,我们学习了:

  • BERT:Encoder-Only,擅长“理解语言”
  • T5:Encoder-Decoder,统一“理解+生成”

而今天,我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型,也就是当前所有大语言模型(LLM)的“母体”。

GPT-1ChatGPT,从 LLaMAGLM,它们虽然名字不同,但都基于同一个核心架构:仅由 Decoder 堆叠而成的 Transformer

本文将带你深入理解:

  1. Decoder-Only 是什么?
  2. GPT 系列如何一步步引爆 LLM 时代?
  3. LLaMA 和 GLM 又做了哪些关键改进?

准备好了吗?我们出发!


🧬 一、什么是 Decoder-Only 架构?

在原始 Transformer 中,Decoder 本是用于“生成目标语言”的部分,它包含两个注意力机制:

  1. Masked Self-Attention:只能看到前面的 token(防止“偷看答案”)
  2. Encoder-Decoder Attention:接收 Encoder 的语义信息

上图为Decoder-Only 模型的模型架构图,Decoder-Only 模型(如 GPT)做了一个大胆的决定:

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention,自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成(Autoregressive Generation)

  • 输入:“今天天气”
  • 模型预测:“好”
  • 接着输入:“今天天气好”,预测下一个词……
  • 如此循环,生成完整句子。

✅ 优势:简单、高效、可无限生成文本
❌ 缺点:无法双向理解(但大模型通过“体量”弥补了这一点)


🚀 二、GPT:Decoder-Only 的开山鼻祖

1. 模型架构:Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似,但关键区别在于:

组件 GPT 做法
位置编码 使用 Transformer 原始的 Sinusoidal 编码(非可学习)
LayerNorm 采用 Pre-Norm:先归一化再进注意力(更稳定)
注意力机制 仅保留 Masked Self-Attention,无 Encoder 交互
MLP 层 早期用卷积,后期改用全连接

🔍 Pre-Norm 是什么?
在残差连接前做 LayerNorm,能有效缓解梯度消失,适合深层网络。


2. 预训练任务:CLM(因果语言模型)

GPT 使用 CLM(Causal Language Modeling),也就是:

根据前面的词,预测下一个词

例如:

  • 输入:The cat sat on the
  • 输出:mat

这本质上是 N-gram 的神经网络升级版,完全契合人类语言生成习惯。

✅ 优势:

  • 不需要标注数据,直接用文本训练
  • 与下游生成任务(如写作、对话)完全一致

3. GPT 系列的“力大砖飞”之路

模型 参数量 隐藏层 层数 预训练数据 关键突破
GPT-1 0.12B 768 12 5GB 首提“预训练+微调”
GPT-2 1.5B 1600 48 40GB 支持 zero-shot
GPT-3 175B 12288 96 570GB few-shot + 涌现能力
📌 GPT-3 的三大革命:
  1. 参数爆炸:1750亿参数,首次展现“涌现能力”
  2. 上下文学习(In-context Learning):无需微调,只需给几个例子(few-shot)就能学会新任务
  3. 稀疏注意力:应对长文本,提升训练效率

💡 举例:情感分类的 few-shot prompt

判断情感:'这真是个绝佳机会' → 正向(1)
示例:'你太棒了' → 1;'太糟糕了' → 0;'好主意' → 1
问题:'这真是个绝佳机会' → ?

这种“提示即编程”的方式,直接催生了 Prompt Engineering 的兴起。


🐫 三、LLaMA:开源 LLM 的标杆

如果说 GPT 是闭源王者,那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3,成为当前开源 LLM 的事实标准架构

1. 模型架构:GPT 的“优化版”

LLaMA 整体沿用 GPT 架构,但做了多项关键改进:

改进点 说明
RoPE 位置编码 旋转式位置编码,支持超长上下文(8K~32K)
RMSNorm 替代 LayerNorm,训练更稳定
SwiGLU 激活函数 比 ReLU/GELU 更强的非线性能力
GQA(分组查询注意力) 减少 KV Cache,提升推理速度

🔍 GQA 是什么?
将多个注意力头共享 KV 向量,平衡 MQA(单KV)和 MHA(全KV)的性能与效率。


2. LLaMA 系列发展史

版本 参数 上下文 训练数据 亮点
LLaMA-1 7B~65B 2K 1T token 开源,引爆社区
LLaMA-2 7B~70B 4K 2T token 支持对话微调
LLaMA-3 8B~70B 8K 15T token 128K词表,接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。


🇨🇳 四、GLM:中文 LLM 的独特探索

由智谱 AI(Zhipu AI)开发的 GLM 系列,是中国最早开源的大模型之一。

1. 模型架构:Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径:

特点 说明
Post-Norm 残差连接后归一化,增强鲁棒性
单层输出头 减少参数,提升稳定性
GELU 激活函数 平滑非线性,优于 ReLU

⚠️ 注意:主流模型多用 Pre-Norm,但 GLM 认为 Post-Norm 更稳定。


2. 预训练任务:GLM(空白填充)

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM:

  • 随机遮蔽连续一段文本
  • 模型需从上下文预测这段文本,并按顺序生成其中每个 token

例如:

  • 输入:I <MASK> because you <MASK>
  • 输出:love you 和 are a wonderful person

✅ 优势:兼顾理解与生成
❌ 劣势:训练复杂,大模型时代被 CLM 取代

📌 现状:从 ChatGLM2 起,GLM 系列也回归 CLM + GPT 架构。


3. GLM 家族发展

模型 参数 上下文 关键能力
ChatGLM-6B 6B 2K 首个开源中文 LLM
ChatGLM2-6B 6B 32K 支持长文本
ChatGLM3-6B 6B 32K 支持函数调用、代码解释器
GLM-4 未开源 128K 英文性能对标 GPT-4
GLM-4-9B 9B 8K 开源轻量版,支持工具调用

💡 ChatGLM3 开始支持 Agent 开发,可调用工具、执行代码,迈向 AI 自主行动。


🆚 五、三大模型架构对比

模型 架构 预训练任务 是否开源 代表能力
GPT Decoder-Only CLM ❌ 闭源 通用生成、few-shot
LLaMA Decoder-Only CLM ✅ 开源 高效、可定制
GLM Decoder-Only GLM → CLM ✅ 开源 中文强、支持 Agent

🌟 六、Decoder-Only 为何能统治 LLM 时代?

尽管 BERT 和 T5 在 NLU 任务上曾领先,但 Decoder-Only 最终胜出,原因如下:

  1. 生成即王道
    大模型的核心价值是“对话”“写作”“编程”,生成能力比理解更重要。

  2. 任务统一性
    所有任务都可以转化为“输入提示 → 输出答案”,无需复杂微调。

  3. 涌现能力(Emergent Ability)
    当模型足够大时,CLM 训练的模型反而在理解任务上超越 BERT。

  4. 工程友好
    架构简单,易于分布式训练和推理优化。


📣 结语:LLM 的未来,始于 Decoder-Only

从 GPT-1 的默默无闻,到 GPT-3 的横空出世,再到 LLaMA 和 GLM 的开源繁荣,

Decoder-Only 架构 用十年时间证明了:

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今,几乎所有主流 LLM(包括 Qwen、Baichuan、Yi 等)都基于这一架构。

🔁 所以,要理解大模型,你必须先读懂 GPT。

📚 参考资料:

  • 《Language Models are Few-Shot Learners》(GPT-3)
  • 《LLaMA: Open and Efficient Foundation Language Models》
  • 《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》
  • HuggingFace、Meta AI、Zhipu AI 官方文档
  • https://github.com/datawhalechina/happy-llm

网站公告

今日签到

点亮在社区的每一天
去签到