从 GPT 到 LLaMA：解密 LLM 的核心架构——Decoder-Only 模型-EW帮帮网

🔥从 GPT 到 LLaMA：解密 LLM 的核心架构——Decoder-Only 模型

“为什么所有大模型（LLM）都长一个样？”
因为它们都有一个共同的“基因”——Decoder-Only 架构。

在前面两节中，我们学习了：

BERT：Encoder-Only，擅长“理解语言”
T5：Encoder-Decoder，统一“理解+生成”

而今天，我们要进入真正引爆 AI 浪潮的主角世界——

🚀 Decoder-Only 模型，也就是当前所有大语言模型（LLM）的“母体”。

从 GPT-1 到 ChatGPT，从 LLaMA 到 GLM，它们虽然名字不同，但都基于同一个核心架构：仅由 Decoder 堆叠而成的 Transformer。

本文将带你深入理解：

Decoder-Only 是什么？
GPT 系列如何一步步引爆 LLM 时代？
LLaMA 和 GLM 又做了哪些关键改进？

准备好了吗？我们出发！

🧬 一、什么是 Decoder-Only 架构？

在原始 Transformer 中，Decoder 本是用于“生成目标语言”的部分，它包含两个注意力机制：

Masked Self-Attention：只能看到前面的 token（防止“偷看答案”）
Encoder-Decoder Attention：接收 Encoder 的语义信息

上图为Decoder-Only 模型的模型架构图，Decoder-Only 模型（如 GPT）做了一个大胆的决定：

❌ 去掉 Encoder
❌ 去掉 Encoder-Decoder Attention
✅ 只保留 Masked Self-Attention，自己理解、自己生成

输入文本 → Tokenizer → Embedding → N 层 Decoder → 输出文本

这种架构天生适合 自回归生成（Autoregressive Generation）：

输入：“今天天气”
模型预测：“好”
接着输入：“今天天气好”，预测下一个词……
如此循环，生成完整句子。

✅ 优势：简单、高效、可无限生成文本
❌ 缺点：无法双向理解（但大模型通过“体量”弥补了这一点）

🚀 二、GPT：Decoder-Only 的开山鼻祖

1. 模型架构：Pre-LN + Masked Self-Attention

GPT 的结构与 BERT 类似，但关键区别在于：

组件	GPT 做法
位置编码	使用 Transformer 原始的 Sinusoidal 编码（非可学习）
LayerNorm	采用 Pre-Norm：先归一化再进注意力（更稳定）
注意力机制	仅保留 Masked Self-Attention，无 Encoder 交互
MLP 层	早期用卷积，后期改用全连接

🔍 Pre-Norm 是什么？
在残差连接前做 LayerNorm，能有效缓解梯度消失，适合深层网络。

2. 预训练任务：CLM（因果语言模型）

GPT 使用 CLM（Causal Language Modeling），也就是：

根据前面的词，预测下一个词

例如：

输入：The cat sat on the
输出：mat

这本质上是 N-gram 的神经网络升级版，完全契合人类语言生成习惯。

✅ 优势：

不需要标注数据，直接用文本训练

与下游生成任务（如写作、对话）完全一致

3. GPT 系列的“力大砖飞”之路

模型	参数量	隐藏层	层数	预训练数据	关键突破
GPT-1	0.12B	768	12	5GB	首提“预训练+微调”
GPT-2	1.5B	1600	48	40GB	支持 zero-shot
GPT-3	175B	12288	96	570GB	few-shot + 涌现能力

📌 GPT-3 的三大革命：

参数爆炸：1750亿参数，首次展现“涌现能力”
上下文学习（In-context Learning）：无需微调，只需给几个例子（few-shot）就能学会新任务
稀疏注意力：应对长文本，提升训练效率

💡 举例：情感分类的 few-shot prompt

判断情感：'这真是个绝佳机会' → 正向（1）
示例：'你太棒了' → 1；'太糟糕了' → 0；'好主意' → 1
问题：'这真是个绝佳机会' → ?

这种“提示即编程”的方式，直接催生了 Prompt Engineering 的兴起。

🐫 三、LLaMA：开源 LLM 的标杆

如果说 GPT 是闭源王者，那 LLaMA 就是开源世界的“平民英雄”。

Meta 从 2023 年起陆续发布 LLaMA-1/2/3，成为当前开源 LLM 的事实标准架构。

1. 模型架构：GPT 的“优化版”

LLaMA 整体沿用 GPT 架构，但做了多项关键改进：

改进点	说明
RoPE 位置编码	旋转式位置编码，支持超长上下文（8K~32K）
RMSNorm	替代 LayerNorm，训练更稳定
SwiGLU 激活函数	比 ReLU/GELU 更强的非线性能力
GQA（分组查询注意力）	减少 KV Cache，提升推理速度

🔍 GQA 是什么？
将多个注意力头共享 KV 向量，平衡 MQA（单KV）和 MHA（全KV）的性能与效率。

2. LLaMA 系列发展史

版本	参数	上下文	训练数据	亮点
LLaMA-1	7B~65B	2K	1T token	开源，引爆社区
LLaMA-2	7B~70B	4K	2T token	支持对话微调
LLaMA-3	8B~70B	8K	15T token	128K词表，接近GPT-4

✅ LLaMA-3 的 128K 词表大幅提升多语言和代码能力。

🇨🇳 四、GLM：中文 LLM 的独特探索

由智谱 AI（Zhipu AI）开发的 GLM 系列，是中国最早开源的大模型之一。

1. 模型架构：Post-Norm + 简洁设计

GLM 初期尝试了一条不同于 GPT 的路径：

特点	说明
Post-Norm	残差连接后归一化，增强鲁棒性
单层输出头	减少参数，提升稳定性
GELU 激活函数	平滑非线性，优于 ReLU

⚠️ 注意：主流模型多用 Pre-Norm，但 GLM 认为 Post-Norm 更稳定。

2. 预训练任务：GLM（空白填充）

GLM 的核心创新是 GLM 预训练任务——结合 MLM 和 CLM：

随机遮蔽连续一段文本
模型需从上下文预测这段文本，并按顺序生成其中每个 token

例如：

输入：I <MASK> because you <MASK>
输出：love you 和 are a wonderful person

✅ 优势：兼顾理解与生成
❌ 劣势：训练复杂，大模型时代被 CLM 取代

📌 现状：从 ChatGLM2 起，GLM 系列也回归 CLM + GPT 架构。

3. GLM 家族发展

模型	参数	上下文	关键能力
ChatGLM-6B	6B	2K	首个开源中文 LLM
ChatGLM2-6B	6B	32K	支持长文本
ChatGLM3-6B	6B	32K	支持函数调用、代码解释器
GLM-4	未开源	128K	英文性能对标 GPT-4
GLM-4-9B	9B	8K	开源轻量版，支持工具调用

💡 ChatGLM3 开始支持 Agent 开发，可调用工具、执行代码，迈向 AI 自主行动。

🆚 五、三大模型架构对比

模型	架构	预训练任务	是否开源	代表能力
GPT	Decoder-Only	CLM	❌ 闭源	通用生成、few-shot
LLaMA	Decoder-Only	CLM	✅ 开源	高效、可定制
GLM	Decoder-Only	GLM → CLM	✅ 开源	中文强、支持 Agent

🌟 六、Decoder-Only 为何能统治 LLM 时代？

尽管 BERT 和 T5 在 NLU 任务上曾领先，但 Decoder-Only 最终胜出，原因如下：

生成即王道
大模型的核心价值是“对话”“写作”“编程”，生成能力比理解更重要。
任务统一性
所有任务都可以转化为“输入提示 → 输出答案”，无需复杂微调。
涌现能力（Emergent Ability）
当模型足够大时，CLM 训练的模型反而在理解任务上超越 BERT。
工程友好
架构简单，易于分布式训练和推理优化。

📣 结语：LLM 的未来，始于 Decoder-Only

从 GPT-1 的默默无闻，到 GPT-3 的横空出世，再到 LLaMA 和 GLM 的开源繁荣，

Decoder-Only 架构 用十年时间证明了：

“简单、专注、规模” 才是通向 AGI 的最短路径。

如今，几乎所有主流 LLM（包括 Qwen、Baichuan、Yi 等）都基于这一架构。

🔁 所以，要理解大模型，你必须先读懂 GPT。

📚 参考资料：

《Language Models are Few-Shot Learners》（GPT-3）

《LLaMA: Open and Efficient Foundation Language Models》

《GLM: General Language Model Pretraining with Autoregressive Blank Infilling》

HuggingFace、Meta AI、Zhipu AI 官方文档

https://github.com/datawhalechina/happy-llm

从 GPT 到 LLaMA：解密 LLM 的核心架构——Decoder-Only 模型