在大语言模型(LLM)的知识体系中,Token 和 模型参数 是两大核心基础概念,同时还需结合输入处理、训练逻辑、核心机制等维度,形成完整的概念框架。
一、核心数据处理单元:Token(词元)
Token 是大语言模型处理文本的最小基本单位,是连接“原始文本”与“模型可理解数据”的桥梁,并非传统意义上的“字”或“词”。
1.定义与本质
Token 是通过“分词算法”(如 BPE、SentencePiece、WordPiece)对文本进行拆分后得到的中间单元,平衡了“语义完整性”和“处理效率”:
英文场景:常拆分为“子词(Subword)”,例如 “unhappiness” 会拆分为 un
+ happiness
,“apple” 若常见则保留为单个 Token;
中文场景:因无天然空格分隔,多拆分为“单字”或“常用词组”,例如 “人工智能” 可能拆分为 人工
+ 智能
,“机器学习” 可能直接作为单个 Token。
2.核心作用
统一输入格式:将任意长度的文本拆分为标准化 Token 序列,便于模型按固定逻辑处理;
解决“未登录词”问题:对于生僻词(如“ChatGPT”早期未收录时),可拆分为更小的已知 Token(如 Chat
+ G
+ PT
),避免模型“不认识”而无法处理;
关联上下文窗口:模型的“上下文长度”(如 GPT-4 的 8k/32k Token)本质是“单次可处理的 Token 数量上限”,直接决定模型能理解的文本长度(例如 1k Token 约对应 750 个英文单词或 500 个中文字符)。
3.实际影响
成本与速度:API 调用(如 OpenAI)通常按“Token 数量”计费,文本越长、Token 越多,成本越高;同时,Token 数量也影响模型推理速度,越多则处理越慢。
二、模型核心构成:模型参数(Model Parameters)
模型参数是大语言模型“存储知识、学习规律”的核心载体,相当于人类大脑中的“神经连接权重”,直接决定模型的能力上限。
1.定义与本质
参数是模型在训练过程中“自主学习并固定”的数值,主要包括两类:
权重(Weights):连接不同神经元(层)的数值,用于计算“输入信号的重要性”(例如“猫”和“狗”在语义向量中的权重差异);
偏置(Biases):调整神经元输出的偏移量,帮助模型拟合更复杂的语言规律。
这些参数存储在模型的“神经网络层”中(如Transformer的注意力层、全连接层),参数量通常以“亿(10⁸)”或“千亿(10¹¹)”为单位计量。
2.核心作用
承载“语言知识”:训练过程中,模型通过调整参数,将“文本数据中的语法、语义、逻辑、常识”编码到参数中(例如“猫”的参数会关联“哺乳动物、有毛、会喵喵叫”等特征);
决定模型能力规模:参数量是衡量模型“大小”的核心指标,通常参数量越大,模型能学习的知识越丰富、处理复杂任务的能力越强(但需结合优质数据和训练策略):
小模型:如 LLaMA-7B(70亿参数),适合轻量化场景(如本地部署、简单问答);
大模型:如 GPT-3(1750亿参数)、GPT-4(约1万亿参数),可处理复杂任务(如代码生成、逻辑推理、多模态理解)。
3.关键注意点
“参数量≠能力上限”:参数量需与“训练数据质量/规模”“训练策略”匹配——若数据量不足,即便参数量大,模型也可能“学不到有效知识”(即“过拟合”或“欠拟合”);
存储与计算需求:参数量直接决定模型的存储成本(如 1750 亿参数的 GPT-3,若用 4 字节精度存储,需约 700GB 存储空间),也影响推理时的算力需求(参数量越大,需越多 GPU 资源支持)。
三、其他核心概念
除了 Token 和模型参数,以下概念是理解 LLM 工作逻辑的关键,且与前两者紧密关联:
1.上下文窗口(Context Window)
定义:模型单次输入中,能“记住并关联”的最大 Token 序列长度(即“上下文长度”),例如 GPT-4 Turbo 的 128k Token 窗口,可处理约 10 万字的文本。
与 Token 的关联:上下文窗口的“长度限制”本质是“Token 数量限制”——若输入文本拆分后的 Token 数超过窗口长度,模型会“截断”或“遗忘”部分信息,导致理解偏差(如长文档后半段内容无法关联前半段)。
2.预训练(Pre-training)与微调(Fine-tuning)
预训练:模型“从零到一”学习通用语言规律的阶段——用海量无标注文本(如互联网文章、书籍)训练,通过调整“模型参数”,让模型掌握语法、语义、常识(例如“太阳从东方升起”“下雨需要打伞”);
核心:此阶段会确定模型参数的“基础框架”,是模型具备通用能力的前提。
微调:在预训练模型基础上,用“特定领域数据”(如医疗文献、法律条文)进一步调整部分参数,让模型适配具体场景(例如将通用 LLM 微调为“医疗问答模型”);
核心:微调不改变模型的“通用能力”,仅优化参数在特定领域的适配性,成本远低于重新预训练。
3.注意力机制(Attention Mechanism)
定义:LLM 实现“理解上下文关联”的核心机制,能让模型在处理某个 Token 时,“关注”输入序列中其他相关 Token 的信息(类似人类阅读时“重点看关键句”)。
与参数的关联:注意力机制的“关注权重”由模型参数计算得出——例如处理“它追着球跑”中的“它”时,模型会通过参数计算,让“它”更关注前文提到的“狗”(而非“球”或其他词),从而正确理解指代关系。
4.生成式能力(Generative Capability)
定义:LLM 基于输入 Token 序列,按概率生成新 Token 序列的能力(如写文章、编代码、答问题),是区别于传统“分类式模型”的核心特征。
与 Token 的关联:生成过程是“逐 Token 预测”——模型先根据输入 Token 预测第一个输出 Token,再将“输入 Token + 第一个输出 Token”作为新输入,预测第二个输出 Token,以此类推,直到生成完整文本(如回答“什么是 AI?”时,模型会逐 Token 生成“AI 是……”)。
5.温度(Temperature)与 Top-k/Top-p
定义:控制 LLM 生成文本“随机性”的参数,用于调整输出的“多样性”或“确定性”:
温度(Temperature):数值越高(如 1.0),生成的 Token 概率分布越平缓,随机性越强(适合创意写作,如写诗、编故事);数值越低(如 0.1),概率分布越集中,输出越确定(适合事实性问答,如“北京是哪个国家的首都”);
Top-k/Top-p:通过“筛选候选 Token”控制随机性——Top-k 只从概率前 k 个 Token 中选,Top-p 只从概率累积和达 p(如 0.9)的 Token 中选,避免生成无意义的低概率 Token。
6.提示词(Prompt)
定义:用户输入的“指令或问题”,是引导模型生成目标输出的“信号”,例如“写一封请假条”“解释相对论”。
与 Token 的关联:提示词会先拆分为 Token 序列,作为模型的“输入上下文”,模型再基于这些 Token 生成输出——优质提示词(如包含“角色设定”“输出格式要求”)能让模型更精准地理解需求,本质是“优化输入 Token 的序列逻辑”。
四、核心概念关联图
为了更清晰理解各概念的关系,可总结为以下逻辑链:
原始文本 → 拆分为 Token → 输入到“上下文窗口” → 模型通过“注意力机制”调用“模型参数”处理 Token → 预训练/微调优化参数 → 按“温度/Top-k”规则逐 Token 生成输出 → 响应提示词需求
通过以上概念,可完整覆盖 LLM 从“输入处理”到“模型计算”再到“输出生成”的全流程逻辑,也是理解模型能力、局限(如上下文长度限制、参数规模瓶颈)的基础。