ChatGPT 如何工作——提示工程、对话记忆与上下文管理解析-EW帮帮网

🐇明明跟你说过：个人主页

🏅个人专栏：《深度探秘：AI界的007》 🏅

🔖行路有良友，便是天堂🔖

1、大语言模型（LLM）简述：什么是 GPT

2、GPT 的核心机制：Transformer、注意力机制

3、训练数据与生成原理简介

三、什么是提示工程（Prompt Engineering）

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

2、Token 是如何影响模型记忆的

一、前言

1、ChatGPT 的火爆源自什么

1️⃣ 人类语言的“通才选手” 🧠💬

ChatGPT 是由 OpenAI 开发的 AI 聊天机器人，它最厉害的一点就是——能听懂人话，还会回答得像个人一样！
不管你是问学习问题📚、写作灵感✍️，还是代码调试💻、生活建议🍲，它都能对答如流。

比如你问：“帮我写一篇辞职信。”
它就会立刻“码”出一封超有礼貌、老板都舍不得让你走的辞职信😂。

2️⃣ 全能小助手，什么都能聊 🌐🧩

ChatGPT 不只是会“聊天”那么简单，它还是个全能小助手：

写代码 🧑‍💻
查资料 🔍
辅导学习 📖
写简历、做策划 📄
甚至还能帮你哄对象💘（虽然不保证成功🤣）

3️⃣ 你说它懂，它就懂：操作简单上手快 🖱️📱

不需要培训、不用看说明书，打开网页就能用，像跟朋友聊天一样提问就行了！
很多人第一次用上 ChatGPT，就会说一句：“哇，好神！”🤯

4️⃣ 火爆的“朋友圈效应”🌍🔥

你是不是也被朋友、微博、朋友圈、抖音种草过？
从程序员到学生，从作家到职场人，大家都在用 ChatGPT。
这就是它火起来的秘诀之一：用了就停不下来！ 📢📢📢

5️⃣ 不只是“聪明”，还会“进化” 🚀🧬

ChatGPT 背后的技术在不断升级，比如 GPT-4、GPT-4.5，甚至更强的版本，每一次更新都变得更聪明、更贴近人类思维。

你能感受到它“越来越懂你”——
它不是个死板的机器，而是一个可以“对话进化”的AI伙伴🌱🤝

2、从传统对话系统到大模型革命

💬 从传统对话系统到大模型革命：AI对话的进化史 🧬🚀

你有没有想过：
为什么以前的智能客服总是“答非所问”，而现在的 ChatGPT 却能跟你谈天说地、写诗作画、帮你改代码？

这背后，其实是 AI 对话系统的一场超级进化！🧠⚡
让我们一起穿越时空，看看它是怎么一步步走来的👇

🕰️ 1. 传统对话系统：规则党上线

还记得早期的“人工智障”吗？比如：

👤用户：你好
🤖机器人：你好，有什么可以帮您的？
👤用户：我想查快递
🤖机器人：请问您要咨询什么业务？

🤦‍♂️ 一问三不知，一聊就崩！

那时候的对话系统主要靠“规则匹配+关键词识别”，像“如果用户说查快递 ➡ 回答快递信息”。

这种系统有几个特点：

✅ 简单可控
❌ 死板僵硬
❌ 不懂上下文
❌ 不会“举一反三”

就像一本死记硬背的说明书，一点都不像“聊天”。

🧪 2. 统计学习登场：聪明一点点

后来，出现了更聪明的办法，比如使用机器学习来让对话系统“学会模式”📊。
比如通过训练数据来预测用户下一句可能说什么，再选出最合适的回答。

这一步，系统终于开始“有点脑子了”，但问题依旧：

❌ 理解还不够深
❌ 很依赖大量人工标注数据
❌ 领域限制明显（比如只能用于客服）

🤖 3. 深度学习 + 预训练模型：AI开始“开窍”🧠✨

随着深度学习的崛起，AI 开始使用“神经网络”来处理语言，比如：

Seq2Seq 模型
Transformer 架构（GPT 的祖宗）

这一步，AI 不再死记硬背，而是开始真正“理解语言”的结构和语义🌐。

尤其是预训练模型的出现，像是先让 AI “读几千本书”，然后再教它回答问题，效果大幅提升！

🌟 4. 大模型时代：GPT 横空出世 🦸‍♂️📢

然后，一切都变了。

OpenAI 发布 GPT 系列模型，尤其是 GPT-3 和 GPT-4，引爆了全球热潮🔥：

一个模型，能写作、能翻译、能编程、能考试、还能陪你聊天！

为什么它这么厉害？

✅ 它是 大模型（参数多，训练数据广）
✅ 它用 自回归方式预测文本，理解上下文能力强
✅ 它是 通用型AI，不用专门为每个任务单独训练

这就好比：
从一个“只能查快递的机器人”，变成了一个“万事通的AI搭子”🤝🌍

🧠 5. 从对话系统到通用智能：大模型的野心💡

今天的大模型，已经不是“聊天机器人”那么简单。

它正在变成一个：

🧠 知识库：拥有大量世界知识
🛠️ 工具人：能帮你完成任务（写报告、分析数据、写代码）
🧭 思维助手：参与创意与决策过程
🌐 平台核心：成为操作系统的“新界面”

大模型正把“人机交互”从点击、搜索，带入“自然语言”时代🎙️。

🔚 总结：一句话看懂进化史 📚

从“死板规则” → “聪明一点” → “会学习” → “能聊天” → “什么都会的超级AI”

这就是对话系统的演变，也是大模型革命带来的 技术奇迹✨

二、ChatGPT 背后的技术基础

1、大语言模型（LLM）简述：什么是 GPT

📌 什么是大语言模型（LLM）？

大语言模型（LLM, Large Language Model） 是一种基于深度学习的人工智能模型，它的目标是——

理解和生成“像人一样的自然语言” 🧠💬

你可以把它想象成一个：

📚 读过上亿篇文章的超级语文老师
🧠 能理解语境、推理、联想的聪明大脑
🛠️ 还能写文章、讲笑话、翻译语言、回答问题……

💡 那么，GPT 又是什么？

GPT，全称是 Generative Pre-trained Transformer，中文叫“生成式预训练变换器”。

它是 OpenAI 开发的一种 LLM，是目前最火、最强的模型之一🔥
GPT 是怎么工作的呢？来看下面这个小流程图👇

📖 它是这样训练出来的：

预训练（Pre-trained）：
先读很多很多文本（网络百科、新闻、小说、代码等），建立语言知识储备📘📚
生成式（Generative）：
给它一个开头，它能自动接着写，而且写得有逻辑、有文采✍️✨
Transformer 架构：
它的大脑结构叫“Transformer”，是一种非常擅长处理文本序列的神经网络架构⚙️⚡

2、GPT 的核心机制：Transformer、注意力机制

如果说 GPT 是一位超级聪明的大脑，那它的“脑回路”是怎么构成的呢？
没错，答案就是两个关键词：

Transformer + 注意力机制（Attention）

🎯 1. 什么是 Transformer？

Transformer 是 GPT 的“大脑结构”。它在 2017 年由 Google 提出，一登场就彻底革新了自然语言处理领域。

你可以把它想成：

🧩 处理语言的超级积木系统，每块积木叫一个“层”，多块积木堆在一起，就能学会复杂的语言能力！

它最核心的特点是：

✅ 全部基于 注意力机制（Self-Attention）
✅ 不用像以前那样逐个单词处理（不像 RNN）
✅ 支持并行计算 ⚡（训练更快，理解力更强）

👀 2. 注意力机制是啥？来个比喻！

想象一下你在看一篇文章：

🧍‍♀️你读到一句话：“小明今天心情特别好，因为他……”
你马上会问：“他是谁？”

👉 你会自动把注意力跳回前面的“小明”，这就是人类的“注意力”。

在模型里，“注意力机制”也干类似的事：

每个词在处理时，都会根据“和其他词的关系”来决定自己要“关注”谁、关注多少。

举个简单例子👇：

句子：“猫坐在垫子上。”
模型会思考：

“猫”和“坐”关系很强，🔗
“垫子”和“上”关系很强，🔗
“猫”可能和“垫子”也有关…… 🧩

这些“词与词之间的关联强度”就是由**注意力分数（Attention Weights）**算出来的！

🌟 这让模型不再只看“当前词”，而是能看到“整个句子”，更像人类理解语言的方式！

🏗️ 3. Transformer 的结构是啥样？

一张简图来看：

输入文本 → 编码 → 多头注意力机制 → 前馈神经网络 → 输出

主要组件：

多头注意力（Multi-Head Attention）：从多个角度“看问题”，更全面👁️👁️👁️
前馈网络（Feed Forward）：处理注意力后的信息
位置编码（Positional Encoding）：告诉模型词的顺序📍
残差连接 & Layer Norm：让训练更稳、更快⚙️

GPT 属于 Transformer 的 解码器部分，专注于“生成文本”。

🧠 4. GPT 是如何用这些机制生成语言的？

来看它的思考流程：

📥 你输入一句话：比如“明天北京的天气如何？”
🧮 GPT 用 Transformer 分析这句话，计算每个词之间的关系（注意力）
💡 模型预测下一个最可能的词：“晴” or “多云” or “下雨”…
🔁 不断重复，逐词生成，直到组成完整回答！

它生成的每个词，都是基于上下文 + 注意力机制，推理出来的结果！

3、训练数据与生成原理简介

要让 AI 像人一样说话、写作、编程，背后得经历“魔鬼式训练”💪📚
GPT 是怎么从“只会瞎说的模型”进化为“能写论文、答题、讲段子”的超级大脑的呢？

答案就是两步：

预训练 + 微调（Pretraining + Fine-tuning） 🛠️

📚1、预训练：喂它看整个互联网 🍔

预训练（Pretraining） 就是 GPT 学习语言的第一步。

简单来说，就是让它：

看！超！多！文！本！

🧠 阅读范围包括：

维基百科 📖
新闻报道 🗞️
小说、故事、对话 💬
编程代码 💻
公开网页、书籍等等……

它的目标只有一个：

给定前面一段话，预测下一个词会是什么？

比如训练中看到：

“今天的天气真是太” → 模型预测 “热” 或 “好了”

这就叫做 自回归语言建模（Autoregressive LM），每次都预测下一个最可能的词 🔮

就像填空题玩上百万遍，它慢慢就学会语言的结构和用法了📈

🧪 2、微调：让它更“懂业务”🧑‍🏫

预训练完后，GPT 虽然“会说话”，但还不能直接应用于实际场景。

这时就需要 微调（Fine-tuning）：

在某一类特定任务或场景上，给它一些“正确范例”，让它学会该怎么回答🎯

比如：

微调它学会写简历 📝
微调它处理客服问题 🛎️
微调它变成编程助手 💻
或者让它“安全一点、不乱说”🛡️

🎯 微调可以通过：

监督学习（给出输入和“好答案”）
强化学习（比如 ChatGPT 使用了人类反馈优化：RLHF）

这样 GPT 就能“学以致用”，变得专业且可靠！

🔁 3、生成原理：它是怎么“说”出来的？

GPT 生成语言的方式也很特别：

每一次回答，都是一个“词接词”的过程，像搭积木一样生成整句话！

例子：

🧑你问：“宇宙有多大？”
🤖 GPT 思考后预测：
“宇宙”（你输入的）
→ “是”（预测）
→ “一个”（继续）
→ “极其”（继续）
→ “广袤的”（继续）
→ “空间”……（直到说完整句话）

这就是它“自回归”的生成方式：
每次预测下一个词，直到组成完整回答 📄🧠

🧠 总结一下：

步骤	简述	比喻
预训练	海量阅读，学语言规则	给 AI “上小学”🧒📚
微调	专项训练，学特定任务	送 AI “上职校”🧑‍🔧
生成	词接词地生成回答	AI “一句话一句话地想出来”🧩💬

三、什么是提示工程（Prompt Engineering）

1、提示的定义与作用

💡 什么是提示（Prompt）？它有啥用？

你可能听说过一句话👇

“不会写 Prompt，就玩不转大模型！”

那么，Prompt（提示）到底是啥？
其实——

Prompt 就是你给 GPT 下达的指令、问题或任务描述。
是你与它“说话”的方式，是开启智能能力的钥匙🔑！

🧠 通俗理解：

把 GPT 当成一位无所不知的 AI 助手 🤖，你得告诉它：

你想让它干嘛？（任务）
怎么干？（格式、风格）
有什么限制？（不准胡说八道😅）

🗣️ 比如你说：

“帮我写一首关于春天的诗，用古风，四句，押韵。”

这就是一个很清晰的 Prompt。GPT 会根据你的提示，认真写诗✍️🌸

🧠 小提示 = 大能力！

不同的提示语，会让 GPT 呈现出完全不同的能力表现！

举个例子：

🟡 普通提示：

“写一封道歉信。”

🟢 高质量提示：

“你是一个 HR，请你帮我写一封道歉信，语气诚恳但不卑微，原因是错发了面试时间，语言简洁大方，字数不超过 150 字。”

👀 是不是感觉后者更靠谱？这就是 Prompt 的魔力！

2、提示工程的核心技巧

🎭 1. 角色设定（Role Prompting）

✅ 让 AI “带入角色”，思维更贴近任务场景！

🗣️ 比如：

“你是一位经验丰富的医生，请用通俗语言解释一下 X 光检查是什么。”

💡 效果：

输出更专业 ✅
语气贴近人设 ✅
更好理解你的预期 ✅

📌 小技巧：你可以加上角色的背景信息、性格、说话风格，让回答更贴近真实人物！

📦 2. 格式控制（Output Formatting）

✅ 想要表格？列表？JSON？Markdown？Prompt 里直接说！

🗣️ 示例：

“请将以下信息整理为 Markdown 表格，包含姓名、年龄、城市。”

或者：

“以 JSON 格式输出一篇人物简介，字段包括 name、age、description。”

📌 小技巧：

加上字段名、格式要求（如缩进、大小写）
多加一句 “不要输出额外说明文字”，避免杂乱输出 🧼

🧩 3. Few-shot Prompting（少量示例）

✅ 给几组示例，模型就能“学着模仿”你的风格或任务！

🗣️ 比如：

输入：天气很好  
输出：今天阳光明媚，适合外出游玩！

输入：今天下雨了  
输出：阴雨绵绵，记得带伞哦！

输入：天空阴沉  
输出：

💡 GPT 就能照着模仿你的回答风格，补全新的内容！

📌 小技巧：示例越贴合你的目标，效果越稳。可以加个“Instruction”先说明任务。

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

你是不是也曾惊叹：

“哇！ChatGPT 怎么知道我刚才说了啥？还能接着聊！”🤯

这就是它的“对话记忆能力”在起作用啦！

那它到底是怎么记住你的话的呢？我们一起来看看👇

🧩 不是“记忆”，而是“上下文窗口”！

首先要澄清一个误解：

ChatGPT 不会像人一样拥有长期记忆 🧠，它只是能记住你和它目前这次对话的内容（这叫“上下文”）。

✅ 就像你们俩在“聊天记录”中来回看，GPT 是在“读你说过的每一句话”来理解你的问题。

💡 这个能力来自于它的核心机制 —— Transformer 模型中的 Attention 机制，能把之前的对话重点“关注”起来。

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

🎯 一图看懂

记忆类型	📦 作用	🧭 持续时间	📋 记住什么	🧽 是否可清除
🧠 短期记忆（上下文窗口）	让对话“连贯”，理解上下文	仅限当前对话	你说过的话、问题、上下文	自动清除（对话结束即忘）
🗃️ 长期记忆（用户信息）	个性化服务，记住你的偏好	跨对话持续有效	你是谁、做什么、喜欢什么	✅ 可手动删除和修改

🧠 短期记忆：上下文窗口的魔法 🎩

“我还记得你刚才说过……”，这是短期记忆的功劳！

📌 ChatGPT 会在当前对话中“记住”你说过的内容，用于保持对话连贯。

🧵 举个例子：

你：我是一名网络工程师。
你：你推荐哪些入门的网络安全书籍？
GPT：作为一名网络工程师，你可以从《黑客与画家》《The Web Application Hacker's Handbook》开始……

✔️ 它“记住”了你前一句话！
❌ 但一旦你关闭或刷新对话，这些信息就全部消失啦～

🗃️ 长期记忆：ChatGPT“认识你”的秘密档案 📁

“我记得你是搞 Linux 运维的，喜欢用表格格式～”

长期记忆是一种 跨对话的“记住你是谁”的能力，目前仅在部分 ChatGPT 版本中启用（如 ChatGPT Plus）。

💡 它能记住的内容示例：

你叫什么 / 想被怎么称呼（如“叫我小明就行”）
你的职业（运维工程师 / 产品经理 / 博主…）
内容偏好（喜欢 Markdown、精简风格、图文混排等）
写作风格 / 使用语言（中文优先、少用术语等）

✅ 对话更个性化，GPT 会“对号入座”地回答！

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

你可以把它想象成 GPT 的“聊天脑容量”——能装下你这次对话中说过的所有内容。这个容量就叫：

✅ 上下文窗口（Context Window）

💬 举个栗子🌰：

你：我叫小明，是做网络安全的。
你：推荐几本适合入门的书籍。
GPT：小明你好！作为网络安全初学者，可以试试……

GPT 能“记得”你是小明，是做网络安全的，这就是因为你这几句话都还在它的上下文窗口里。

📦 但是！上下文窗口是有限的

🧱 就像白板画图，你画多了就必须擦掉前面的。GPT 也是：

📏 它只能“看到”一定数量的 token（词的片段），超出就“遗忘”。

模型版本	上下文窗口容量（token）	大约能容纳的中文字符数
GPT-3.5	~ 4,096 token	~ 2,000–3,000 字
GPT-4	~ 8k / 32k / 128k	~ 6,000–100,000+ 字
Claude 3	200k+	一整本小说都行📚

⚠️ token ≠ 字符数，中文大约 1 个字 ≈ 1.5–2 token，英文会更小一些。

🧮 为什么不能“无限扩大窗口”？

这是受限于以下几个方面：

1️⃣ 算力和资源限制 💻

每增加一点窗口大小，计算开销就成倍上升（尤其是注意力机制的计算复杂度是 O(n²)）。
比如 GPT-4 128k 模型的成本和响应时间，比普通 8k 模型贵很多！

2️⃣ 模型架构设计限制 🧱

Transformer 架构原生是用固定窗口做注意力计算的。
增大窗口要用更复杂的技术，比如 滑动窗口、稀疏注意力、位置编码重设计 等。

3️⃣ 实用性考虑 📉

很多时候其实不需要“记住整本书”，而是要学会提取关键内容。
所以更长上下文 ≠ 更智能，要看有没有合理摘要和压缩机制。

2、Token 是如何影响模型记忆的

🧩 什么是 Token？

Token 就是模型处理文本的最小单元。

📌 它 ≠ 一个字，也 ≠ 一个词，而是介于之间的“片段”。

示例文本	分词后 token 示例
Hello GPT	`Hello`, `G`, `PT`（或合并为一个 token）
我喜欢你	`我`、`喜欢`、`你`（每个字或词一个 token）

Token 是语言模型的“最小阅读单位”。

📏 不同语言的 token 大致估算：

语言	100 字 ≈ 多少 token
中文	约 150–200 token
英文	约 80–100 token

🧠 Token 如何影响 GPT 的“记忆”？

GPT 的上下文窗口限制的是 token 数量，而不是字数或行数！

🚧 举个例子：

你用 GPT-3.5，它最多能处理 4096 token：

✅ 它能“记住”你在当前对话中说过的：

几千字的文本（约等于几页纸）
多轮对话内容
你贴的文章或代码块

❌ 但是超过 4096 token 后，前面的内容就被“挤出去了”：

GPT：“对不起，我记不清前面你说了啥了……😅”

🧠 Token 的三个重要影响

① 限制模型“记忆”的长度 🧱

超过 token 数就像翻书翻到最后一页，再写就得擦掉第一页。

② 影响回答内容的“长度” ✂️

不只是你的输入，GPT 的输出也占 token：

🧮 示例：

输入 3000 token
那它只能再输出约 1000 token（否则就超了）

③ 决定运行成本 💸

token 数越多：

响应越慢
消耗计算资源越多
你用的 GPT Plus 额度也更快用完（比如 100K tokens = 约 10 万字）

💕💕💕每一次的分享都是一次成长的旅程，感谢您的陪伴和关注。希望这些文章能陪伴您走过技术的一段旅程，共同见证成长和进步！😺😺😺

🧨🧨🧨让我们一起在技术的海洋中探索前行，共同书写美好的未来！！！

ChatGPT 如何工作——提示工程、对话记忆与上下文管理解析

一、前言

1、ChatGPT 的火爆源自什么

2、从传统对话系统到大模型革命

二、ChatGPT 背后的技术基础

1、大语言模型（LLM）简述：什么是 GPT

2、GPT 的核心机制：Transformer、注意力机制

3、训练数据与生成原理简介

三、什么是提示工程（Prompt Engineering）

1、提示的定义与作用

2、提示工程的核心技巧

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

2、短期记忆（上下文窗口） vs 长期记忆（用户信息）

五、上下文管理机制详解

1、什么是上下文窗口？为什么有限

2、Token 是如何影响模型记忆的

网站公告

今日签到

热门文章

最新发布