ChatGPT 如何工作——提示工程、对话记忆与上下文管理解析

发布于:2025-05-27 ⋅ 阅读:(75) ⋅ 点赞:(0)

🐇明明跟你说过:个人主页

🏅个人专栏:《深度探秘:AI界的007》 🏅

🔖行路有良友,便是天堂🔖

目录

一、前言

1、ChatGPT 的火爆源自什么

2、从传统对话系统到大模型革命

二、ChatGPT 背后的技术基础

1、大语言模型(LLM)简述:什么是 GPT

2、GPT 的核心机制:Transformer、注意力机制

3、训练数据与生成原理简介

三、什么是提示工程(Prompt Engineering)

1、提示的定义与作用

2、提示工程的核心技巧

四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

2、短期记忆(上下文窗口) vs 长期记忆(用户信息)

五、上下文管理机制详解

1、什么是上下文窗口?为什么有限

2、Token 是如何影响模型记忆的


一、前言

1、ChatGPT 的火爆源自什么

1️⃣ 人类语言的“通才选手” 🧠💬

ChatGPT 是由 OpenAI 开发的 AI 聊天机器人,它最厉害的一点就是——能听懂人话,还会回答得像个人一样
不管你是问学习问题📚、写作灵感✍️,还是代码调试💻、生活建议🍲,它都能对答如流。

比如你问:“帮我写一篇辞职信。”
它就会立刻“码”出一封超有礼貌、老板都舍不得让你走的辞职信😂。


2️⃣ 全能小助手,什么都能聊 🌐🧩

ChatGPT 不只是会“聊天”那么简单,它还是个全能小助手

  • 写代码 🧑‍💻

  • 查资料 🔍

  • 辅导学习 📖

  • 写简历、做策划 📄

  • 甚至还能帮你哄对象💘(虽然不保证成功🤣)


3️⃣ 你说它懂,它就懂:操作简单上手快 🖱️📱

不需要培训、不用看说明书,打开网页就能用,像跟朋友聊天一样提问就行了!
很多人第一次用上 ChatGPT,就会说一句:“哇,好神!”🤯


4️⃣ 火爆的“朋友圈效应”🌍🔥

你是不是也被朋友、微博、朋友圈、抖音种草过?
从程序员到学生,从作家到职场人,大家都在用 ChatGPT。
这就是它火起来的秘诀之一:用了就停不下来! 📢📢📢


5️⃣ 不只是“聪明”,还会“进化” 🚀🧬

ChatGPT 背后的技术在不断升级,比如 GPT-4、GPT-4.5,甚至更强的版本,每一次更新都变得更聪明、更贴近人类思维。

你能感受到它“越来越懂你”——
它不是个死板的机器,而是一个可以“对话进化”的AI伙伴🌱🤝


2、从传统对话系统到大模型革命

💬 从传统对话系统到大模型革命:AI对话的进化史 🧬🚀

你有没有想过:
为什么以前的智能客服总是“答非所问”,而现在的 ChatGPT 却能跟你谈天说地、写诗作画、帮你改代码?

这背后,其实是 AI 对话系统的一场超级进化!🧠⚡
让我们一起穿越时空,看看它是怎么一步步走来的👇


🕰️ 1. 传统对话系统:规则党上线

还记得早期的“人工智障”吗?比如:

👤用户:你好
🤖机器人:你好,有什么可以帮您的?
👤用户:我想查快递
🤖机器人:请问您要咨询什么业务?

🤦‍♂️ 一问三不知,一聊就崩!

那时候的对话系统主要靠“规则匹配+关键词识别”,像“如果用户说查快递 ➡ 回答快递信息”。

这种系统有几个特点:

  • ✅ 简单可控

  • ❌ 死板僵硬

  • ❌ 不懂上下文

  • ❌ 不会“举一反三”

就像一本死记硬背的说明书,一点都不像“聊天”。


🧪 2. 统计学习登场:聪明一点点

后来,出现了更聪明的办法,比如使用机器学习来让对话系统“学会模式”📊。
比如通过训练数据来预测用户下一句可能说什么,再选出最合适的回答。

这一步,系统终于开始“有点脑子了”,但问题依旧:

  • ❌ 理解还不够深

  • ❌ 很依赖大量人工标注数据

  • ❌ 领域限制明显(比如只能用于客服)


🤖 3. 深度学习 + 预训练模型:AI开始“开窍”🧠✨

随着深度学习的崛起,AI 开始使用“神经网络”来处理语言,比如:

  • Seq2Seq 模型

  • Transformer 架构(GPT 的祖宗)

这一步,AI 不再死记硬背,而是开始真正“理解语言”的结构和语义🌐。

尤其是预训练模型的出现,像是先让 AI “读几千本书”,然后再教它回答问题,效果大幅提升!


🌟 4. 大模型时代:GPT 横空出世 🦸‍♂️📢

然后,一切都变了。

OpenAI 发布 GPT 系列模型,尤其是 GPT-3 和 GPT-4,引爆了全球热潮🔥:

一个模型,能写作、能翻译、能编程、能考试、还能陪你聊天!

为什么它这么厉害?

✅ 它是 大模型(参数多,训练数据广)
✅ 它用 自回归方式预测文本,理解上下文能力强
✅ 它是 通用型AI,不用专门为每个任务单独训练

这就好比:
从一个“只能查快递的机器人”,变成了一个“万事通的AI搭子”🤝🌍


🧠 5. 从对话系统到通用智能:大模型的野心💡

今天的大模型,已经不是“聊天机器人”那么简单。

它正在变成一个:

  • 🧠 知识库:拥有大量世界知识

  • 🛠️ 工具人:能帮你完成任务(写报告、分析数据、写代码)

  • 🧭 思维助手:参与创意与决策过程

  • 🌐 平台核心:成为操作系统的“新界面”

大模型正把“人机交互”从点击、搜索,带入“自然语言”时代🎙️。


🔚 总结:一句话看懂进化史 📚

从“死板规则” → “聪明一点” → “会学习” → “能聊天” → “什么都会的超级AI”

这就是对话系统的演变,也是大模型革命带来的 技术奇迹


二、ChatGPT 背后的技术基础

1、大语言模型(LLM)简述:什么是 GPT

📌 什么是大语言模型(LLM)?

大语言模型(LLM, Large Language Model) 是一种基于深度学习的人工智能模型,它的目标是——

理解和生成“像人一样的自然语言” 🧠💬

你可以把它想象成一个:

  • 📚 读过上亿篇文章的超级语文老师

  • 🧠 能理解语境、推理、联想的聪明大脑

  • 🛠️ 还能写文章、讲笑话、翻译语言、回答问题……


💡 那么,GPT 又是什么?

GPT,全称是 Generative Pre-trained Transformer,中文叫“生成式预训练变换器”。

它是 OpenAI 开发的一种 LLM,是目前最火、最强的模型之一🔥
GPT 是怎么工作的呢?来看下面这个小流程图👇

📖 它是这样训练出来的:

  1. 预训练(Pre-trained)
    先读很多很多文本(网络百科、新闻、小说、代码等),建立语言知识储备📘📚

  2. 生成式(Generative)
    给它一个开头,它能自动接着写,而且写得有逻辑、有文采✍️✨

  3. Transformer 架构
    它的大脑结构叫“Transformer”,是一种非常擅长处理文本序列的神经网络架构⚙️⚡


2、GPT 的核心机制:Transformer、注意力机制

如果说 GPT 是一位超级聪明的大脑,那它的“脑回路”是怎么构成的呢?
没错,答案就是两个关键词:

Transformer + 注意力机制(Attention)


🎯 1. 什么是 Transformer?

Transformer 是 GPT 的“大脑结构”。它在 2017 年由 Google 提出,一登场就彻底革新了自然语言处理领域。

你可以把它想成:

🧩 处理语言的超级积木系统,每块积木叫一个“层”,多块积木堆在一起,就能学会复杂的语言能力!

它最核心的特点是:

✅ 全部基于 注意力机制(Self-Attention)
✅ 不用像以前那样逐个单词处理(不像 RNN)
✅ 支持并行计算 ⚡(训练更快,理解力更强)


👀 2. 注意力机制是啥?来个比喻!

想象一下你在看一篇文章:

🧍‍♀️你读到一句话:“小明今天心情特别好,因为他……”
你马上会问:“他是谁?”

👉 你会自动把注意力跳回前面的“小明”,这就是人类的“注意力”。


在模型里,“注意力机制”也干类似的事:

每个词在处理时,都会根据“和其他词的关系”来决定自己要“关注”谁、关注多少。

举个简单例子👇:

句子:“猫坐在垫子上。”
模型会思考:

  • “猫”和“坐”关系很强,🔗

  • “垫子”和“上”关系很强,🔗

  • “猫”可能和“垫子”也有关…… 🧩

这些“词与词之间的关联强度”就是由**注意力分数(Attention Weights)**算出来的!

🌟 这让模型不再只看“当前词”,而是能看到“整个句子”,更像人类理解语言的方式!


🏗️ 3. Transformer 的结构是啥样?

一张简图来看:

输入文本 → 编码 → 多头注意力机制 → 前馈神经网络 → 输出

主要组件:

  • 多头注意力(Multi-Head Attention):从多个角度“看问题”,更全面👁️👁️👁️

  • 前馈网络(Feed Forward):处理注意力后的信息

  • 位置编码(Positional Encoding):告诉模型词的顺序📍

  • 残差连接 & Layer Norm:让训练更稳、更快⚙️

GPT 属于 Transformer 的 解码器部分,专注于“生成文本”。


🧠 4. GPT 是如何用这些机制生成语言的?

来看它的思考流程:

  1. 📥 你输入一句话:比如“明天北京的天气如何?”

  2. 🧮 GPT 用 Transformer 分析这句话,计算每个词之间的关系(注意力)

  3. 💡 模型预测下一个最可能的词:“晴” or “多云” or “下雨”…

  4. 🔁 不断重复,逐词生成,直到组成完整回答!

它生成的每个词,都是基于上下文 + 注意力机制,推理出来的结果!


3、训练数据与生成原理简介

要让 AI 像人一样说话、写作、编程,背后得经历“魔鬼式训练”💪📚
GPT 是怎么从“只会瞎说的模型”进化为“能写论文、答题、讲段子”的超级大脑的呢?

答案就是两步:

预训练 + 微调(Pretraining + Fine-tuning) 🛠️


📚1、预训练:喂它看整个互联网 🍔

预训练(Pretraining) 就是 GPT 学习语言的第一步。

简单来说,就是让它:

看!超!多!文!本!

🧠 阅读范围包括:

  • 维基百科 📖

  • 新闻报道 🗞️

  • 小说、故事、对话 💬

  • 编程代码 💻

  • 公开网页、书籍等等……

它的目标只有一个:

给定前面一段话,预测下一个词会是什么?

比如训练中看到:

“今天的天气真是太” → 模型预测 “热” 或 “好了”

这就叫做 自回归语言建模(Autoregressive LM),每次都预测下一个最可能的词 🔮

就像填空题玩上百万遍,它慢慢就学会语言的结构和用法了📈


🧪 2、微调:让它更“懂业务”🧑‍🏫

预训练完后,GPT 虽然“会说话”,但还不能直接应用于实际场景。

这时就需要 微调(Fine-tuning)

在某一类特定任务或场景上,给它一些“正确范例”,让它学会该怎么回答🎯

比如:

  • 微调它学会写简历 📝

  • 微调它处理客服问题 🛎️

  • 微调它变成编程助手 💻

  • 或者让它“安全一点、不乱说”🛡️

🎯 微调可以通过:

  • 监督学习(给出输入和“好答案”)

  • 强化学习(比如 ChatGPT 使用了人类反馈优化:RLHF)

这样 GPT 就能“学以致用”,变得专业且可靠!


🔁 3、生成原理:它是怎么“说”出来的?

GPT 生成语言的方式也很特别:

每一次回答,都是一个“词接词”的过程,像搭积木一样生成整句话!

例子:

🧑你问:“宇宙有多大?”
🤖 GPT 思考后预测:
“宇宙”(你输入的)
→ “是”(预测)
→ “一个”(继续)
→ “极其”(继续)
→ “广袤的”(继续)
→ “空间”……(直到说完整句话)

这就是它“自回归”的生成方式:
每次预测下一个词,直到组成完整回答 📄🧠


🧠 总结一下:

步骤 简述 比喻
预训练 海量阅读,学语言规则 给 AI “上小学”🧒📚
微调 专项训练,学特定任务 送 AI “上职校”🧑‍🔧
生成 词接词地生成回答 AI “一句话一句话地想出来”🧩💬


三、什么是提示工程(Prompt Engineering)

1、提示的定义与作用

💡 什么是提示(Prompt)?它有啥用?

你可能听说过一句话👇

“不会写 Prompt,就玩不转大模型!”

那么,Prompt(提示)到底是啥?
其实——

Prompt 就是你给 GPT 下达的指令、问题或任务描述。
是你与它“说话”的方式,是开启智能能力的钥匙🔑!


🧠 通俗理解:

把 GPT 当成一位无所不知的 AI 助手 🤖,你得告诉它:

  • 你想让它干嘛?(任务)

  • 怎么干?(格式、风格)

  • 有什么限制?(不准胡说八道😅)

🗣️ 比如你说:

“帮我写一首关于春天的诗,用古风,四句,押韵。”

这就是一个很清晰的 Prompt。GPT 会根据你的提示,认真写诗✍️🌸

🧠 小提示 = 大能力!

不同的提示语,会让 GPT 呈现出完全不同的能力表现

举个例子:

🟡 普通提示:

“写一封道歉信。”

🟢 高质量提示:

“你是一个 HR,请你帮我写一封道歉信,语气诚恳但不卑微,原因是错发了面试时间,语言简洁大方,字数不超过 150 字。”

👀 是不是感觉后者更靠谱?这就是 Prompt 的魔力!

 


2、提示工程的核心技巧

🎭 1. 角色设定(Role Prompting)

✅ 让 AI “带入角色”,思维更贴近任务场景!

🗣️ 比如:

“你是一位经验丰富的医生,请用通俗语言解释一下 X 光检查是什么。”

💡 效果:

  • 输出更专业 ✅

  • 语气贴近人设 ✅

  • 更好理解你的预期 ✅

📌 小技巧:你可以加上角色的背景信息、性格、说话风格,让回答更贴近真实人物!


📦 2. 格式控制(Output Formatting)

✅ 想要表格?列表?JSON?Markdown?Prompt 里直接说!

🗣️ 示例:

“请将以下信息整理为 Markdown 表格,包含姓名、年龄、城市。”

或者:

“以 JSON 格式输出一篇人物简介,字段包括 name、age、description。”

📌 小技巧:

  • 加上字段名、格式要求(如缩进、大小写)

  • 多加一句 “不要输出额外说明文字”,避免杂乱输出 🧼


🧩 3. Few-shot Prompting(少量示例)

✅ 给几组示例,模型就能“学着模仿”你的风格或任务!

🗣️ 比如:

输入:天气很好  
输出:今天阳光明媚,适合外出游玩!

输入:今天下雨了  
输出:阴雨绵绵,记得带伞哦!

输入:天空阴沉  
输出:

💡 GPT 就能照着模仿你的回答风格,补全新的内容!

📌 小技巧:示例越贴合你的目标,效果越稳。可以加个“Instruction”先说明任务。


四、对话记忆是怎么实现的

1、ChatGPT 是怎么“记住”你的

你是不是也曾惊叹:

“哇!ChatGPT 怎么知道我刚才说了啥?还能接着聊!”🤯

这就是它的“对话记忆能力”在起作用啦!

那它到底是怎么记住你的话的呢?我们一起来看看👇

🧩 不是“记忆”,而是“上下文窗口”!

首先要澄清一个误解:

ChatGPT 不会像人一样拥有长期记忆 🧠,它只是能记住你和它目前这次对话的内容(这叫“上下文”)。

✅ 就像你们俩在“聊天记录”中来回看,GPT 是在“读你说过的每一句话”来理解你的问题。

💡 这个能力来自于它的核心机制 —— Transformer 模型中的 Attention 机制,能把之前的对话重点“关注”起来。


2、短期记忆(上下文窗口) vs 长期记忆(用户信息)

🎯 一图看懂

记忆类型 📦 作用 🧭 持续时间 📋 记住什么 🧽 是否可清除
🧠 短期记忆(上下文窗口) 让对话“连贯”,理解上下文 仅限当前对话 你说过的话、问题、上下文 自动清除(对话结束即忘)
🗃️ 长期记忆(用户信息) 个性化服务,记住你的偏好 跨对话持续有效 你是谁、做什么、喜欢什么 ✅ 可手动删除和修改

🧠 短期记忆:上下文窗口的魔法 🎩

“我还记得你刚才说过……”,这是短期记忆的功劳!

📌 ChatGPT 会在当前对话中“记住”你说过的内容,用于保持对话连贯。

🧵 举个例子:

你:我是一名网络工程师。  
你:你推荐哪些入门的网络安全书籍?  
GPT:作为一名网络工程师,你可以从《黑客与画家》《The Web Application Hacker's Handbook》开始……

✔️ 它“记住”了你前一句话!
❌ 但一旦你关闭或刷新对话,这些信息就全部消失啦


🗃️ 长期记忆:ChatGPT“认识你”的秘密档案 📁

“我记得你是搞 Linux 运维的,喜欢用表格格式~”

长期记忆是一种 跨对话的“记住你是谁”的能力,目前仅在部分 ChatGPT 版本中启用(如 ChatGPT Plus)。

💡 它能记住的内容示例:

  • 你叫什么 / 想被怎么称呼(如“叫我小明就行”)

  • 你的职业(运维工程师 / 产品经理 / 博主…)

  • 内容偏好(喜欢 Markdown、精简风格、图文混排等)

  • 写作风格 / 使用语言(中文优先、少用术语等)

✅ 对话更个性化,GPT 会“对号入座”地回答!


五、上下文管理机制详解

1、什么是上下文窗口?为什么有限

你可以把它想象成 GPT 的“聊天脑容量”——能装下你这次对话中说过的所有内容。这个容量就叫:

上下文窗口(Context Window)

💬 举个栗子🌰:

你:我叫小明,是做网络安全的。  
你:推荐几本适合入门的书籍。  
GPT:小明你好!作为网络安全初学者,可以试试……

GPT 能“记得”你是小明,是做网络安全的,这就是因为你这几句话都还在它的上下文窗口里。


📦 但是!上下文窗口是有限的

🧱 就像白板画图,你画多了就必须擦掉前面的。GPT 也是:

📏 它只能“看到”一定数量的 token(词的片段),超出就“遗忘”

模型版本 上下文窗口容量(token) 大约能容纳的中文字符数
GPT-3.5 ~ 4,096 token ~ 2,000–3,000 字
GPT-4 ~ 8k / 32k / 128k ~ 6,000–100,000+ 字
Claude 3 200k+ 一整本小说都行📚

⚠️ token ≠ 字符数,中文大约 1 个字 ≈ 1.5–2 token,英文会更小一些。


🧮 为什么不能“无限扩大窗口”?

这是受限于以下几个方面:

1️⃣ 算力和资源限制 💻

  • 每增加一点窗口大小,计算开销就成倍上升(尤其是注意力机制的计算复杂度是 O(n²))。

  • 比如 GPT-4 128k 模型的成本和响应时间,比普通 8k 模型贵很多!

2️⃣ 模型架构设计限制 🧱

  • Transformer 架构原生是用固定窗口做注意力计算的。

  • 增大窗口要用更复杂的技术,比如 滑动窗口、稀疏注意力、位置编码重设计 等。

3️⃣ 实用性考虑 📉

  • 很多时候其实不需要“记住整本书”,而是要学会提取关键内容

  • 所以更长上下文 ≠ 更智能,要看有没有合理摘要和压缩机制。


2、Token 是如何影响模型记忆的

🧩 什么是 Token?

Token 就是模型处理文本的最小单元。

📌 它 ≠ 一个字,也 ≠ 一个词,而是介于之间的“片段”。

示例文本 分词后 token 示例
Hello GPT Hello, G, PT(或合并为一个 token)
我喜欢你 喜欢(每个字或词一个 token)

Token 是语言模型的“最小阅读单位”。

📏 不同语言的 token 大致估算:

语言 100 字 ≈ 多少 token
中文 约 150–200 token
英文 约 80–100 token

🧠 Token 如何影响 GPT 的“记忆”?

GPT 的上下文窗口限制的是 token 数量,而不是字数或行数!

🚧 举个例子:

你用 GPT-3.5,它最多能处理 4096 token

✅ 它能“记住”你在当前对话中说过的:

  • 几千字的文本(约等于几页纸)

  • 多轮对话内容

  • 你贴的文章或代码块

❌ 但是超过 4096 token 后,前面的内容就被“挤出去了”:

GPT:“对不起,我记不清前面你说了啥了……😅”


🧠 Token 的三个重要影响

① 限制模型“记忆”的长度 🧱

  • 超过 token 数就像翻书翻到最后一页,再写就得擦掉第一页。

② 影响回答内容的“长度” ✂️

不只是你的输入,GPT 的输出也占 token:

🧮 示例:

  • 输入 3000 token

  • 那它只能再输出约 1000 token(否则就超了)

③ 决定运行成本 💸

token 数越多:

  • 响应越慢

  • 消耗计算资源越多

  • 你用的 GPT Plus 额度也更快用完(比如 100K tokens = 约 10 万字)


💕💕💕每一次的分享都是一次成长的旅程,感谢您的陪伴和关注。希望这些文章能陪伴您走过技术的一段旅程,共同见证成长和进步!😺😺😺

🧨🧨🧨让我们一起在技术的海洋中探索前行,共同书写美好的未来!!!   


网站公告

今日签到

点亮在社区的每一天
去签到