什么是 Agent?
一个 Agent 就是能够 理解、思考,并且进行世界交互 的模型系统,并不是纯粹的 prompt 返回器。
它可以:
- 读取外部数据(文件/API)
- 使用记忆进行上下文维持
- 用类Chain-of-Thought (CoT)方式进行多段思考
- 使用工具(调用接口)进行行动
代表方式:ReAct 模型
ReAct = Reasoning + Acting
使模型在解决问题时的每一步,要么做思考(Thought),要么进行行动(Action)
示例:
- Thought: I want to find the latest news about electric vehicles.
- Action: Search(“latest electric vehicle news”)
通过 prompt 给出格式,展示了没有经过频繁训练的大语言模型也能有效拟真场景操作。
各类系统创造 Agent 方法
单个 LLM + Prompt(如 ReAct、Reflexion)
通过设计精巧的提示(prompt),即使是单个 LLM 也可以模拟出“思考—行动”过程。ReAct 让模型在输出中明确分出 Thought 与 Action,增强推理与操作联动。Reflexion 则在每轮尝试失败后引导模型生成自我反思文本,形成闭环提升效果。
多个 LLM 分工协作(如 AutoGen)
将复杂任务拆解为多个角色协作处理,如规划者(Manager)、执行者(Editor)、校验者(Verifier)。每个角色由单独的 LLM 扮演,协作完成复杂决策流程,提升系统稳定性与准确性。
模型集合动态挑选(如 DyLAN)
DyLAN 不直接用固定模型,而是在任务开始阶段从多个候选 LLM 中动态挑选表现最优的代理组合,形成“专家团队”,提升适应性与任务成功率。
多模态/物理化 Agent(如 WebArena, 机器人)
这类 Agent 不再局限于文本,而具备真实环境交互能力,如浏览网页、操控机器人。WebArena 提供了包含多类网页环境的模拟测试平台,而机器人代理则将自然语言转为实际物理动作。
原型模型 + 记忆系统
- 短期记忆:Prompt 历史,保持上下文一致性
- 长期记忆:结合 RAG 机制,通过查询 BM25 或 embedding 检索外部知识,支撑长期任务或补充事实
原型思考技术
Chain-of-Thought
将复杂问题分解为多个可解释的中间步骤,显著提高模型在数学、逻辑、推理类任务的正确率。
Self-consistency(多数投票)
对同一问题生成多个思维链,再对答案进行投票,选择最一致的那个,从而缓解偶发错误的影响。
Tree of Thought
以树结构展开推理,每一步都有多个“想法”分支,通过搜索与剪枝找到最优解,类似规划或博弈搜索。
Reflexion(反思)
引导模型在任务失败后生成反思文本,结合先前经验进行下一轮尝试,持续优化行为。
行动技术补充:
【Toolformer】
通过在生成文本中嵌入特殊标记,模型可以主动决定是否调用外部 API 工具(如计算器、搜索引擎)。训练中利用自监督方式挖掘出自然文本中的合适调用时机,使模型学会判断何时、如何使用工具以增强准确性。
【WebGPT】
模拟人类浏览网页找答案的行为,模型可发出 Search、Click、Quote 等指令访问网页,并在生成答案时引用证据来源。训练采用 RLHF(人类反馈强化学习),提升回答真实度与信息来源可靠性。
【OpenHands / Anthropic】
让语言模型控制完整的 Shell 环境或图形界面,支持写代码、点击界面元素等多步指令操作,并提供执行日志以便审查调试,是实现实用型 AI Agent 的关键平台。
评价指标 / Benchmark
WebShop
模拟电商购物过程的交互测试环境,考验 Agent 理解复杂购买意图与筛选能力。
WebArena
提供丰富多样的真实网页环境(论坛、电商、文档协作等),评估 Agent 的跨页面长链任务能力。
SWE-Bench
来自 GitHub 的真实编程修复任务集,要求模型根据 Issue 编写补丁代码并通过测试,是对代码生成和理解的严苛挑战。
PrivacyLens
通过构造包含敏感信息的用户交互轨迹,测试模型在隐私保护与泄露防范上的表现,衡量其遵守社会规范的能力。
总结
- Agent = LLM + memory + tools + 世界交互
- ReAct 是一种 prompt-based agent 实现方案
- Acting = 超越 token generation,进行世界操作
- 构建 agent 需要多模态输入、长期记忆、工具集成等支撑能力
- 新型 benchmark 可衡量推理能力、隐私合规性、网页交互能力等关键维度
LLM Agent 是未来智能系统的关键形态,掌握其结构与方法有助于我们构建更可靠、更通用的 AI 应用。