Agent AI(3):Agent分类

发布于:2025-07-19 ⋅ 阅读:(14) ⋅ 点赞:(0)

通用Agent领域

基于计算机的行动智能体和通用智能体(GAs)可应用于多种任务。大型基础模型和交互式人工智能领域的最新进展为通用智能体赋予了新的功能。然而,通用智能体要真正对用户产生价值,必须具备自然的交互能力,并且能够在广泛的场景和模态中实现泛化。

多模态智能体人工智能(MMA)是一个即将推出的论坛,旨在促进研究界和产业界之间的交流,以及与智能体人工智能领域更广泛的研究和技术社群的互动。大型基础模型和交互式人工智能领域的最新进展,为通用智能体(GAs)赋予了新的功能,例如在受限环境中预测用户行为和进行任务规划(例如,MindAgent、细粒度多模态视频理解、机器人技术),或者为用户提供整合了知识反馈的聊天伴侣(例如,医疗系统的网站客户支持)。以下将详细介绍具有代表性的研究成果以及最新的代表性研究。

具身Agent

我们的生物大脑存在于身体之中,而我们的身体在不断变化的世界中活动。具身人工智能的目标是创造出像机器人这样的智能体,它们能够通过学习,创造性地解决那些需要与环境交互的复杂任务。尽管这是一项重大挑战,但深度学习领域的重要进展以及ImageNet等大型数据集的日益普及,已经使人工智能在一系列此前被认为难以解决的任务上实现了超越人类的表现。

计算机视觉、语音识别和自然语言处理在语言翻译、图像分类等被动输入输出任务上经历了变革性的突破,而强化学习在游戏等交互式任务中也同样取得了世界级的表现。这些进展为具身人工智能注入了强大动力,让越来越多的研究者能够在打造可与机器交互的智能体方面取得快速进展。

Action Agent

行动智能体指的是需要在模拟物理环境或现实世界中执行物理动作的智能体。特别是,它们需要主动参与与环境的互动。我们根据其应用领域,将行动智能体大致分为两类:游戏人工智能和机器人技术。

在游戏人工智能中,智能体会与游戏环境及其他独立实体进行交互。在这些场景中,自然语言能够使智能体与人类之间实现顺畅的沟通。根据游戏的不同,可能会有特定的任务需要完成,并提供真实的奖励信号。例如,在竞技类游戏中,利用人类对话数据训练语言模型,并结合强化学习的行动策略,能够使智能体达到人类水平的游戏表现。

还有一些场景中,智能体扮演着城镇中普通居民的角色,并不试图去优化某个特定目标。在这类场景中,基础模型发挥着重要作用,因为它们能够通过模仿人类行为,模拟出更为自然的互动。当配备外部记忆时,这些智能体能够进行令人信服的对话、拥有日常日程安排、建立人际关系,并且具备虚拟生活。

Interactive Agent

交互式智能体指的是能够与世界进行交互的智能体,它是一个比行动智能体范围更广的类别。其交互形式不一定需要物理动作,还可能包括向用户传递信息或对环境进行改造。例如,一个具身交互式智能体可能通过对话回答用户关于某个主题的问题,或者像聊天机器人一样帮助用户梳理现有信息。通过将智能体的能力拓展至信息共享领域,智能体人工智能的核心设计和算法能够有效地应用于一系列场景,比如诊断智能体和知识检索智能体。

模拟和环境智能体

人工智能体学习如何在环境中行动的一种有效方法是通过与环境的交互积累试错经验。强化学习(RL)是一种具有代表性的方法,它需要大量的失败经验来训练智能体。尽管存在使用物理智能体的方法,但物理智能体的使用既耗时又昂贵。此外,当在实际环境中失败可能会带来危险时(例如自动驾驶、水下航行器),在物理环境中进行训练往往并不可行。因此,利用模拟器来学习策略是一种常用的方法。

为具身人工智能研究而提出的仿真平台有很多,涵盖从导航到物体操作等多个领域。Habitat就是一个例子,它提供了一个3D室内环境,智能体可以在其中执行各种任务,如导航、遵循指令和回答问题。另一个具有代表性的仿真平台是VirtualHome,它支持人类化身在3D室内环境中进行物体操作。在游戏领域,Carroll等人推出了“Overcooked-AI”,这是一个基准环境,旨在研究人类与人工智能之间的协作任务。与之类似,有几项研究致力于纳入真实的人类干预,而不局限于智能体与环境之间的交互。这些仿真器有助于在涉及智能体和机器人交互的实际场景中学习策略,以及利用人类示范动作进行基于模仿学习(IL)的策略学习。

生成式智能体

大型生成式人工智能模型领域的最新进展有望大幅降低当前交互式内容制作的高昂成本和时间投入,这不仅对大型游戏工作室有利,还能让小型独立工作室有能力打造出超越其现有水平的高质量体验。此外,将大型人工智能模型嵌入沙盒环境中,将使用户能够自行创作体验内容,并以目前难以实现的方式展现自己的创造力。

该智能体的目标不仅限于为场景添加交互式3D内容,还包括:

  • 为物体添加任意行为和交互规则,让用户只需极少提示就能创建自己的虚拟现实(VR)规则。
  • 借助多模态模型GPT-4V,从一张纸上的草图生成完整的关卡几何结构描述。
  • 利用扩散模型为场景中的内容重新赋予纹理。
  • 根据用户简单的提示创建自定义着色器和视觉特效。

多模态模型的分类:
fig1

短期内,一个潜在的应用是虚拟现实(VR)创作领域的故事板/原型制作工具,它能让单个用户以比当前快一个数量级的速度创建体验/游戏的粗略(但可运行)草图。而且,这样的原型还可以借助这些工具进行扩展和优化,使其更加完善。

VR智能体

早期实验已经表明,GPT模型可以在Unity引擎中以少样本模式(无需任何额外微调)调用引擎特定的方法,通过API调用从互联网下载3D模型并将其放置到场景中,还能为这些模型分配行为状态树和动画。这种能力的产生可能是因为在使用Unity的开源游戏代码库中存在类似的代码。因此,GPT模型能够根据用户简单的提示,通过加载大量对象到场景中,构建出丰富的视觉场景。

这类智能体的目标是构建一个平台和一套工具,在大型人工智能模型(包括GPT系列模型以及扩散图像模型)与渲染引擎之间提供高效的接口。我们在此探索两个主要方向:

  • 将大型模型整合到智能体基础设施中的各类编辑器工具中,从而显著加快开发速度。
  • 通过生成符合用户指令的代码并在运行时进行编译,从用户体验层面控制渲染引擎,让用户能够以任意方式编辑他们正在交互的虚拟现实(VR)/模拟内容。

此外,智能体还能帮助用户通过添加新资源、改变环境动态或构建新场景来交互式地修改环境。这种在运行时进行的动态生成过程也可由创作者进行设定,从而让用户的体验保持新鲜感,并随着时间的推移不断发展变化。

知识和逻辑推理Agent

推断并应用知识的能力是人类认知的一个标志性特征,在逻辑推理、理解心智理论等复杂任务中体现得尤为明显。基于知识进行推断,能确保人工智能的响应和行动与已知事实及逻辑原则保持一致。这种连贯性是维持人工智能系统可信度与可靠性的关键机制,在医疗诊断、法律分析等关键应用领域中更是如此。

知识Agent

知识智能体从两个方向对其获取的知识系统进行推理:隐性推理和显性推理。隐性知识通常是GPT系列等大规模语言模型在海量文本数据上训练后所蕴含的知识。这些模型能够生成看似具备理解能力的响应,因为它们会利用训练过程中隐性习得的模式和信息。相反,显性知识具有结构化特征,可直接查询,例如知识库或数据库中的信息——传统上,这类知识通过引用可验证的外部资源来增强人工智能的推理能力。

尽管语言模型取得了诸多进展,但它们所包含的隐性知识是静态的,会随着世界的发展而变得过时。这一局限性使得整合持续更新的显性知识源成为必要,以确保人工智能系统能够提供准确且与时俱进的响应。

逻辑Agent

一般来说,逻辑智能体是系统的一个组成部分,其设计目的是应用逻辑推理来处理数据,或解决特定于逻辑推断或逻辑推理的任务。在GPT-4等大型基础模型的语境中,逻辑智能体指的是专门用于处理逻辑推理任务的特定组件或子模块。这些任务通常包括理解和处理抽象概念、从给定前提中推导出结论,或者解决需要结构化、逻辑性方法的问题。

从广义上讲,GPT-4等基础模型在海量文本语料上进行训练,学会执行多种任务,其中包括那些需要某种形式逻辑推理的任务。因此,它们的逻辑推理能力被整合到整体架构中,通常并不具备一个独立、孤立的“逻辑智能体”。尽管GPT-4及类似模型能够执行涉及逻辑的任务,但其运作方式与人类或传统基于逻辑的系统存在本质区别。它们不会遵循形式化的逻辑规则,也没有对逻辑的明确理解;相反,它们是基于从训练数据中习得的模式来生成响应。因此,它们在逻辑任务中的表现可能令人印象深刻,但也可能因训练数据的性质以及模型设计的固有局限性而出现不一致或受限于特定范围的情况。

用于情感推理的智能体

在许多人机交互场景中,情感理解与共情能力是智能体的重要技能。例如,打造富有吸引力的对话智能体,一个重要目标是让智能体在互动中展现出更强的情感与共情,同时最大限度减少不合时宜或冒犯性的输出。

为推动对话智能体实现这一目标,Chen等人发布了“带共情的神经图像评论(NICE)”数据集,该数据集包含近200万张图像、相应的人类生成评论以及一组人类情感标注。还提出了一种新颖的预训练模型——“图像评论情感生成建模(MAGIC)”,其旨在为图像生成评论。该模型以捕捉风格和情感的语言表征为条件,助力生成更具共情、情感丰富、引人入胜且符合社会规范的评论。实验表明,这种方法能有效训练出更贴近人类、更具吸引力的图像评论智能体。

开发具备共情感知能力的智能体是交互式智能体的一个富有前景的方向。至关重要的是,要让智能体具备对广泛群体的情感理解能力,尤其是考虑到当前许多语言模型在情感理解和共情推理能力方面存在偏见。

神经符号智能体

编译器或者python解释器就是我们最常见的符号系统,以CodeAct为例,把LLM与python解释器结合就是一个神经符号智能体。RAG也算是神经符号AI。

SymAgent

SymAgent是最新的神经符号agent系统,结合了KG与LLM,SymAgent包含两个模块:Agent-Planner和Agent-Executor。Agent-Planner 利用LLM的归纳推理能力从KG中提取符号规则,指导高效的问题分解。Agent-Executor 自主调用预定义的行动工具,整合来自KG和外部文档的信息,解决KG的不完备性问题,此外,SymAgent包含一个自学习框架,包括在线探索和离线迭代策略更新阶段,使智能体能够自动合成推理轨迹并提升性能。

现有研究主要采用检索增强方法或语义解析方法,利用知识图谱数据提升LLM的复杂推理性能:

  • 前者依赖向量嵌入来检索相关子图并将其序列化,作为LM的输入提示(属于RAG系列);
  • 后者则利用LLM把用户的问题生成SQL命令,在知识图谱上执行结构化搜索以获取答案(属于CodeAct的简单版)。

尽管这些方法取得了一定成效,但它们存在显著的局限性。首先,它们仅将知识图谱视为静态的知识仓库,忽视了知识图谱符号结构中蕴含的固有推理模式。这些模式本可以极大地帮助大型语言模型分解复杂问题,并对齐自然语言问题与知识图谱元素之间的语义粒度。例如,在图中,对于 “录制了《I’m Gonna Get Drunk and Play Hank Williams》的人出生在哪里?” 这一问题,从知识图谱中提取的符号规则𝑓𝑒𝑎𝑡𝑢𝑟𝑒𝑑_𝑎𝑟𝑡𝑖𝑠𝑡.𝑟𝑒𝑐𝑜𝑟𝑑𝑖𝑛𝑔𝑠 ( e 1 , e 2 ) (e_{1}, e_{2}) (e1,e2)person.place _𝑜𝑓_𝑏𝑖𝑟𝑡ℎ ( e 2 , e 3 ) (e_{2},e_{3}) (e2,e3) 作为该问题的抽象表示,揭示了问题分解与知识图谱结构模式之间的内在联系。相比之下,基于检索的方法往往存在表面关联问题,会检索到语义相似但无关的信息,甚至是有害的干扰信息,从而导致模型性能下降。此外,这两种方法通常都假设每个问题所需的所有事实三元组都完全包含在知识图谱中,这对于人工构建的知识图谱而言并不现实。当知识图谱未能涵盖必要信息时,基于解析器的方法难以有效执行 SPARQL 查询,从而限制了其提供准确答案或参与复杂推理任务的能力。
fig2

  • SymAgent与现有方法的对比。SymAgent由规划器和执行器组成,借助行动工具库,能自主与知识图谱环境交互以进行推理。

鉴于这些局限性,SymAgent 深入探索KG与LLM的有效融合,以实现它们在复杂推理任务中的协同增强。从根本上讲,实现这种融合面临几个重大挑战:(i)语义鸿沟。要使KG深度参与LLM的推理过程,需要将知识图谱的符号结构与大型语言模型的神经表征进行对齐。(ii)知识图谱的不完备性。当遇到信息不足的情况时,需要在推理过程中检索相关的非结构化文档,并识别与知识图谱语义粒度一致的缺失三元组。(iii)有限监督下的学习。任务的复杂性以及当前仅存在自然语言输入-输出对的限制,使得大型语言模型的全部推理潜力难以充分发挥。

为应对这些挑战,SymAgent是一个旨在自主且高效整合大型语言模型(LLM)与知识图谱(KG)能力的新型框架。通过将知识图谱视为动态环境,把复杂的推理任务转化为多步骤的交互过程,从而实现对复杂问题的深入分析和合理分解。

具体而言,SymAgent包含两个核心组件:规划模块和执行模块。规划模块利用LLM的归纳推理能力,从知识图谱中提取符号规则,制定高层计划以实现自然语言问题与知识图谱结构的对齐,并将其作为导航工具。在执行模块中,我们通过构建多功能工具库扩展智能体的能力,使其能够处理结构化数据和非结构化文档。智能体通过“思考-行动-观察”循环,不断反思已生成的计划、行动执行结果和过往交互,自主协调行动工具的使用。这一过程不仅能收集回答问题所需的必要信息,还能同时识别缺失的事实三元组以完善知识图谱,从而解决知识图谱的不完备性问题。鉴于缺乏标注良好的专家轨迹数据,SymAgent引入了一个自学习框架,该框架包括在线探索和离线迭代策略更新两个阶段。通过与知识图谱环境的持续交互,智能体能够在无需人工标注的情况下自主合成并优化轨迹数据,进而提升自身性能。

相关工作-语义解析法
语义解析方法会将问题解析为可执行的形式化语言(如SPARQL),并在知识图谱上执行精确查询以获取答案。早期研究则利用序列到序列(Seq2Seq)模型(如T5)直接生成SARSQL表达式,借助预训练语言模型的能力来增强语义解析过程。最近,ChatKBQA通过对大型语言模型(如LLaMA)进行进一步微调,提高了形式化语言生成的准确性。尽管取得了这些进展,但语义解析方法严重依赖生成查询序列的质量,若查询无法执行,则无法得到答案

相关工作-检索增强法
检索增强方法从知识图谱中检索相关的事实三元组,然后将其输入大型语言模型,以辅助生成最终答案。一些方法则通过评估问题与相关事实之间的语义相似度来检索事实。同时,某些方法利用LLM对问题进行分解,然后检索相应的三元组用于生成,以此提高检索过程的精度。值得注意的是,ToG采用了一种探索与利用策略,允许大型语言模型遍历知识图谱来收集信息,从而取得了最先进的性能。GoG进一步提出了“思考-搜索-生成”范式,以解决知识图谱的不完备性问题。然而,这些方法大多依赖于功能强大的闭源大型语言模型接口(例如GPT-4),当使用较弱的大型语言模型作为基础时,性能会显著下降

基于LLM的Agent
鉴于大型语言模型(LLMs)展现出令人惊叹的长程规划与推理能力,研究人员已开始探索构建基于大型语言模型的智能体系统,以开启通用人工智能的大门。最具代表性的大型语言模型智能体ReAct提出了一种提示方法,使大型语言模型能够与外部环境交互并接收反馈。后续研究进一步聚焦于智能体规划、函数调用和代码生成,提升了大型语言模型在各类复杂任务中的能力。近来,越来越多的研究关注通过在从教师模型中提炼的专家数据上进行微调,赋予开源大型语言模型以智能体能力。然而,AutoAct和AgentGym等方法提出了自交互轨迹合成技术,其性能优于蒸馏方法,并展现出巨大潜力。此外,近期研究强调了将强化学习技术与大型语言模型相结合的重要性,以增强其在动态场景中的决策能力

fig3

  • SymAgent框架概述。(a)SymAgent中的规划器,其从知识图谱中提取符号规则以指导推理;(b)SymAgent中的执行器,其执行自动行动调用以获取答案;(c)用于迭代增强智能体的自学习框架;(d)合成的行动调用轨迹示例。

LLM与VLM智能体

多项研究将大型语言模型(LLMs)用作智能体来执行任务规划,并借助大型语言模型所具备的大规模互联网级领域知识和零样本规划能力,完成规划、推理等智能体任务。近期的机器人学研究也利用大型语言模型进行任务规划,具体方式是将自然语言指令分解为一系列子任务(形式可为自然语言或Python代码),再由底层控制器执行这些子任务。另有多项研究表明,在大规模文本、图像和视频数据上训练的通用视觉对齐大型语言模型,能够作为基础来构建具身化的多模态智能体,使其可以在各种环境中行动。


网站公告

今日签到

点亮在社区的每一天
去签到