【论文阅读|具身智能】Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI-EW帮帮网

文章链接：https://arxiv.org/abs/2407.06886

Abstract

具身智能（Embodied AI）对于实现人工通用智能（Artificial General Intelligence，AGI）至关重要，也是连接网络空间和物理世界的各种应用程序的基础。近年来，多模态大模型（MLMs）和世界模型（WMs）的出现因其显著的感知、交互和推理能力而引起了广泛的关注，使其成为具身智能体的大脑中一个很有前途的架构。然而，在mlm的时代，目前还没有对具身智能的全面调查。在本次调查中，我们对具身智能的最新进展进行了全面的探索。我们的分析首先通过了具身机器人（embodied robots）和模拟器（simulators）的代表性工作的前沿，以充分了解研究的重点及其局限性。然后，我们分析了四个主要的研究目标： 1)具身感知（embodied perception）、2)具身交互（embodied interaction）、3)具身智能体（embodied agent）、4)仿真到现实的迁移（sim-to-real adaptation），涵盖了最先进的方法、基本范式和全面的数据集。此外，我们还探讨了虚拟和真实体现代理中mlm的复杂性，强调了它们在促进动态数字和物理环境中的交互方面的意义。最后，我们总结了具体化人工智能所面临的挑战和局限性，并讨论了其未来潜在的发展方向。我们希望本次调查能为研究界提供基础参考，并激发持续的创新。相关的项目可以在https://github.com/HCPLab-SYSU/Embodied AI Paper List中找到。

I. INTRODUCTION

具身智能最初的提出是在1950年的具身图灵测试，旨在确定代理是否可以显示智能。它不仅局限于在虚拟环境中解决抽象问题，也能够引导出物理世界的复杂性和不可预测性。网络空间中的智能体（agent）通常被称为无实体人工智能，而物理空间中的智能体则被称为具身人工智能（表1）。多模态大型模型（MLMs）的最新进展已经为具身模型注入了强大的感知、交互和规划能力，以开发通用的具身智能体和机器人，主动与虚拟和物理环境交互。因此，实体智能体被广泛认为是mlm的最佳载体。最近的代表性体现模型是RT-2和RT-H。然而，对于当前的mlm，长期记忆、理解复杂意图和分解复杂任务的能力是有限的。

为了实现人工通用智能（AGI），开发具身人工智能是一条基本途径。与像ChatGPT [5]这样的对话代理不同，具身智能认为，真正的AGI可以通过控制物理实施例以及与模拟环境和物理环境[6]-[8]交互来实现。当我们站在agi驱动的创新的前沿时，深入研究具体化的人工智能领域，解开它们的复杂性，评估它们当前的发展阶段，并考虑它们在未来可能遵循的潜在轨迹是至关重要的。如今，具身人工智能包含了跨越计算机视觉（CV）、自然语言处理（NLP）和机器人技术的各种关键技术，其中最具代表性的是具身感知、具身交互、具身代理和模拟到真实的机器人控制。因此，在追求AGI的过程中，必须通过全面的调查来捕捉体现人工智能的进化景观。

具身智能体是体现具身智能最突出的基础。对于具体化任务，具身智能体必须充分理解语言指令中的人类意图，积极探索周围环境，全面感知虚拟和物理环境中的多模态元素，并对复杂任务[12]、[13]执行适当的动作，如图2所示。与传统的深度强化学习方法相比，多模态模型的快速发展在复杂环境中表现出优越的多功能性、灵活性和通用性。来自最先进的视觉编码器[14]，[15]的预先训练的视觉表示提供了对对象类别、姿态和几何的精确估计，这使具身模型彻底感知复杂和动态的环境。强大的大语言模型（llm）使机器人更好地理解来自人类的语言指令。有前景的mlm为调整具身机器人的视觉和语言表示提供了可行的方法。世界模型[16]、[17]表现出显著的模拟能力和对物理定律的良好理解能力，这使得具身模型能够全面地理解物理环境和真实环境。这些创新使具身智能体能够全面感知复杂的环境，自然地与人类互动，并可靠地执行任务。

具身智能的发展表现出了快速的进步，引起了研究界的广泛关注（图1），被认为是实现AGI最可行的途径。谷歌学者报告了大量具身智能出版物，仅在2023年就发表了大约10,700篇论文。这意味着平均每天有29篇论文或每小时超过一篇论文被发表。尽管人们对从mlm中获得强大的感知和推理能力非常感兴趣，但研究界缺乏一个全面的调查来帮助整理现有的具身智能研究、面临的挑战以及未来的研究方向。在mlm时代，我们的目标是通过对跨网络空间到物理世界的具身智能进行系统调查来填补这一空白。我们从不同的角度进行调查，包括具身机器人、模拟器、四种具有代表性的具身任务（视觉主动感知（visual active perception）、具身交互（embodied interaction）、多模态智能体（multi-modal agents）和模拟到真实机器人控制（sim-to-real robotic controlling）），以及未来的研究方向。我们相信，这项调查将为我们所取得的成就提供一个清晰的大局，我们可以进一步实现这一新兴但非常具有前瞻性的研究方向。

与之前的作品的不同之处在于：虽然有几篇[6]，[18]-[20]的调查论文，但大多数都是过时的，因为它们是在2023年左右开始的mlm时代之前发表的。据我们所知，在2023年之后，只有一篇调查论文[8]，它只关注视觉-语言-动作体现的人工智能模型。然而，mlm、wm和体现代理并没有被充分考虑。此外，具体化机器人和模拟器的最新发展也被忽视了。为了解决在这一快速发展的领域缺乏综合调查论文的问题，我们提出了这个综合调查，涵盖了有代表性的具身机器人、模拟器和四个主要的研究任务：具身感知、具身交互、具身代理和模拟到真实的机器人控制。

总之，这项工作的主要贡献有三方面。首先，它对具身人工智能进行了系统的回顾，包括具身机器人、模拟器和四个主要的研究任务：视觉主动感知、具身交互、具身代理和模拟到真实的机器人控制。据我们所知，这是第一次从基于mlm和wm的网络和物理空间排列的角度对具身智能进行全面的调查，提供了一个广泛的概述和对现有研究的全面总结和分类。其次，它检查了具身人工智能的最新进展，为跨多个模拟器和数据集的当前工作提供了全面的基准测试和讨论。第三，它确定了具身人工智能AGI未来研究的几个研究挑战和潜在方向。

本调查的其余部分组织如下。第2节介绍了各种实体机器人。第3节描述了一般的和真实的场景体现的模拟器。第4节介绍了具身感知，包括主动视觉感知、三维视觉接地、视觉语言导航和非视觉感知。第5节介绍了具身交互。第6节介绍了具身智能体，包括具身多模态基础模型和具身任务规划。第7节介绍了模拟到现实的适应，包括具身世界模型、数据收集和训练，以及具身控制。在第8节中，我们讨论了很有前途的研究方向。

II. EMBODIED ROBOTS

具身智能体积极地与物理环境交互，并⼴泛地落地了应用，包括机器人、智能电器、智能眼镜、自动驾驶汽车等。其中，机器人是最突出的实施例之一。根据应用程序的不同，机器人被设计为各种形式，以利用其硬件特性来完成特定的任务，如图4所示。

A. Fixed-base Robots

固定底座机器人，如图4 (a)所示，由于其紧凑性和高精度的操作，被广泛应用于实验室自动化、教育培训和工业制造中。这些机器人具有坚固的基础和结构，确保了在操作过程中的稳定性和高精度。配备了高精度传感器和执行器，实现了微米级的精度，使它们适合于需要高精度和重复性[21]的任务。此外，固定基地机器人是高度可编程的，允许用户适应各种任务场景，如弗兰卡（Franka
Emika panda）[22]，Kukaiiwa（KUKA）[23]，和Sawyer（Rethink Robotics）[24]。然而，固定基地的机器人也有一定的缺点。它们的固定基地设计限制了它们的操作范围和灵活性，阻止它们在大面积区域内移动或调整位置，并导致它们需要与人类和其他机器人合作完成任务。[21].

B. Wheeled Robots and Tracked Robots

对于移动机器人，它们可以面对更复杂和多样化的应用场景。如图4所示，轮式机器人以其高效的移动性而闻名，广泛应用于物流、仓储和安全检查。轮式机器人的优点包括结构简单、成本相对较低、能源效率高以及在平面[21]上的快速移动能力。这些机器人通常配备了高精度传感器，如激光雷达和照相机，能够实现自主导航和环境感知，使它们在自动化仓库管理和检查任务中非常有效，例如，Kiva机器人（Kiva systems）[25]和豺狼机器人（Clearpath Robotics）[26]。然而，轮式机器人在复杂的地形和恶劣的环境中，移动性有限，特别是在不平坦的地面上。此外，它们的负载能力和机动性也受到了一定程度的限制。

不同的是，被跟踪机器人具有强大的越野能力和机动性，显示出在农业、建筑和灾难恢复方面的潜力，如图4 （c）所示轨道系统提供了一个更大的地面接触面积，分配了机器人的重量，减少了在泥浆和沙子等柔软地形中下沉的风险。此外，跟踪机器人配备了强大的动力和悬挂系统，以在复杂地形上保持稳定性和牵引力。因此，被跟踪的机器人也被用于军事等敏感地区。iRobot的PackBot是一种多功能的军事跟踪机器人，能够执行诸如侦察、爆炸物处理和救援任务[28]等任务。然而，由于轨道系统的高摩擦，跟踪机器人往往遭受能源效率低。此外，它们在平面上的移动速度，以及灵活性和机动性比轮式机器人慢。

C. Quadruped Robots

四足机器人，以其稳定性和适应性而闻名，非常适合复杂的地形探索、救援任务和军事应用。受四足动物的启发，这些机器人可以在不均匀的表面上保持平衡和流动性，如图4 (d).所示多关节设计允许他们模仿生物运动，实现复杂的步态和姿势调整。高可调性使机器人能够自动适应他们的姿态，以适应变化的地形，提高机动性和稳定性。传感系统，如激光雷达和照相机，提供了环境意识，允许机器人自动导航和避开障碍物[29]。几种类型的四足机器人被广泛使用：Unitree Robotics，Boston Dynamics Spot和 ANYmal C。Unitree Robotics对A1和Go1的联合以其成本效益和灵活性而闻名。A1 [30]和Go1 [31]具有很强的机动性和智能避障能力，适用于各种应用。Boston Dynamics Spot以其优越的稳定性和操作灵活性而闻名，这通常用于工业检查和救援任务。它具有强大的承载能力和适应性，能够在恶劣环境中执行复杂的任务。Anybot公司的ANYmal C具有模块化设计和高耐久性，广泛应用于工业检验和维护。ANYmal C配备了自主导航和远程操作能力，适合长期的户外任务，甚至极端的月球任务[33]。四足动物机器人复杂的设计和高昂的制造成本导致了大量的初始投资，限制了它们在成本敏感领域的使用。此外，它们在复杂环境中的电池续航能力有限，需要频繁充电或更换电池来实现长时间运行[34]。

D. Humanoid Robots

类人机器人以其类人的形式而闻名，并在服务行业、医疗保健和协作环境等领域越来越流行。这些机器人可以模仿人类的运动和行为模式，提供个性化的服务和支持。他们灵巧的手设计使他们能够完成复杂的任务，区别于其他类型的机器人，如图4 (e)所示。这些手通常具有多个自由度和高精度的传感器，使它们能够模拟人类手的抓握和操作能力，这在医疗外科手术和精密制造[35]等领域尤为重要。在目前的类人机器人中，Atlas（Boston Dynamics）以其非凡的移动性和稳定性而闻名。Atlas可以执行复杂的动态动作，如运行、跳跃和滚动，展示了类人机器人在高度动态环境[36]中的潜力。HRP系列（AIST）被用于各种研究和工业应用，其设计侧重于高稳定性和灵活性，使其在复杂的环境中有效，特别是对于与人类[37]的协作任务。ASIMO（Honda，本田）是最著名的类人机器人之一，它可以行走、跑步、爬楼梯、识别人脸和手势，使其适合于[38]的接待和指导服务。此外，一个小型社交机器人Pepper（Softbank Robotics）可以识别情绪并参与自然语言交流，并广泛应用于客户服务和教育设置[39]。

然而，由于其复杂的控制系统，类人机器人在复杂环境中维持操作稳定性和可靠性方面面临着挑战。这些挑战包括强大的两足行走控制和灵巧的手抓握[40]。此外，传统的基于液压系统的类人机器人，以其结构庞大和维护成本高为特点，正越来越多地被电机驱动系统所取代。最近，特斯拉和联合蕾机器人公司推出了基于运动系统的类人形机器人。随着llm的集成，类人机器人有望智能处理各种复杂任务，填补制造业、医疗保健和服务业的劳动力缺口，从而提高效率和安全性。

E. Biomimetic Robots

不同的是，仿生机器人通过模拟自然生物体的有效运动和功能，在复杂和动态的环境中执行任务。通过模拟生物实体的形式和运动机制，这些机器人在医疗保健、环境监测和生物研究[21]等领域显示出了巨大的潜力。通常，它们利用灵活的材料和结构来实现逼真、敏捷的动作，并最小化对环境的影响。重要的是，仿生设计可以通过模拟生物生物体的有效运动机制来显著提高机器人的能源效率，使其在能源消耗[42]、[43]方面更经济。这些仿生机器人包括鱼类机器人[44]、[45]、昆虫类机器人[46]、[47]和软体机器人[48]，如图4 (f)所示。然而，仿生机器人面临着一些挑战。首先，它们的设计和制造过程复杂且昂贵，限制了大规模的生产和广泛的应用。其次，由于它们使用了灵活的材料和复杂的运动机制，仿生机器人在极端环境下的耐久性和可靠性受到了限制。

III. EMBODIED SIMULATORS

具身模拟器对具身人工智能至关重要，因为它们提供了成本效益高的实验方式，通过模拟潜在危险场景确保安全性，具备在多样化环境中测试的可扩展性，以及快速原型开发的能力。此外，它们为更广泛的研究群体提供了可访问性，能够创建受控环境进行精确研究，生成用于训练和评估的数据，并提供用于算法比较的标准化基准。为了让智能体能够与环境交互，有必要构建一个逼真的模拟环境。这需要考虑环境的物理特性、对象的属性及其交互关系。

本节将从两个方面介绍常用的仿真平台：基于底层模拟的通用模拟器和基于真实场景的模拟器。

A. General Simulator

现实环境中存在的物理相互作用和动态变化是不可替代的。然而，在物理世界中部署具体化的模型通常会带来很高的成本，并面临着许多挑战。通用模拟器提供了一个紧密模拟物理世界的虚拟环境，允许算法开发和模型训练，这提供了显著的成本、时间和安全优势。

Isaac Sim [49]是一个机器人和人工智能研究的先进模拟平台。它具有高保真的物理模拟、实时射线追踪、广泛的机器人模型库和深度学习支持。其应用场景包括自动驾驶、工业自动化和人类机器人交互。Gazebo[60]是一个用于机器人技术研究的开源模拟器。它有广泛的机器人库，并与ROS紧密集成。它支持各种传感器的仿真，并提供了许多预先构建的机器人模型和环境。它主要用于机器人的导航和控制以及多机器人系统。PyBullet[52]是Bullet物理引擎的Python接口。它易于使用，并具有不同的传感器仿真和深度学习集成。PyBullet支持实时物理模拟，包括刚体动力学、碰撞检测和约束求解。表II介绍了10个通用模拟器的关键特性和主要应用场景。它们在具身人工智能领域都有独特的优势。研究者可以根据自己具体的研究需求，选择最合适的模拟器，从而加速具身人工智能技术的开发和应用。图5显示了一般模拟器的可视化效果。

B. Real-Scene Based Simulators

在家庭活动中实现普遍的具身主体一直是具身人工智能研究领域的主要焦点。这些具身主体需要深入了解人类的日常生活，并在室内环境中执行导航和交互等复杂的具身任务。为了满足这些复杂任务的需求，模拟环境需要尽可能接近真实世界，这就对模拟器的复杂性和真实性提出了很高的要求。这导致了基于真实世界环境的模拟器的创建。这些模拟器主要从现实世界中收集数据，创建逼真的3D资产，并使用UE5和Unity等3D游戏引擎构建场景。丰富而真实的场景使基于现实世界环境的模拟器成为家庭活动中具身人工智能研究的首选。

AI2-THOR [61]是一款基于Unity3D的室内实体场景模拟器，由艾伦人工智能研究所领导。作为一个在现实世界中构建的高保真模拟器，AI2-THOR具有丰富的交互式场景对象和分配给它们的物理属性（如打开/关闭，甚至冷/热）。AI2-THOR由iTHOR和RoboTHOR两部分组成。它包含120个房间，分为厨房、卧室、浴室和客厅，有超过2000个独特的交互对象，并支持多代理模拟；RoboTHOR包含89个模块化公寓，600个+对象，其独特之处在于这些公寓对应于现实世界中的真实场景。到目前为止，已经有基于AI2-THOR出版了100多部作品。

Matterport 3D [62]是在R2R [63]中提出的，它更常用于作为一个大规模的2D-3D可视化数据集。Matterport3D数据集包括90个建筑室内场景，包括10800张全景图和194400张RGB-D图像，并提供表面重建、摄像机姿态、2D和三维语义分割注释。Matterport3D将3D场景转换为离散的“视点”，在3D场景中，体现的代理在相邻的“视点”之间移动。在每个“视点”上，具体化代理可以获得以“视点”为中心的1280x1024全景图像（18×RGB-D）。Matterport3D是最重要的具体化导航基准测试之一。

Virtualhome[64]是Puig等人推出的家庭活动体现人工智能模拟器。虚拟家园的特别之处在于它用环境图表示的环境。环境图表示场景中的对象及其相关关系。用户还可以自定义和修改环境图形，以实现场景对象的自定义配置。这种环境图为具体化代理理解环境提供了一种新的途径。与AI2-THOR类似，Virtualhome也提供了大量的交互对象，具体化代理可以与它们交互并改变其状态。虚拟家园的另一个特性是它的简单易用的API。具体化代理的操作被简化为“操作+对象”的格式。这一特点使虚拟家居广泛应用于实体规划、指令分解等领域的研究。

Habitat[65]是由Meta推出的一个面向大规模人机交互的开源模拟器。基于Bullet物理引擎，实现了高性能、高速、并行的三维仿真，为具体化代理的强化学习提供了丰富的界面。Habitat具有极高的开放性。研究人员可以在生境中导入和创建三维场景，或者利用生境平台上丰富的开放资源进行扩展。Habitat有许多可定制的传感器，并支持多智能体模拟。来自开放资源或定制的多个具体化代理（例如，人类和机器人狗）可以在模拟器中合作，自由移动，并与场景执行简单的交互。因此，Habitat正受到越来越多的关注。

与其他更关注场景的模拟器不同，SAPIEN [66]更关注模拟物体之间的交互。SAPIEN基于PhysX物理引擎，提供了细粒度的具体化控制，可以通过ROS接口实现基于力和扭矩的联合控制。SAPIEN基于partnet移动数据集，可提供包含丰富交互对象的室内模拟场景，并支持导入自定义资源。与AI2-THOR等直接改变物体状态的模拟器不同，SAPIEN支持模拟的物理交互，具体化代理可以通过物理动作控制物体的铰链部分，从而改变物体的状态。这些特性使得SAPIEN非常适合于训练具身AI的细粒度对象操作。

iGibson [67] [68] 是由斯坦福大学推出的一款开源模拟器。基于 Bullet 物理引擎构建，iGibson 提供了 15 个高质量的室内场景，并支持从其他数据集（如 Gibson 和 Matterport3D）导入资产。作为一个面向对象的模拟器，iGibson 为对象赋予了丰富且可变的属性，这些属性不仅限于对象的运动学属性（姿态、速度、加速度等），还包括温度、湿度、清洁度、开关状态等。此外，除了其他模拟器中常见的深度传感器和语义传感器外，iGibson 还为具身智能体提供了 LiDAR，使智能体能够轻松获取场景中的 3D 点云。关于具身智能体的配置，iGibson 支持连续动作控制和细粒度的关节控制。这使得 iGibson 中的具身智能体在自由移动的同时，能够精细地与对象进行交互。

TDW [69] 是由麻省理工学院（MIT）推出的一款模拟器。作为最新的具身模拟器之一，TDW 结合了高保真的视频和音频渲染、逼真的物理效果以及单一的灵活控制器，在模拟环境的感知与交互方面取得了一定进展。TDW 将多个物理引擎集成到一个框架中，可以实现对刚体、软体、布料和流体等多种材料的物理交互模拟，并在与对象交互时提供场景化声音。因此，TDW 相较于其他模拟器迈出了重要一步。TDW 支持多个智能体的部署，并为用户提供了丰富的 API 库和资源库，用户可以根据自身需求自由定制场景和任务，甚至包括户外场景及相关任务。

表 III 总结了基于上述真实场景的所有模拟器。Sapien 因其专为模拟带有关节的物体（如门、橱柜和抽屉）的交互而设计而脱颖而出。VirtualHome 的独特之处在于其环境图（environment graph），通过自然语言描述环境，能够促进高层次的具身规划。虽然 AI2Thor 提供了大量可交互的场景，但这些交互（与 VirtualHome 类似）是基于脚本的，缺乏真实的物理交互。这种设计适用于不需要细粒度交互的具身任务。iGibson 和 TDW 均提供细粒度的具身控制和高度模拟的物理交互。iGibson 在提供丰富且真实的大规模场景方面表现突出，适合复杂且长期的移动操作，而 TDW 则在场景扩展上赋予用户更大的自由，并具备独特的音频和灵活的流体模拟功能，使其在相关模拟场景中不可或缺。Matterport3D 作为一个基础的 2D-3D 视觉数据集，被广泛应用并在具身 AI 基准测试中得到扩展。虽然 Habitat 中的具身智能体缺乏交互能力，但其广泛的室内场景、用户友好的界面以及开放的框架，使其在具身导航中备受推崇。

此外，自动化的模拟场景构建对于获取高质量的具身数据具有重要意义。RoboGen [70] 利用大型语言模型（LLMs）从随机采样的 3D 资产中定制任务，从而创建场景并自动训练智能体；HOLODECK [71] 能够根据人类指令，在 AI2-THOR 中自动定制对应的高质量模拟场景；PhyScene [72] 基于条件扩散生成交互性强且物理一致的高质量 3D 场景。Allen 人工智能研究所扩展了 AI2-THOR，提出了 ProcTHOR [73]，能够自动生成具备充分交互性、多样性和合理性的模拟场景。这些方法为具身 AI 提供了重要的研究方向和启示。

IV. EMBODIED PERCEPTION

未来视觉感知的“北极星”是以具身为中心的视觉推理和社会智能 [74]。与仅仅在图像中识别物体不同，具身感知的智能体必须在物理世界中移动并与环境进行互动。这要求对 3D 空间和动态环境有更深入的理解。具身感知不仅需要视觉感知和推理，还要理解场景中的 3D 关系，并基于视觉信息预测和执行复杂任务。

A. Active Visual Perception

主动视觉感知系统需要基本的能力，如状态估计、场景感知和环境探索。如图 7 所示，这些能力在视觉同时定位与建图（vSLAM）[118]，[119]、3D 场景理解 [120] 和主动探索 [12] 等领域中得到了广泛研究。这些研究领域有助于开发鲁棒的主动视觉感知系统，促进在复杂动态环境中更好的交互与导航。我们简要介绍这三个组件，并在表 IV 中总结了每个部分中提到的方法。

1 、视觉同时定位与建图（vSLAM）：同时定位与建图（SLAM）是一种技术，它能够在未知环境中确定移动机器人位置的同时，构建该环境的地图 [121]，[122]。基于距离的 SLAM [123]–[125] 使用测距仪（如激光扫描仪、雷达和/或声纳）创建点云表示，但成本较高且提供的环境信息有限。视觉 SLAM（vSLAM）[118]，[119] 则利用车载相机捕捉帧并构建环境的表示。由于其硬件成本低、在小规模场景中具有高精度，并能够捕获丰富的环境信息，vSLAM 得到了广泛应用。经典的 vSLAM 技术可以分为传统 vSLAM 和语义 vSLAM [119]。

传统的 vSLAM 系统利用图像信息和多视图几何原理估计机器人在未知环境中的姿态，并构建由点云组成的低级地图（如稀疏地图、半密集地图和密集地图）。这些方法包括基于滤波的方法（如 MonoSLAM [75]、MSCKF [76]）、基于关键帧的方法（如 PTAM [77]、ORB-SLAM [78]）以及直接跟踪方法（如 DTAM [79]、LSD-SLAM [80]）。由于低级地图中的点云与环境中的物体不直接对应，这使得具身机器人难以解读和利用这些点云。然而，语义概念的出现，尤其是与语义信息解决方案集成的语义 vSLAM 系统，显著提高了机器人感知和导航未知环境的能力。

早期的工作，如 SLAM++ [81]，通过实时的 3D 物体识别和跟踪来创建高效的物体图，从而实现强大的回环闭合、重定位和在杂乱环境中的物体检测。CubeSLAM [82] 和 HDP-SLAM [83] 引入了 3D 长方体到地图中，以构建轻量级的语义地图。QuadricSLAM [84] 使用语义 3D 椭球体实现了在复杂几何环境中对物体形状和姿态的精确建模。So-SLAM [85] 在室内环境中结合了完全耦合的空间结构约束（如共面性、共线性和接近性）。为了应对动态环境的挑战，DS-SLAM [86]、DynaSLAM [87] 和 SG-SLAM [88] 采用了语义分割来进行运动一致性检查，并使用多视图几何算法来识别和过滤动态物体，从而确保稳定的定位和建图。OVD-SLAM [89] 利用语义、深度和光流信息来区分没有预定义标签的动态区域，从而实现更精确和鲁棒的定位。GSSLAM [90] 采用 3D 高斯表示，通过实时可微分的点云渲染管道和自适应扩展策略，在效率和精度之间达到了平衡。

2、3D 场景理解：3D 场景理解旨在区分物体的语义、识别其位置，并从 3D 场景数据中推断几何属性，这在自动驾驶 [126]、机器人导航 [127] 和人机交互 [128] 等领域中具有基础性作用。一个场景可以通过 3D 扫描工具（如 LiDAR 或 RGB-D 传感器）记录为 3D 点云。与图像不同，点云是稀疏的、无序的且不规则的 [120]，这使得场景的解释变得极具挑战性。

近年来，许多用于 3D 场景理解的深度学习方法应运而生，通常可以分为基于投影、基于体素和基于点的方法。具体而言，基于投影的方法（如 MV3D [91]、PointPillars [92]、MVCNN [93]）将 3D 点投影到不同的图像平面上，并使用基于 2D CNN 的骨干网络进行特征提取。基于体素的方法将点云转换为规则的体素网格，以便进行 3D 卷积操作（如 VoxNet [94]、SSCNet [95]），一些研究通过稀疏卷积提高了效率（如 MinkowskiNet [96]、SSCNs [97]、Embodiedscan [98]）。相比之下，基于点的方法直接处理点云（如 PointNet [99]、PointNet++ [100]、PointMLP [101]）。最近，为了实现模型的可扩展性，基于 Transformer 的架构（如 PointTransformer [102]、Swin3d [103]、PT2 [104]、PT3 [105]、3D-VisTA [106]、LEO [107]、PQ3D [108]）和基于 Mamba 的架构（如 PointMamba [109]、PCM [110]、Mamba3D [111]）相继出现。值得注意的是，除了直接使用点云的特征外，PQ3D [108] 还无缝地结合了来自多视图图像和体素的特征，以增强场景理解能力。

3、主动探索：前面提到的 3D 场景理解方法赋予了机器人以被动方式感知环境的能力。在这种情况下，感知系统的信息获取和决策并不能适应不断变化的场景。然而，被动感知是主动探索的重要基础。由于机器人具备运动能力并能够频繁与周围环境进行互动，它们应当能够主动探索和感知环境。它们之间的关系如图 7 所示。目前，处理主动感知的方法主要集中在与环境互动 [112]，[113] 或通过改变视角方向来获取更多视觉信息 [114]–[117]。

例如，Pinto 等人 [112] 提出了一个好奇机器人，该机器人通过与环境的物理互动来学习视觉表示，而不是仅仅依赖数据集中的类别标签。为了应对不同形态的机器人在互动物体感知中的挑战，Tatiya 等人 [113] 提出了一个多阶段投影框架，通过学习的探索性互动传递隐式知识，使机器人能够有效地识别物体属性，而无需从头开始重新学习。认识到自主捕获有用观察数据的挑战，Jayaraman 等人 [114] 提出了一种强化学习方法，通过减少对环境中未观察部分的不确定性，代理能够主动获取有用的视觉观察数据，并使用递归神经网络来主动完成全景场景和 3D 物体形状的构建。NeU-NBV [115] 引入了一种无地图规划框架，通过迭代地调整 RGB 摄像头位置，捕获未知场景中最具信息量的图像，并利用一种新颖的不确定性估计方法在基于图像的神经渲染中引导数据收集，优先选择最不确定的视角。Hu 等人 [116] 开发了一种机器人探索算法，使用状态价值函数预测未来状态的价值，结合离线蒙特卡洛训练、在线时序差分适应和基于传感器信息覆盖的内在奖励函数。为了应对开放世界环境中的意外输入问题，Fan 等人 [117] 将主动识别视为一个顺序证据收集过程，在证据组合理论下提供逐步的不确定性量化和可靠预测，同时通过特别开发的奖励函数有效地表征开放世界环境中行动的价值。

B. 3D Visual Grounding

与传统的 2D 视觉定位（VG）不同，后者仅在平面图像中进行操作，3D 视觉定位（VG）则结合了深度、透视和物体之间的空间关系，为代理与环境的互动提供了更强大的框架。3D 视觉定位的任务包括使用自然语言描述定位 3D 环境中的物体 [129]，[130]。如表 V 所总结的，近年来 3D 视觉定位的方法大致可以分为两类：两阶段方法和单阶段方法 [145]。

1、 两阶段 3D 视觉定位方法：与对应的 2D 任务 [146] 类似，早期的 3D 定位研究主要采用了两阶段的“检测-匹配”流水线。首先，使用预训练的检测器 [147] 或分割器 [148]–[150] 从 3D 场景中提取多个物体提案的特征，然后将这些特征与语言查询特征融合，以匹配目标物体。两阶段研究的重点主要集中在第二阶段，例如，探索物体提案特征与语言查询特征之间的相关性，以选择最佳匹配的物体。ReferIt3D [130] 和 TGNN [131] 不仅学习将提案特征与文本嵌入匹配，还通过图神经网络编码物体之间的上下文关系。为了增强自由形式描述和不规则点云中的 3D 视觉定位，FFL-3DOG [133] 利用语言场景图进行短语关联、多层次的 3D 提案关系图来丰富视觉特征，并通过描述引导的 3D 视觉图来编码全局上下文。

近年来，随着 Transformer 架构在自然语言处理 [151]，[152] 和计算机视觉任务 [14]，[153] 中展现出卓越的表现，研究越来越多地集中在使用 Transformer 提取和融合 3D 视觉定位任务中的视觉语言特征。例如，LanguageRefer [135] 采用了基于 Transformer 的架构，结合 3D 空间嵌入、语言描述和类别标签嵌入，实现了强健的 3D 视觉定位。3DVG-Transformer [134] 是一种关系感知的 3D 点云视觉定位方法，具有基于坐标的上下文聚合模块，用于增强关系的提案生成和多重注意力模块，用于跨模态提案消歧。为了实现更细粒度的 3D 物体推理和指代表达，TransRefer3D [154] 通过实体和关系感知注意力增强了跨模态特征表示，结合了自注意力、实体感知注意力和关系感知注意力。GPS [140] 提出了一个统一的学习框架，通过利用三种层次的对比对齐学习和掩蔽语言建模目标学习，从百万规模的 3D 视觉语言数据集（即 SCENEVERSE [140]）中提取知识。上述大多数 3D 视觉定位方法集中于特定视角，但当视角变化时，学到的视觉-语言对应关系可能会失效。为了学习更具视角鲁棒性的视觉表示，MVT [137] 提出了一个多视角 Transformer，它学习视角独立的多模态表示。为了解决稀疏、噪声和不完整点云的局限性，许多方法已探索将捕获的（例如，SAT [132]）或合成的（例如，LAR [136]）图像中的详细 2D 视觉特征融入 3D 视觉定位任务中，以增强其性能。

现有的 3D 视觉定位（VG）方法通常依赖于大量标注数据进行训练，或者在处理复杂语言查询时表现出一定的局限性。受到大型语言模型（LLMs）在语言理解方面卓越能力的启发，LLM-Grounder [138] 提出了一个开放词汇的 3D 视觉定位流程，该方法不需要标注数据，利用 LLM 对查询进行分解，并生成物体识别计划，接着评估空间和常识关系，以选择最佳匹配的物体。为了捕捉视角相关的查询并解码 3D 空间中的空间关系，ZSVG3D [139] 设计了一种零样本开放词汇的 3D 视觉定位方法，该方法使用 LLM 来识别相关物体并进行推理，将这一过程转化为脚本化的视觉程序，再转化为可执行的 Python 代码来预测物体的位置。

然而，如图 8 (b) 所示，这些两阶段方法面临着确定提议数量的困境，因为第一阶段的 3D 检测器需要通过采样关键点来表示整个 3D 场景，并为每个关键点生成相应的提议。在第一阶段，稀疏提议可能会忽略目标物体，导致它们在第二阶段无法匹配。相反，密集提议可能包含不可避免的冗余物体，由于提议之间的关系过于复杂，导致第二阶段无法准确区分目标。此外，关键点采样策略是与语言无关的，这增加了检测器识别与语言相关的提议的难度。

2、 一阶段 3D 视觉定位方法：如图 8 © 所示，与两阶段 3D VG 方法不同，一阶段 3D VG 方法将目标检测和语言查询引导的特征提取相结合，使得物体定位变得更加简便。3D-SPS [141] 将 3D VG 任务视为一个关键点选择问题，避免了检测和匹配的分离。具体来说，3D-SPS 首先通过描述感知的关键点采样模块粗略地采样与语言相关的关键点。随后，它通过目标导向的逐步挖掘模块精细地选择目标关键点并预测基础信息。受到 2D 图像语言预训练模型（如 MDETR [155] 和 GLIP [156]）的启发，BUTD-DETR [142] 提出了一个自底向上自顶向下的检测转换器，该模型可用于 2D 和 3D VG。具体来说，BUTD-DETR 利用标注的自底向上框提议和自顶向下的语言描述来引导目标物体及其对应语言范围的解码过程。

然而，这些方法要么提取了句子级别的特征，将所有单词结合在一起，要么更多关注描述中的物体名称，这样会丢失词汇级别的信息或忽略其他属性。为了解决这些问题，EDA [143] 明确地将句子中的文本属性解耦，并在细粒度语言和点云物体之间进行密集对齐。具体而言，长文本首先被解耦为五个语义组件，包括主物体、辅助物体、属性、代词和关系。随后，设计了密集对齐，将所有与物体相关的解耦文本语义组件与视觉特征对齐。为了从隐式指令中推理人类意图，ReGround3D [144] 设计了一个以视觉为中心的推理模块，结合 MLMs，并且通过回溯增强几何和 3D 场景的细粒度细节，准确地获得物体位置。此外，采用了一个 Chain-of-Grounding 机制，通过交错的推理和定位步骤，进一步提升 3D 推理定位的效果。

C. Visual Language Navigation

视觉语言导航（VLN）作为具身人工智能的一个关键研究问题，旨在使智能体能够根据语言指令在未见过的环境中进行导航。VLN要求机器人理解复杂且多样的视觉观察，同时能够在不同粒度上解读指令。VLN的输入通常由两个部分组成：视觉信息和自然语言指令。视觉信息可以是过去轨迹的视频，或者是历史与当前观察图像的集合。自然语言指令包括具身智能体需要到达的目标或预期完成的任务。具身智能体必须利用上述信息，从一系列候选动作中选择一个或多个动作，以完成自然语言指令的要求。这个过程可以表示为：

$\text{Action} = \text{M}(\text{O}, \text{H},\text{I})$

其中， $\text{Action}$ 表示选定的动作或一系列动作候选项， $\text{O}$ 表示当前观察信息， $\text{H}$ 表示历史信息， $\text{I}$ 表示自然语言指令。

SR（成功率）、TL（轨迹长度）和 SPL（路径长度加权成功率）是 VLN 中最常用的评价指标。其中，SR 直接反映了智能体的导航性能，TL 反映了导航效率，而 SPL 综合了两者，用以衡量智能体的整体表现。以下我们将从数据集和方法两个方面介绍 VLN。

1、数据集：在 VLN 中，自然语言指令可以是详细的动作描述、完整的目标描述、粗略的任务描述，甚至仅是人类的需求。智能体需要完成的任务可能是单次导航、带有交互的导航，或需要按顺序完成的多个导航任务。这些差异为 VLN 带来了不同的挑战，因此也衍生出了许多不同的数据集。基于这些差异，我们将介绍一些重要的 VLN 数据集。

Room to Room (R2R) [63] 是基于 Matterport3D 构建的 VLN 数据集。在 R2R 中，智能体根据逐步指令进行导航，通过视觉观测选择下一个相邻的导航图节点前进，直到到达目标位置。智能体需要动态跟踪导航进度，以确保导航过程与细粒度指令对齐。Room-for-Room (R4R) [157] 将 R2R 的路径扩展为更长的轨迹，这要求智能体具备更强的长距离指令理解与历史对齐能力。VLN-CE [158] 将 R2R 和 R4R 扩展至连续环境中，使得智能体可以在场景中自由移动，这增加了智能体动作决策的复杂性。与上述基于室内场景的数据集不同，TOUCHDOWN 数据集 [159] 是基于 Google 街景构建的。在 TOUCHDOWN 中，智能体需按照指令在纽约市的街景渲染模拟中导航，以找到指定的目标对象。

类似于R2R，REVERIE数据集[160]也是基于Matterport3D模拟器构建的。REVERIE要求具身代理能够根据简洁且由人工注释的高层自然语言指令，准确地定位远距离且不可见的目标物体，这意味着代理需要在场景中找到目标物体，而场景中有大量物体。在SOON数据集[161]中，代理接收到从粗到细的长篇复杂指令，以找到3D环境中的目标物体。在导航过程中，代理首先搜索较大的区域，然后根据视觉场景和指令逐渐缩小搜索范围。这使得SOON的数据集在导航时具有目标导向性，并且不依赖于初始位置。DDN数据集[162]则在这些数据集的基础上更进一步，提供的是人类需求，而不明确指定目标物体。代理需要通过场景导航，找到满足人类需求的物体。

ALFRED数据集[163]基于AI2-THOR模拟器。在ALFRED中，具身代理需要理解环境观察，并根据粗粒度和细粒度的指令，在交互环境中完成家庭任务。OVMM数据集[164]的任务是在任何未见过的环境中拾取物体并将其放置到指定位置。代理需要在家庭环境中定位目标物体，进行导航并抓取物体，然后导航到目标位置放下物体。OVMM提供了一个基于Habitat的仿真环境，并为现实世界的实现提供了框架。Behavior-1K数据集[165]基于人类需求，包含1,000个长序列、复杂的、依赖技能的日常任务，这些任务设计在OmniGibson中，OmniGibson是iGibson模拟环境的扩展。代理需要完成包含成千上万低级行动步骤的长时间跨度的导航-交互任务，这些任务依赖于视觉信息和语言指令。这些复杂的任务要求强大的理解能力和记忆能力。

还有一些更特殊的数据集。CVDN数据集[166]要求具身代理基于对话历史进行导航，并在不确定时通过提问来决定下一步行动。DialFRED[167]是ALFRED的扩展，允许代理在导航和交互过程中提问以获得帮助。这些数据集都引入了额外的“oracle”机制，具身代理需要通过提问获取更多有利于导航的信息。

2、方法：随着大语言模型（LLMs）令人震惊的表现，视觉语言导航（VLN）在最近取得了巨大的进展，这也深刻影响了VLN的方向和重点。尽管如此，VLN方法仍然可以分为两个方向：基于记忆理解的方法和基于未来预测的方法。

基于记忆理解的方法侧重于环境的感知与理解，以及基于历史观察或轨迹的模型设计，这是一种基于过去学习的方法。基于未来预测的方法则更加关注未来状态的建模、预测和理解，这是未来学习的方法。由于VLN可以视为一个部分可观察的马尔可夫决策过程，其中未来的观察依赖于当前环境和智能体的行动，历史信息对于导航决策尤其是长时间跨度的导航决策具有重要意义，因此基于记忆理解的方法一直是VLN的主流。然而，基于未来预测的方法依然具有重要意义。其对环境的本质理解在连续环境中的VLN中具有很大价值，特别是在世界模型概念兴起的背景下，基于未来预测的方法正受到越来越多研究者的关注。

基于记忆理解的方法。图基学习是基于记忆理解方法中的一个重要部分。图基学习通常将导航过程表示为图的形式，其中具身代理在每个时间步骤获得的信息被编码为图的节点。具身代理通过获取全局或部分导航图信息来表示历史轨迹。LVERG[168]将每个节点的语言信息和视觉信息分别编码，设计了一个新的语言和视觉实体关系图，用于建模文本与视觉之间的跨模态关系，以及视觉实体之间的同模态关系。LM-Nav[172]使用一个基于目标的距离函数推断原始观察集之间的连接，并构建一个导航图，通过大型语言模型（LLM）从指令中提取地标，使用视觉语言模型将它们与导航图的节点匹配。尽管HOP[173]不是基于图学习的方法，但其方法与图学习相似，要求模型在不同粒度上对时间顺序信息进行建模，从而实现对历史轨迹和记忆的深刻理解。

导航图将环境离散化，但同时理解和编码环境也至关重要。FILM[171]使用RGB-D观察和语义分割，在导航过程中逐步从3D体素构建语义地图。VER[178]通过2D-3D采样将物理世界量化为结构化的3D单元，提供了细粒度的几何细节和语义信息。

不同的学习方案探索如何更好地利用历史轨迹和记忆。通过对抗学习，CMG[169]交替进行模仿学习和探索激励方案，有效加强了对指令和历史轨迹的理解，缩小了训练和推理之间的差距。GOAT[177]通过后门调整因果学习（BACL）和前门调整因果学习（FACL）直接训练无偏模型，并对视觉、导航历史及其与指令的结合进行对比学习，使代理能够更充分地利用信息。RCM[170]提出的增强跨模态匹配方法利用目标导向的外部奖励和指令导向的内部奖励，在全局和局部进行跨模态对齐，并通过自监督模仿学习从自身历史优秀决策中学习。FSTT[175]将任务时间自适应（TTA）引入VLN，从时间步和任务两个尺度优化模型的梯度和参数，有效提升了模型性能。

大型模型在基于记忆理解的方法中的具体应用是理解历史记忆的表示，并基于其广泛的世界知识理解环境和任务。NaviLLM[174]通过视觉编码器将历史观察序列集成到嵌入空间，将融合编码的多模态信息输入LLM并进行微调，在多个基准上达到了最先进水平。NaVid[179]改进了历史信息的编码，通过不同程度的池化，在历史观察与当前观察之间实现了不同程度的信息保留。DiscussNav[176]为具有不同能力的大模型专家分配不同角色，驱动大模型在导航动作之前进行讨论以完成导航决策，并在零样本VLN中取得了出色表现。

基于未来预测的方法中，图基学习也被广泛应用。BGBL[182]和ETPNav[185]使用类似的方法设计了一种路径点预测器，可以基于当前导航图节点的观察预测可移动的路径点。他们旨在将连续环境中的复杂导航迁移为离散环境中的节点间导航，从而弥合离散环境与连续环境之间的性能差距。

通过环境编码提高对未来环境的理解和感知也是预测和探索未来的研究方向之一。NvEM [181] 使用主题模块和参考模块对来自全球和局部视角的邻域视图进行融合编码。这实际上是对未来观察的理解和学习。HNR [184] 使用了一个大规模预训练的分层神经辐射表示模型，通过三维特征空间编码直接预测未来环境的视觉表示，而不是像素级图像，并基于未来环境的表示构建可导航的未来路径树。它们从不同的层次预测未来环境，为导航决策提供有效参考。

一些强化学习方法也被应用于预测和探索未来状态。LookBY [180] 采用强化预测使预测模块能够模仿世界并预测未来状态和奖励。这使得智能体能够直接将“当前观察”和“未来观察的预测”映射到动作，从而在当时达到了最先进的表现。大模型的丰富世界知识和零-shot表现为基于未来预测的方法提供了许多可能性。MiC [183] 要求LLM直接从指令中预测目标及其可能位置，并通过场景感知的描述提供导航指令。这种方法要求LLM充分发挥其“想象力”并通过提示构建一个想象中的场景。

此外，还有一些方法既从过去学习，又为未来做出预测。MCR-Agent [186] 设计了一个三层动作策略，要求模型从指令中预测目标，预测与目标交互的像素级掩模，并从之前的导航决策中学习；OVLM [187] 要求LLM预测指令对应的操作和地标序列。在导航过程中，视觉语言地图将不断更新和维护，操作将与地图上的路标点关联。

D. Non-Visual Perception: Tactile

触觉传感器为智能体提供了细致的信息，如纹理、硬度和温度。对于相同的动作，从视觉和触觉传感器中学习到的知识可能是相关且互补的，这使得机器人能够完全掌握手头的高精度任务。因此，触觉感知对物理世界中的智能体至关重要，毫无疑问，它增强了人机交互[188]–[190]。

对于触觉感知任务，智能体需要从物理世界收集触觉信息，然后执行复杂任务。在本节中，如图10所示，我们首先介绍现有的触觉传感器类型及其数据集，然后讨论触觉感知中的三项主要任务：估计、识别和操控。

1、 传感器设计：人类触觉的原理是皮肤在接触时发生形变，其丰富的神经细胞发送电信号，这也是设计触觉传感器的基础。触觉传感器的设计方法可以分为三类：非视觉型、视觉型和多模态型。非视觉型触觉传感器主要采用电学和机械原理，主要注册诸如力、压力、振动和温度等基本的低维度感知输出[191]–[196]。其中一个显著代表是BioTac[197]及其模拟器[198]。视觉型触觉传感器基于光学原理，利用凝胶变形的图像作为触觉信息，诸如GelSight[199]、Gelslim[200]、DIGIT[201]、9DTact[202]、TacTip[203]、GelTip[204]和AllSight[205]等视觉型触觉传感器已被广泛应用于各种领域。TACTO[206]和Taxim[207]等模拟系统也很流行。近年来的工作集中在成本降低[202]和集成到机器人手部[201]、[208]、[209]。多模态触觉传感器受到人类皮肤的启发，结合压力、接近度、加速度和温度等多模态信息，采用柔性材料和模块化设计。

2、数据集：非视觉传感器的数据集主要由BioTac系列[197]收集，包含电极值、力向量和接触位置。由于任务主要是力和抓取细节的估计，因此数据集中的物体通常是力和抓取样本。视觉型传感器以高分辨率的凝胶变形图像为主，更多地聚焦于高阶估计、纹理识别和操控任务。数据集由Geisight传感器、DIGIT传感器及其模拟器[199]、[201]、[202]、[206]收集，包含家庭物品、野生环境、不同材料和抓取物品。由于图像信息可以轻松与其他模态（如图像、语言、音频等）对齐并绑定[14]、[210]，因此在具身智能体中的触觉感知主要围绕视觉型传感器展开。我们介绍了十大主要的触觉数据集，并在表VIII中进行了总结。

3、方法：触觉感知有许多应用，可以分为三类：估计、精确的机器人操控和多模态识别任务。

a、估计：早期的估计工作主要集中在形状、力和滑移测量的基本算法上[202]、[220]、[221]。研究人员通常使用阈值或应用卷积神经网络（CNN）来解决这些任务，基于触觉图像的颜色和不同帧中标记分布的变化。估计工作的重点主要在第二阶段，即触觉图像的生成和物体的重建。触觉图像的生成[222]–[225]旨在从视觉数据生成触觉图像。最初，它应用了深度学习模型，输入RGB-D图像并输出触觉图像[222]、[223]。近年来，随着图像生成技术的快速发展，Higuera等[224]和Yang等[225]应用扩散模型进行触觉图像生成，并取得了良好效果。物体的重建可以分为2D重建[226]、[227]和3D重建[202]、[219]、[228]–[241]。2D重建主要关注物体的形状和分割，而3D重建则关注物体的表面和姿态，甚至是完整的场景感知。任务最初采用数学方法、自编码器方法和神经网络方法，将视觉（有时是点云）和触觉特征融合在一起。最近，像Comi等[236]和Dou等[219]的研究者将基于神经辐射场（NeRF）和3D高斯溅射（3DGS）的方法应用于触觉重建工作。

b、 机器人操控：在触觉任务中，弥补模拟到现实的差距尤为重要。为了应对精准且及时的机器人操控任务的变化，提出了基于强化学习和生成对抗网络（GAN）的方法。

强化学习方法：Visuotactile-RL[242]提出了多种现有RL方法的改进，包括触觉门控、触觉数据增强和视觉降级。Rotateit[243]是一个系统，通过利用多模态传感输入，使得机器人能够沿多个轴旋转物体。该系统通过强化学习策略使用特权信息进行网络训练，并实现在线推理。[244]提出了一种仅使用触觉感知的深度强化学习方法来推动物体。该方法提出了一种基于目标条件的公式，使得模型无关和模型相关的强化学习都能获得精确的推动策略。AnyRotate[245]聚焦于手中操控。它是一个系统，使用密集特征的模拟到现实触觉，进行重力不变的多轴物体旋转，通过构建连续的接触特征表示，为模拟中训练策略提供触觉反馈，并通过训练观察模型引入零-shot策略迁移，弥补模拟到现实的差距。

基于GAN的方法：ACTNet [246] 提出了一个无监督的对抗性领域自适应方法，以缩小像素级触觉感知任务的领域差距。该方法引入了一种自适应相关注意机制来改进生成器，能够利用全局信息并专注于显著区域。然而，像素级领域自适应会导致误差积累，降低性能，并增加结构复杂性和训练成本。相比之下，STR-Net [247] 提出了一个针对触觉图像的特征级无监督框架，缩小了特征级触觉感知任务的领域差距。此外，一些方法专注于模拟到现实的迁移。例如，Tactile Gym 2.0 [248]。然而，由于其复杂性和高成本，实际应用中面临挑战。

c、识别：触觉表征学习主要集中在材料分类和多模态理解，分为两类：传统方法和LLM&VLM方法。

传统方法：各种传统方法已被用于增强触觉表征学习。自编码器框架在开发紧凑的触觉数据表征方面发挥了重要作用。Polic等人 [249] 使用卷积神经网络自编码器进行光学触觉传感器图像的降维。Gao等人 [250] 创建了一个监督式递归自编码器，以处理异构传感器数据集，而Cao等人 [251] 创建了TacMAE，使用掩码自编码器处理不完整的触觉数据。Zhang等人 [252] 提出了MAE4GM，这是一个集成视觉-触觉数据的多模态自编码器。由于触觉作为其他模式的补充，联合训练方法被用来融合多种模态。Yuan等人 [253] 使用包含深度、视觉和触觉数据的CNN进行训练。同样，Lee等人 [254] 使用变分贝叶斯方法处理诸如力传感器系列和末端执行器指标等模态。为了更好的学习表征，像对比学习这样的自监督方法也是将模态绑定在一起的关键技术。研究者在对比方法上有所不同，Lin等人 [255] 只是将触觉输入与多种视觉输入配对，而Yang等人 [256] 则采用了视觉-触觉对比多视图特征。Kerr等人 [215] 使用了InfoNCE损失，Guzey等人 [257] 使用了BYOL。这些传统方法为触觉表征学习奠定了坚实的基础。

LLM和VLM方法：最近，LLM和VLM在跨模态交互理解和强大的零-shot表现方面表现出了惊人的能力。Yang等人 [189]、Fu等人 [218] 和Yu等人 [258] 的研究通过对比预训练方法编码并对齐了触觉数据与视觉和语言模态。然后，像LLaMA这样的LLM被应用，并通过微调方法适配触觉描述等任务。LLM和VLM技术的出现进一步推动了该领域的发展，使得跨模态触觉表征更加全面和稳健。

4、难点：
a) 不同传感器类型的缺点：传统传感器提供简单且低维的数据，挑战多模态学习。基于视觉的传感器和电子皮肤尽管准确度高，但价格昂贵。
b) 数据采集挑战：尽管在开发简化的采集设备方面取得了一些进展，同时收集触觉和视觉数据仍然困难。
c) 标准不一致：触觉传感器操作的标准和原理不一致，阻碍了大规模学习，并限制了公共数据集的实用性。亟需标准化和广泛的数据集。

V. EMBODIED INTERACTION

任务：具身交互任务是指智能体在物理或模拟空间中与人类和环境互动的场景。典型的具身交互任务包括具身问答（EQA）和具身抓取。

A. Embodied Question Answering

在EQA任务中，智能体需要从第一人称视角探索环境，以收集回答给定问题所需的信息。一个具备自主探索和决策能力的智能体不仅需要考虑采取哪些行动来探索环境，还需要决定何时停止探索以回答问题。现有的研究集中于不同类型的问题，部分问题如图11所示。本节将介绍现有的数据集，讨论相关方法，描述用于评估模型性能的指标，并探讨该任务的剩余局限性。

1、数据集：在真实环境中进行机器人实验往往受到场景和机器人硬件的限制。作为虚拟实验平台，模拟器为构建具身问答数据集提供了合适的环境条件。在模拟器中构建和测试数据集，可以显著减少实验成本，并提高将模型部署到真实机器上的成功率。我们简要介绍几个具身问答数据集，并在表IX中进行了总结。

EQA v1 [259]是第一个为EQA设计的数据集。该数据集基于SUNCG数据集[95]中的合成3D室内场景，在House3D模拟器[269]中构建，包含四种类型的问题：位置、颜色、颜色房间和介词。它包含超过5000个问题，分布在750多个环境中。问题通过功能程序执行构建，使用模板选择和组合基本操作。

与EQA v1类似，MT-EQA [260]也是在House3D中使用SUNCG构建的，通过执行由一些基本操作组成的功能程序。然而，它进一步将单一物体的问答任务扩展到多物体设置。设计了六种类型的问题，涉及多物体之间的颜色、距离和大小比较。该数据集包含19,287个问题，分布在588个环境中。

MP3D-EQA [261]基于MINOS开发的模拟器[270]，使用Matterport3D数据集[271]，将问答任务扩展到真实的3D环境。与EQA v1类似，MP3D-EQA利用三种模板：位置、颜色和颜色房间，生成了1136个问题，覆盖83个家庭环境。

IQUAD V1 [262]基于AI2-THOR构建，包含三种类型的问题：存在性、计数和空间关系。它使用预先编写的模板生成了超过75,000个多项选择题，每个问题都伴随一个独特的场景配置。与其他数据集不同，回答IQUAD V1的问题要求智能体对可用性有很好的理解，并与动态环境进行交互。

VideoNavQA [263]将视觉推理与EQA问题的导航方面解耦。在这个任务中，智能体访问与探索轨迹相对应的视频，获取足够的信息来回答问题。仍然参考EQA v1，VideoNavQA根据功能模板样式的表示生成问题。它还渲染最短轨迹以模拟接近最优的导航路径，生成与智能体在探索环境中看到的场景对应的视频。VideoNavQA在House3D环境中使用SUNCG生成了大约101,000对视频和问题，覆盖28种问题类型，分为存在性、计数和定位等8类。

SQA3D [264]简化了协议（仅QA），同时保持了基准具身场景理解的功能，能够提出更复杂、更具知识性的问题，并收集大规模数据。具体而言，SQA3D提供了一个数据集，包含约6,800种独特情境，20,400个描述和33,400个多样化推理问题，基于ScanNet[272]场景。

与之前的数据集不同，K-EQA [265]特征复杂的带有逻辑子句和知识相关短语的问题，要求在回答时运用先验知识。它基于AI2Thor构建，包含四种类型的问题：存在性、计数、列举和比较。每个实体都映射到一个知识库，并进一步构建知识图谱。在这项工作中，扩展了IQA[262]和MT-EQA中的模板，构建了一组语法。在指定对象和逻辑关系之后，引入了知识图谱、场景图等，用于生成问题并计算真实答案。最终生成的K-EQA数据集包含60,000个问题，覆盖6000种不同的环境设置。

OpenEQA [266]是第一个开放词汇的EQA数据集，支持情节记忆和主动探索任务。情节记忆EQA（EM-EQA）任务要求智能体从其情节记忆中理解环境，以回答问题，类似于VideoNavQA。主动EQA（A-EQA）任务要求智能体通过采取探索行动收集必要的信息来回答问题。利用ScanNet和HM3D[273]，人工标注者在Habitat中构建了超过1600个高质量的问题，覆盖180多个真实世界环境。

利用GPT4-V，HM-EQA [267]是在Habitat模拟器中使用HM3D构建的。它包含500个问题，涵盖267种不同场景，粗略分类为识别、计数、存在性、状态和定位等。为了保持一致性，每个问题都有四个多项选择答案。S-EQA [268]在VirtualHome中利用GPT-4进行数据生成，并采用余弦相似度计算来决定是否保留生成的数据，从而增强数据集的多样性。在S-EQA中，回答问题需要评估一组共识对象和状态，以达到存在性“是/否”答案。

2、方法：具身问答任务主要涉及导航和问答子任务，实施方法大致可以分为两类：基于神经网络的方法和基于LLM/VLM的方法。

神经网络方法：在早期的工作中，研究人员主要通过构建深度神经网络来解决具身问答任务。他们使用模仿学习和强化学习等技术训练和微调这些模型，以提高性能。

EQA任务最初由Das等人[259]提出。在他们的工作中，智能体由四个主要模块组成：视觉、语言、导航和回答。这些模块主要通过传统的神经网络构建块：卷积神经网络（CNN）和循环神经网络（RNN）进行训练，分为两个阶段进行。初期，导航和回答模块使用自动生成的专家导航演示进行训练，采用模仿学习或监督学习。随后，在第二阶段，使用策略梯度方法微调导航架构。之后的一些工作[274]，[275]保留了Das等人提出的问题回答模块，并对模型进行了改进。此外，Wu等人[275]提出将导航和问答模块整合到统一的SGD训练流程中进行联合训练，从而避免了采用深度强化学习来同时训练分别训练的导航和问答模块。

一些研究还尝试增加问答任务的复杂性和完整性。从任务单一性的角度出发，一些工作[260]，[276]将任务扩展到多目标和多智能体，要求模型通过特征提取和场景重建等方法存储和整合智能体探索过程中获得的信息。考虑到智能体与动态环境的互动，Gordon等人[262]提出了层次互动记忆网络。在这个过程中，任务选择由计划者控制，低级控制器负责执行任务。在此过程中，使用自我中心空间GRU（esGRU）存储空间记忆，帮助智能体进行导航并提供答案。以前的研究存在一个局限性，即智能体无法利用外部知识回答复杂问题，也缺乏对已探索场景的记忆。为了解决这个问题，Tan等人[265]提出了一个框架，利用神经程序合成方法和通过3D场景图表转换的表格，允许行动规划者访问与对象相关的信息。此外，使用蒙特卡罗树搜索（MCTS）的方法来确定智能体下一步要移动到的地点。

LLMs/VLMs方法 ：近年来，LLMs和VLMs不断取得进展，并在各个领域展现了卓越的能力。因此，研究人员尝试将这些模型应用于解决体现问答任务，而无需额外的微调。

Majumdar等人[266]探讨了使用LLMs和VLMs处理记忆性EQA（EM-EQA）任务和主动EQA（A-EQA）任务。对于EM-EQA任务，他们考虑了盲LLMs、苏格拉底LLMs（使用语言描述的记忆）、苏格拉底LLMs（使用构建的场景图描述）和处理多个场景帧的VLMs。A-EQA任务则扩展了EM-EQA方法，加入了基于前沿探索（FBE）的方法[277]，用于独立的环境探索。

3、 评估指标 ：模型性能通常根据两个方面进行评估：导航和问答。在导航中，许多工作沿用了Das等人[259]提出的方法，使用一些指标，如导航完成后到目标物体的距离（dT）、从初始位置到最终位置的目标距离变化（d∆）以及在任意时刻到目标的最小距离（dmin）来评估模型的表现。评估主要涉及平均排名（MR）和答案的准确率。最近，Majumdar等人[266]提出了聚合LLM准确度指标（LLM-Match），用于评估开放词汇答案的准确性。

4、局限性 ：a、数据集：构建数据集需要大量的人力和资源。此外，大规模数据集仍然较少，不同数据集的模型评估指标差异较大，增加了测试和比较性能的难度。b、模型：尽管LLMs的进展带来了显著的改善，这些模型的表现仍远远落后于人类水平。未来的工作可能更多地关注有效存储代理探索到的环境信息，并引导代理根据环境记忆和问题规划行动，同时提升模型的可解释性。

B. Embodied Grasping

具身交互除了与人类进行问答互动外，还涉及根据人类指令执行操作，例如抓取和放置物体，从而完成机器人、人类和物体之间的交互。具身抓取需要综合的语义理解、场景感知、决策制定和稳健的控制规划。具身抓取方法将传统的机器人运动学抓取与大规模模型（如大型语言模型 [LLMs] [280] 和视觉语言基础模型 [14]）相结合，使得代理能够在多重感知下执行抓取任务，包括视觉主动感知、语言理解和推理。图12（b）展示了人-代理-物体交互的概述，其中代理完成具身抓取任务。

1、抓取器：目前，抓取技术的研究重点是两指平行夹持器和五指灵巧手。对于两指平行夹持器，抓取姿势通常分为两类：4自由度（DOF）和6自由度（DOF）[290]。4自由度抓取合成[281]，[282]，[286]通过三维位置和自上而下的手部方向（偏航角）来定义抓取，通常被称为“自上而下抓取”。与此不同，6自由度抓取合成[284]，[291]，[292]通过六维位置和方向来定义抓取姿势。对于五指灵巧手抓取器，广泛使用的五指机器人灵巧手ShadowHand具有26个自由度（DOF）。这种高维度显著增加了生成有效抓取姿势和规划执行轨迹的复杂性。

2、数据集：近年来，已生成大量抓取数据集[281]–[285]。这些数据集通常包含基于图像（RGB、深度）、点云或三维场景的标注抓取数据。随着大规模语言模型（MLMs）的出现以及基础语言模型在机器人抓取中的应用，急需包含语言文本的数据集。因此，现有数据集已被扩展或重构，创建了语义抓取数据集[287]–[289]，[293]。这些数据集在研究基于语言的抓取模型中起着至关重要的作用，使得代理能够建立对语义的广泛理解。

传统的抓取数据集包括单个物体[281]和杂乱场景[286]的数据，为每个物体提供符合运动学的稳定抓取标注（4自由度或6自由度）。这些数据可以从真实桌面环境[281]中收集，通常包括RGB、深度和点云数据，或从虚拟环境[284]中收集，包括图像数据、点云或场景模型。虽然这些数据集对抓取模型有帮助，但缺乏语义信息。为弥补这一差距，这些数据集已通过语义表达进行了扩展或增强[287]，[294]，从而将语言、视觉和抓取联系起来。通过融入语义信息，代理能够更好地理解和执行抓取任务。这一增强使得更复杂、具语义意识的抓取模型得以开发，促进了与环境的更直观、更有效的互动。表X展示了上述数据集，包括传统抓取数据集和基于语言的抓取数据集。

3、语言引导抓取：由此融合而来的语言引导抓取概念[287]，[288]，[294]，结合了大规模语言模型（MLMs），使得代理具备语义场景推理的能力。这使得代理能够基于隐性或显性的人类指令执行抓取操作。图12（c）展示了近年来在语言引导抓取主题上的出版趋势。随着大型语言模型（LLMs）的进展，研究人员对此主题的兴趣逐渐增加。目前，抓取研究越来越侧重于开放世界场景，强调开放集泛化[295]方法。通过利用大规模语言模型的泛化能力，机器人能够在开放世界环境中以更智能、高效的方式执行抓取任务。

在语言引导抓取中，语义可以来自显性指令[295]，[296]和隐性指令[288]，[289]。显性指令明确指定要抓取的物体类别，如香蕉或苹果。然而，隐性指令则需要推理来识别要抓取的物体或物体的一部分，涉及空间推理和逻辑推理。

空间推理[287]指的是指令可能包含物体或要抓取部分的空间关系，需要根据场景中物体的空间关系推断抓取姿势。例如，“抓取位于棕色纸巾盒右侧的键盘”需要理解并推断物体的空间排列。逻辑推理[288]则涉及指令可能包含的逻辑关系，需要推理出人类意图，并随后抓取目标。例如，“我口渴了，你能给我点水吗？”会促使代理可能递给一杯水或一瓶饮料。代理需要确保在交接过程中液体不洒出来，从而生成合理的抓取姿势。

在这两种情况下，语义理解与空间和逻辑推理的结合使得代理能够有效、准确地执行复杂的抓取任务。图12（a）展示了各种类型的语言引导抓取任务。

4、端到端方法：CLIPORT[294]是一个语言条件模仿学习代理，结合了视觉-语言预训练模型CLIP与Transporter Net，创建了一个端到端的双流架构，用于语义理解和抓取生成。它通过大量从虚拟环境中收集的专家演示数据进行训练，使代理能够执行语义引导的抓取。基于OCID数据集，CROG[287]提出了一个视觉-语言-抓取数据集，并引入了一个竞争性的端到端基准。它利用CLIP的视觉基础能力直接从图像-文本对中学习抓取合成。Reasoning Grasping[288]提出了第一个基于GraspNet-1 Billion数据集的推理抓取基准数据集，并提出了一个端到端的推理抓取模型。该模型将多模态大规模语言模型与基于视觉的机器人抓取框架相结合，根据语义和视觉生成抓取。SemGrasp[289]是一种基于语义的抓取生成方法，它将语义信息融入抓取表示中，生成灵巧手的抓取姿势。它引入了一种离散表示，将抓取空间与语义空间对齐，使得根据语言指令生成抓取姿势成为可能。为促进训练，提出了大规模抓取-文本对齐数据集CapGrasp。

5、模块化方法：F3RM[295]旨在将CLIP的文本-图像先验提升到三维空间，使用提取的特征进行语言定位，然后生成抓取。它结合了精确的三维几何与来自二维基础模型的丰富语义，利用从CLIP中提取的特征，通过自然语言自由文本指定要操控的物体。它展示了能够泛化到未知表达和新物体类别的能力。GaussianGrasper[296]利用三维高斯场来实现语言引导的抓取任务。所提出的方法首先构建三维高斯场，随后进行特征蒸馏。接下来，使用提取的特征进行基于语言的定位。最后，基于最先进的预训练抓取网络[297]进行抓取姿势生成。它将开放词汇的语义与精确几何结合，使得根据语言指令进行抓取成为可能。

这些方法通过端到端和模块化框架的结合，推动了语言引导抓取领域的发展，从而增强了机器人代理通过自然语言指令理解和执行复杂抓取任务的能力。具身抓取使得机器人能够与物体进行互动，从而提高其在家庭服务和工业制造中的智能性和实用性。然而，现有的具身抓取方法存在一些局限性，例如对大量数据的依赖和对未见数据的泛化能力较差。未来的研究将聚焦于提升代理的普适性，使得机器人能够理解更复杂的语义，抓取更广泛的未见物体，并完成更复杂的抓取任务。

VI. EMBODIED AGENT

代理被定义为一种能够感知环境并采取行动以实现特定目标的自主实体。最近，MLM（多语言模型）技术的进展进一步扩展了代理在实际场景中的应用。当这些基于MLM的代理体现在物理实体中时，它们可以有效地将其能力从虚拟空间转移到物理世界，从而成为具身代理[298]。图13展示了具身代理的时间轴概览。

为了使具身代理能够在信息丰富且复杂的现实世界中操作，具身代理已经发展出了强大的多模态感知、交互和规划能力，如图14所示。为了完成任务，具身代理通常涉及以下过程：1）将抽象且复杂的任务分解为具体的子任务，这称为高层次具身任务规划。2）通过有效利用具身感知和具身交互模型，或利用基础模型的策略功能，逐步实现这些子任务，这称为低层次具身行动规划。值得注意的是，任务规划涉及在行动前进行思考，因此通常在网络空间中进行。相反，行动规划必须考虑与环境的有效交互，并将此信息反馈给任务规划器以调整任务规划。因此，具身代理在从网络空间到物理世界的能力对齐和泛化至关重要。

A. Embodied Multimodal Foundation Model

具身代理需要视觉识别环境、听觉理解指令并理解自身状态，以实现复杂的交互和操作。这要求模型能够集成多种感官模态和自然语言处理能力，通过综合不同类型的数据，增强代理的理解和决策能力。因此，具身多模态基础模型应运而生。最近，Google DeepMind发现，利用基础模型和大规模、多样化的数据集是最优策略。他们基于机器人变换器（Robotic Transformer，RT）[11]开发了一系列工作，为未来的具身代理研究提供了重要见解。

基础机器人模型方面已经取得了重大进展，从SayCan[299]中的初始方法开始，最初使用三个独立的模型进行规划、可用性和低级策略。Q-Transformer[300]后来将可用性和低级策略统一，PaLM-E[301]整合了规划和可用性。随后，RT-2[302]通过将这三种功能整合到一个模型中，取得了突破，实现了联合扩展和正向迁移。这代表了机器人基础模型的重大进展。RT-2引入了视觉-语言-行动（VLA）模型，具备“思维链”推理能力，能够进行多步语义推理，如在不同情境下选择备用工具或饮品。最终，RT-H[4]实现了一个端到端的机器人变换器，具有行动层次结构，能够在细粒度层次上推理任务规划。

为了克服具身模型的泛化限制，Google与33家领先学术机构合作，创建了全面的Open X-Embodiment数据集[303]，集成了22种不同类型的数据。利用这个数据集，他们训练了通用的大型模型RT-X。这也促进了更多开源VLM（视觉语言模型）在机器人领域的参与，如基于LLaVA的EmbodiedGPT[304]和基于Flamingo的RoboFlamingo[305]。尽管Open X-Embodiment提供了丰富的数据信息，但鉴于具身机器人平台的快速演进，构建数据集仍然是一个挑战。为了解决这个问题，AutoRT[306]创建了一个系统，通过部署机器人到新环境中收集训练数据，利用LLMs（大语言模型）通过更多样化和全面的数据增强学习能力。

此外，基于transformer的架构面临效率问题，因为具身模型需要长上下文，包括来自视觉、语言和具身状态的信息，以及与当前执行任务相关的记忆。例如，尽管RT-2表现强劲，其推理频率仅为1-3Hz。为此，已有多项努力，如通过量化和蒸馏来部署模型。此外，改进模型框架是另一个可行的解决方案。SARA-RT[307]采用了更高效的线性注意力机制，而RoboMamba[308]使用了mamba架构，该架构在长序列任务中表现得更高效，使得推理速度比现有机器人MLM快七倍。

基于生成模型的RT在高层次任务理解和规划方面表现出色，但在低层次行动规划中存在局限性，因为生成模型无法精确生成行动参数，而且高层次任务规划和低层次行动执行之间存在差距。为此，Google引入了RT-Trajectory[309]，通过自动添加机器人轨迹，为学习机器人控制策略提供低层次的视觉提示。类似地，基于RT-2框架，带有行动层次结构的机器人变换器（RT-H）通过中间语言动作将高层任务描述与低层机器人动作连接起来[4]。此外，VLA模型在高层规划和可用性任务中展现出新兴能力，但在低层物理交互中未能展现新技能，且受到数据集中技能类别的限制，导致动作笨拙。未来的研究应将强化学习融入大模型的训练框架中，以提高泛化能力，使VLA模型能够在真实环境中自主学习并优化低层物理交互策略，从而更灵活、准确地执行各种物理动作。

B. Embodied Task Planning

如前所述，任务“将苹果放到盘子上”时，任务规划器将其分解为子任务“找到苹果，拿起苹果”、“找到盘子”、“放下苹果”。由于如何寻找（导航任务）或拿起/放下动作（抓取任务）不在任务规划的范围内，这些动作通常在仿真器中预定义，或在实际场景中通过预训练策略模型执行，例如使用CLIPort[294]进行抓取任务。

传统的具身任务规划方法通常基于明确的规则和逻辑推理。例如，象征性规划算法如STRIPS[310]和PDDL[311]，以及搜索算法如MCTS[312]和A*[313]被用来生成计划。然而，这些方法往往依赖于预定义的规则、约束和启发式方法，这些规则和方法是僵化的，可能无法适应环境中的动态变化或不可预见的变化。随着LLM（大语言模型）流行，许多工作尝试使用LLM进行规划，或将传统方法与LLM结合，利用其中嵌入的丰富世界知识进行推理和规划，而无需手工定义，从而大大增强了模型的泛化能力。

1、利用LLM新兴能力进行规划：在自然语言模型的规模化之前，任务规划器通常通过训练像BERT这样的模型，基于具身指令数据集如Alfred[314]和Alfworld[315]进行实现，正如FILM[316]所展示的那样。然而，这种方法受限于训练集中示例的局限，未能有效与物理世界对接。如今，得益于LLM的涌现能力，它们能够利用内在的世界知识和思维链推理，将抽象任务分解为可管理的步骤，类似于人类在执行任务前推理任务完成的步骤。例如，Translated LM[317]和Inner Monologue[318]可以利用其内在逻辑和知识系统，将复杂任务分解为步骤并提出解决方案，而无需额外的训练，如ReAct[319]。类似地，提出了多代理协作框架ReAd[320]，通过不同提示的自我修正计划来提高效率。此外，一些方法将过去成功的示例抽象为一系列存储在记忆库中的技能，在推理过程中考虑并提高规划的成功率[321]–[323]。还有一些工作使用代码作为推理媒介，而不是自然语言，其中任务规划基于可用的API库生成代码[324]–[326]。此外，多轮推理可以有效纠正任务规划中的潜在幻觉，这是许多基于LLM的代理研究的重点。例如，Socratic Models[327]和Socratic Planner[328]通过苏格拉底式提问推导出可靠的规划。

然而，在任务规划过程中，执行阶段可能发生潜在失败，通常是因为规划者未充分考虑真实环境的复杂性和任务执行的困难[318][329]。由于缺乏视觉信息，计划的子任务可能与实际场景偏离，导致任务失败。因此，在执行过程中将视觉信息集成到规划或重规划中是必要的。这种方法能够显著提高任务规划的准确性和可行性，更好地应对现实环境中的挑战。

2、利用具身感知模型的视觉信息进行规划：基于上述讨论，将视觉信息进一步整合到任务规划（或重新规划）中显得尤为重要。在此过程中，视觉输入提供的对象标签、位置或描述可以为大语言模型（LLMs）的任务分解与执行提供关键参考。通过视觉信息，LLMs 能够更准确地识别当前环境中的目标对象和障碍物，从而优化任务步骤或调整子任务目标。一些研究使用目标检测器在任务执行过程中查询环境中存在的对象，并将此信息反馈给 LLM，从而修改当前计划中不合理的步骤[327][329][330]。例如，RoboGPT 考虑了同一任务中相似对象的不同名称，进一步提升了重新规划的可行性[10]。然而，仅靠标签提供的信息仍然过于有限。是否可以提供更丰富的场景信息？SayPlan[331]提出使用分层 3D 场景图表示环境，有效缓解了在大型、多楼层和多房间环境中进行任务规划的挑战。同样，ConceptGraphs[332]也采用 3D 场景图为 LLM 提供环境信息。相比 SayPlan，其提供了更详细的开放世界目标检测，并以基于代码的格式呈现任务规划，这种方式更高效且更适合复杂任务的需求。

然而，有限的视觉信息可能导致智能体对环境的理解不足。尽管为 LLM 提供了视觉线索，但它们常常无法捕捉环境的复杂性和动态变化，从而引发误解或任务失败。例如，如果毛巾被锁在浴室柜中，智能体可能会反复搜索浴室，而不会考虑这一可能性[10]。为了解决这一问题，必须开发更稳健的算法，以整合多种感官数据，从而增强智能体对环境的理解。此外，即使在视觉信息有限的情况下，利用历史数据和上下文推理也能帮助智能体作出合理的判断和决策。这种多模态整合和基于上下文的推理方法不仅可以提高任务执行的成功率，还为具身人工智能的发展提供了新视角。

3、利用 VLM 进行规划：与通过外部视觉模型将环境信息转换为文本的方式相比，VLM 模型能够在潜在空间中捕捉视觉细节，尤其是那些难以用对象标签表示的上下文信息。VLM 能够识别视觉现象背后的规律，例如，即使环境中没有看到毛巾，也可以推断毛巾可能被存放在柜子里。这一过程本质上展示了抽象的视觉特征与结构化的文本特征如何在潜在空间中更有效地对齐。在 EmbodiedGPT[304]中，Embodied-Former 模块对具身信息、视觉信息和文本信息进行对齐，有效地在任务规划过程中考虑了智能体的状态和环境信息。与直接使用第三人称视角图像的 EmbodiedGPT 不同，LEO[333]将 2D 的自我中心图像和 3D 场景编码为视觉标记。这种方法有效感知 3D 世界信息并据此执行任务。同样，EIF-Unknow 模型利用从体素特征中提取的语义特征图作为视觉标记，并将其与文本标记一起输入经过训练的 LLaVA 模型进行任务规划[334]。此外，具身多模态基础模型（即 VLA 模型）已在诸如 RT 系列[11][302]、PaLM-E[301]和 Matcha[335]等研究中使用大规模数据集进行广泛训练，从而在具身场景中实现视觉和文本特征的对齐。

然而，任务规划只是智能体完成指令任务的第一步，随后的动作规划决定了任务能否完成。在 RoboGPT[10]的实验中，任务规划的准确率达到 96%，但总体任务完成率仅为 60%，受限于底层规划器的性能。因此，具身智能体能否从“想象任务完成方式”的网络空间转向“与环境交互并完成任务”的物理世界，取决于动作规划的有效性。

C. Embodied Action Planning

第 VI-B 节讨论了任务规划与动作规划的定义及其区别。显然，动作规划必须应对现实世界中的不确定性，因为任务规划提供的子任务粒度不足以指导智能体与环境的交互。一般来说，智能体可以通过以下两种方式实现动作规划：
(1）使用预训练的具身感知和具身干预模型作为工具，通过 API 逐步完成任务规划指定的子任务；
(2）利用 VLA 模型的内在能力推导动作规划。此外，动作规划器的执行结果会反馈给任务规划器，以调整和改进任务规划。

1、利用 API 进行动作：一种典型的方法是将各种经过良好训练的策略模型的定义和描述作为上下文提供给 LLM，使其能够理解这些工具并确定在特定任务中如何以及何时调用它们[299][329]。此外，通过生成代码，可以将一系列更细粒度的工具抽象为函数库供调用，而不是直接将子任务所需的参数传递给导航和抓取模型[326]。鉴于环境的不确定性，Reflexion 能够在执行过程中进一步调整这些工具，以实现更好的泛化能力[336]。优化这些工具可以增强智能体的鲁棒性，同时可能需要新的工具来完成未知任务。在零样本学习的前提下，DEPS 赋予 LLM 不同的角色设置，使其能够在与环境交互的过程中学习多样化的技能。在后续交互中，LLM 学会选择和组合这些技能，从而开发出新技能[337]。

这种分层规划范式允许智能体专注于高层次的任务规划与决策，将具体的动作执行委托给策略模型，从而简化开发过程。任务规划器和动作规划器的模块化设计使得它们可以独立开发、测试和优化，从而增强系统的灵活性和可维护性。这种方法使智能体能够通过调用不同的动作规划器适应各种任务和环境，并在不需要对智能体结构进行重大修改的情况下实现调整。然而，调用外部策略模型可能引入延迟，特别是在实时任务中可能影响响应时间和效率。智能体的性能高度依赖于策略模型的质量。如果策略模型无效，智能体的整体性能也会受到影响。

2、利用 VLA 模型进行动作：与前一种任务规划和动作执行在不同系统中完成的方法不同，这种范式利用具身多模态基础模型的能力进行规划和执行动作，从而减少通信延迟并提高系统响应速度和效率。在 VLA 模型中，感知、决策和执行模块的紧密整合使系统能够更高效地处理复杂任务并适应动态环境中的变化。这种整合还促进了实时反馈，使智能体能够自我调整策略，从而增强任务执行的鲁棒性和适应性[3][303][304]。然而，这种范式无疑更复杂且成本更高，特别是在处理复杂或长期任务时。此外，一个关键问题是，没有具身世界模型的动作规划器仅凭 LLM 的内部知识无法模拟物理规律。这一限制妨碍了智能体在物理世界中准确高效地完成各种任务，从而无法实现从网络空间到物理世界的无缝过渡。

VII. SIM-TO-REAL ADAPTATION

尽管具身AI取得了快速进展，但它仍面临许多挑战，并展示了令人兴奋的未来研究方向。

高质量机器人数据集

获取足够的真实世界机器人数据仍是一个重大挑战。收集这些数据既耗时又资源密集。仅依赖模拟数据会加剧模拟到现实的差距问题。创建多样化的真实世界机器人数据集需要各机构之间密切和广泛的合作。此外，开发更逼真和高效的模拟器对于提高模拟数据的质量至关重要。当前的工作RT-1 [11] 使用基于机器人图像和自然语言指令的预训练模型。RT-1在导航和抓取任务中取得了良好的结果，但获取真实世界机器人数据集仍然非常具有挑战性。为了构建能够跨场景和跨任务应用的通用具身模型，必须构建大规模数据集，并利用高质量模拟环境数据来辅助真实世界数据。

人类演示数据的高效利用

人类演示数据的高效利用涉及利用人类示范的动作和行为来训练和改进机器人系统。这个过程包括收集、处理并从大规模、高质量数据集中学习，这些数据集中包含人类完成机器人学习任务的示范。当前的工作R3M [388] 使用动作标签和人类演示数据来学习具有高成功率的通用表示，但在复杂任务中的效率仍需提高。因此，重要的是有效利用大量的非结构化、多标签和多模态的人类演示数据，结合动作标签数据，训练具身模型，使其能够在相对较短的时间内学习各种任务。通过高效利用人类演示数据，机器人系统能够实现更高的性能和适应性，使其能够在动态环境中完成复杂任务。

复杂环境的认知

复杂环境的认知是指具身智能体在物理或虚拟环境中感知、理解和导航复杂真实环境的能力。基于广泛的常识知识，Say-Can [299] 利用预训练的大型语言模型的任务分解机制，该机制严重依赖大量常识知识进行简单任务规划，但缺乏对复杂环境中长期任务的理解。在非结构化的开放环境中，当前的工作通常依赖于预训练的大型语言模型的任务分解机制，使用广泛的常识知识进行简单任务规划，而缺乏对特定场景的理解。增强复杂环境中知识迁移和泛化的能力至关重要。一个真正多功能的机器人系统应该能够理解并执行跨越多样化和未知场景的自然语言指令。这需要开发适应性和可扩展的具身智能体架构。

长期任务执行

执行单一指令往往涉及机器人执行长期任务，例如“清洁厨房”这样的命令，包括重新排列物体、扫地、擦桌子等活动。成功完成此类任务需要机器人能够规划并执行一系列低层动作以完成长期目标任务。尽管当前的高级任务规划器已显示出初步成功，但由于缺乏针对具身任务的调整，它们在多样化场景中往往表现不佳。解决此挑战需要开发高效的规划器，配备鲁棒的感知能力和丰富的常识知识。

因果关系发现

现有数据驱动的具身智能体基于数据中的内在相关性做出决策。然而，这种建模方法并不能让模型真正理解知识、行为和环境之间的因果关系，从而导致策略存在偏差。这使得它们在现实世界环境中的可解释性、鲁棒性和可靠性难以保证。因此，具身智能体需要通过世界知识驱动，具备自主因果推理能力。通过交互理解世界，并通过溯因推理（abductive reasoning）学习其运作机制，我们可以进一步提高多模态具身智能体在复杂现实环境中的适应性、决策可靠性和泛化能力。对于具身任务，有必要通过交互式指令和状态预测，跨模态建立时空因果关系。此外，智能体需要理解对象的功能属性（affordances），以实现动态场景中的自适应任务规划和长距离自主导航。为了优化决策，需要结合反事实和因果干预策略，从反事实和因果干预的角度追溯因果关系，减少探索迭代并优化决策。基于世界知识构建因果图，并通过主动因果推理推动智能体的模拟到现实转移，将形成具身AI的统一框架。

持续学习

在机器人应用中，持续学习[391] 对于在多样化环境中部署机器人学习策略至关重要，但仍是一个尚未充分探索的领域。尽管一些最新研究已经考察了持续学习的子主题，例如增量学习、快速运动适应和人类在环学习，但这些解决方案通常针对单一任务或平台设计，尚未考虑基础模型的应用。开放研究问题和可行方法包括：1）在对最新数据进行微调时混合不同比例的先验数据分布以缓解灾难性遗忘[392]，2）从先验分布或课程中开发高效原型，用于学习新任务的任务推断，3）改进在线学习算法的训练稳定性和样本效率，4）通过分层学习或慢-快控制，将大容量模型无缝融入控制框架中，以实现实时推理。

统一评估基准

尽管已有许多基准用于评估低层控制策略，但它们在评估的技能上往往存在显著差异。此外，这些基准所包含的对象和场景通常受到模拟器限制。为了全面评估具身模型，需要涵盖广泛技能并使用现实模拟器的基准。在高级任务规划器方面，许多基准测试通过问答任务评估规划能力。然而，更理想的方法是综合评估高级任务规划器和低层控制策略，通过执行长期任务并测量成功率，而不仅仅依赖于对规划器的独立评估。这种集成的方法能够更全面地评估具身AI系统的能力。

IX. CONCLUSION

具身AI使智能体能够感知、理解并与来自网络空间和物理世界的各种物体互动，这凸显了其在实现AGI（通用人工智能）方面的重要意义。本综述全面回顾了具身机器人、模拟器以及四个代表性的具身任务：视觉主动感知、具身互动、具身智能体和模拟到现实的机器人控制，并探讨了未来的研究方向。对具身机器人、模拟器、数据集和方法的比较总结，清晰地展示了具身AI的最新发展，这对于未来在这一新兴且充满前景的研究方向上的工作具有重要的推动作用。

【论文阅读|具身智能】Aligning Cyber Space with Physical World: A Comprehensive Survey on Embodied AI

文章目录