25年5月来自 Cornell 大学、香港科大和希腊 U Peloponnese 的论文“Vision-Language-Action Models: Concepts, Progress, Applications and Challenges”。
视觉-语言-动作 (VLA) 模型标志着人工智能的变革性进步,旨在将感知、自然语言理解和具体动作统一在一个计算框架内。这篇基础综述全面总结视觉-语言-动作模型的最新进展,并系统地涵盖构成这一快速发展领域格局的五大主题支柱。首先建立 VLA 系统的概念基础,追溯其从跨模态学习架构到紧密集成视觉-语言模型 (VLM)、动作规划器和分层控制器的通用智体演变过程。其方法论采用严格的文献综述框架,涵盖过去三年发布的 80 多个 VLA 模型。关键进展领域包括架构创新、参数高效的训练策略和实时推理加速。其探索人形机器人、自动驾驶汽车、医疗和工业机器人、精准农业以及增强现实(AR)导航等多种应用领域。本综述进一步探讨实时控制、多模态动作表征、系统可扩展性、泛化至未知任务以及伦理部署风险等方面的主要挑战。借鉴最新成果,其提出针对性的解决方案,包括智体 AI 自适应、跨具身泛化和统一神经符号规划。在前瞻性讨论中,概述未来路线图,其中 VLA 模型、VLM和智体 AI 将融合,为符合社会规范、自适应且通用的具身智体提供支持。
。。。。。。继续。。。。。。
基于 Transformer 的语言模型(LLM)取得了显著成功,这催化了 VLA 模型的诞生,其中最引人注目的是 2022 年 11 月发布的 ChatGPT,它展示了前所未有的语义推理能力 (ChatGPT) [139]。这一突破启发了研究人员将语言模型扩展到多模态领域,将感知和动作集成到机器人技术中。到 2023 年,GPT-4 引入了多模态功能,可以同时处理文本和图像,这促使人们努力将物理动作融入其中 (GPT-4) [1]。同时,CLIP (2022) [157] 和 Flamingo (2022) [3] 等 VLM 通过对比学习建立稳健的视觉-文本对齐,实现零样本物体识别,并为 VLA 模型 (CLIP) 奠定了基础。
这些模型利用大规模网络数据集将图像与文本描述对齐,这是集成动作的关键前提。一项关键进展是创建了大规模机器人数据集,例如 RT-1 的 13 万次演示,它提供了协同训练视觉、语言和动作组件所必需的动作基础数据 [18]。这些数据集涵盖了多样化的任务和环境,使模型能够学习可泛化的行为。随后,谷歌于 2023 年推出了 RT-2 [17],实现了架构上的突破。这是一个具有里程碑意义的 VLA 模型,统一了视觉、语言和动作 token,将机器人控制视为自回归序列预测任务(RT-2)。RT-2 使用离散余弦变换 (DCT) 压缩和字节对编码 (BPE) 对动作进行离散化,在新目标上的性能提升了 63%。多模态融合技术,例如交叉注意 (Cross-Attention)Transformers,将视觉Transformer (ViT) 处理后的图像(例如 400 个块 token)与语言嵌入相结合,使机器人能够执行复杂的命令,例如“选择碗左边的红色杯子”。此外,加州大学伯克利分校的 Octo 模型 (2023) 引入了一种开源方法,它拥有 9300 万个参数和扩散解码器,并在 OpenX-Embodiment 数据集上的 80 万个机器人演示上进行了训练,进一步拓宽了研究领域 [167]。
VLA 模型的架构创新
从 2023 年到 2024 年,VLA 模型经历了重大的架构改进和改进的训练方法。双系统架构成为一项关键创新,例如 NVIDIA 的 Groot N1 (2025) [13],它将系统 1(用于低级控制的快速扩散策略,延迟为 10 毫秒)和系统 2(基于 LLM 的规划器,用于高级任务分解)结合在一起。这种分离使得战略规划和实时执行能够高效协调,增强了在动态环境中的适应性。其他模型,例如斯坦福大学的 OpenVLA (2024) [94],引入一个 7B 参数的开源 VLA,该 VLA 使用双视觉编码器(DINOv2 [128] 和 SigLIP [204])以及 Llama 2 语言模型 [172],在 97 万个真实机器人演示上进行训练,其性能优于 RT-2-X (55B) [94] 等更大型的模型。训练范式不断发展,利用网络规模的视觉-语言数据(例如 LAION-5B)[152] 和机器人轨迹数据(例如 RT-X)[175] 进行协同微调,将语义知识与物理约束 [152] 相结合。像 UniSim 这样的合成数据生成工具通过创建逼真的场景(例如遮挡目标)来解决数据稀缺问题,这对于稳健的训练至关重要 (UniSim [200])。低秩自适应 (LoRA) 适配器 [72] 提高了参数效率,它允许在无需完全重新训练的情况下进行领域自适应,从而将 GPU 时间减少了 70%。基于扩散的策略的引入,如物理智能的 pi 0 模型 (2024) [14] 所示,提供了改进的动作多样性,但需要大量的计算资源。这些进步使 VLA 技术普及化,促进了协作并加速了创新。
最近的 VLA 模型已趋向于三种主要的架构范式,它们在效率、模块化和鲁棒性之间取得平衡:早期融合模型、双系统架构和自校正框架。每一种创新都针对现实世界机器人系统中在基础、泛化和动作可靠性方面的具体挑战。
- 早期融合模型:一类方法侧重于在输入阶段融合视觉和语言表征,然后再将它们传递到策略模块。Huang 在 ICLR 2025 上提出的 EF-VLA 模型 [74] 就体现这一趋势,它保留了 CLIP [157] 所建立的表征对齐。EF-VLA 接受图像-文本对,使用 CLIP 的冻结编码器对其进行编码,并在动作预测之前,在 Transformer 主干网络的早期阶段融合生成的嵌入。这种设计确保 CLIP 预训练过程中学习的语义一致性得以保留,从而减少过拟合并增强了泛化能力。值得注意的是,EF-VLA 在构图操作任务上实现 20% 的性能提升,并在之前未见过的目标描述上达到了 85% 的成功率。通过避免对视觉语言模块进行微调,这种方法还能保持计算效率,并防止在特定领域训练期间发生灾难性遗忘。
- 双系统架构:受人类认知双-过程理论的启发,NVIDIA 的 Groot N1 (2025) [13] 等模型实现两个互补的子系统:快速反应模块(系统 1)和慢速推理规划器(系统 2)。系统 1 包含基于扩散的控制策略,运行延迟为 10 毫秒,非常适合细粒度的低级控制,例如末端执行器稳定或自适应抓取。相比之下,系统 2 使用 LLM 进行任务规划、技能组合和高级排序。规划器将长期目标(例如“清理桌子”)解析为原子子任务,而低级控制器则确保实时执行。这种分解可以实现多时间尺度推理并提高安全性,尤其是在快速反应和深思熟虑必须共存的环境中。在多阶段家庭操作的基准测试中,Groot N1 的成功率比单体模型高出 17%,碰撞失败率降低了 28%。
- 自校正框架:第三个架构演变是开发自校正 VLA 模型,该模型旨在无需外部监督即可检测故障情况并从中恢复。SC-VLA (2024) 引入一种混合执行循环,具有快速推理路径和慢速校正路径。在该框架中,默认行为是使用轻量级 Transformer 直接从融合嵌入中预测姿势或动作。当检测到故障(例如抓取失败或与障碍物碰撞)时,模型将调用执行思维链推理的辅助过程 [211, 203]。该路径查询内部 LLM(或外部专家系统)以诊断故障模式并生成纠正策略 [48]。例如,如果机器人反复错误识别被遮挡的目标,LLM 可能会建议主动改变视点或重新调整夹持器。在闭环实验中,SC-VLA 将任务失败率降低 35%,并显著提高在混乱和对抗环境中的可恢复性。
VLA 模型展现出丰富多样的架构设计和功能重点,可以沿着端到端与模块化流水线、层次化与扁平化策略结构以及低级控制与高级规划之间的平衡等维度进行系统地组织(如表所示)。端到端 VLA,例如 CLIPort [157]、RT-1 [18] 和 OpenVLA [94],通过单一统一网络将原始感官输入直接处理为运动指令。相比之下,像 VLATest [182] 和 Chain-of-Affordance [100] 这样的以组件为中心的模型将感知、语言基础和动作模块解耦,从而能够针对各个子模块进行有针对性的改进。
为了应对复杂的长期任务,分层架构应运而生,它们将战略决策与反应控制分离。例如,CogACT [102] 和 NaV-ILA [32] 采用了双层结构,其中基于 LLM 的规划器将子目标发布给低级控制器,从而结合了系统 2 推理和系统 1 执行的优势。同样,ORION [56] 将用于长期上下文聚合的 QT-Former 与生成轨迹规划器集成在一个有凝聚力的框架中。
低级策略重点的典型代表是基于扩散的控制器(例如 Pi-0 [14] 和 DexGraspVLA [219]),它们擅长生成平滑、多样的运动分布,但通常会产生更高的计算成本。相比之下,高级规划器(例如 FAST Pi-0 Fast [133] 和 CoVLA [5])专注于快速子目标生成或粗略轨迹预测,将细粒度控制委托给专门的模块或传统的运动规划器。像 HybridVLA [110] 和 Helix [166] 这样的端到端双系统模型通过联合训练两个组件,同时保留模块的可解释性,模糊了这些区别。上表进一步强调最近的 VLA 如何平衡这些权衡。 OpenDriveVLA [220] 和 Combat-VLA [29] 等模型优先考虑动态、安全关键领域的分层规划,而 Edge VLA [19] 和 TinyVLA [186] 等轻量级、以边缘为目标的系统则强调实时低级策略,而忽略高级推理。该分类框架不仅明确了 VLA 的设计空间,还通过精准定位尚未充分探索的组合(例如针对嵌入式部署优化的完全端到端、分层模型)来指导未来的发展,这些组合有望提升 VLA 系统在机器人、自动驾驶等领域的能力和适用性。
上表进一步强调近期 VLA 如何平衡这些利弊。OpenDriveVLA [220] 和 Combat-VLA [29] 等模型优先考虑动态、安全关键领域的分层规划,而 Edge VLA [19] 和 TinyVLA [186] 等轻量级、以边缘为目标的系统则强调实时低级策略,而牺牲了高级推理。该分类框架不仅明确了 VLA 的设计空间,还通过精准定位尚未充分探索的组合(例如针对嵌入式部署优化的完全端到端、分层模型)来指导未来的发展,这些组合有望提升 VLA 系统在机器人、自动驾驶等领域的能力和适用性。
上表中的分类意义重大,因为它提供了一个清晰的框架来比较不同的VLA架构,并突显了设计选择(例如端到端集成与层次分解)如何影响任务性能、可扩展性和适应性。通过按低级策略执行和高级规划等维度对模型进行分类,研究人员可以找出现有方法的优势和局限性,并发现创新机会。这种分类法有助于为特定应用(例如实时控制与策略推理)选择合适的架构,并指导未来开发能够平衡响应能力与认知规划的混合系统,最终加速具身人工智能的进步。此外,为了综合 VLA 模型的最新进展,下表对 2022 年至 2025 年开发的著名系统进行了比较总结。这些模型基于早期融合、双系统处理和自校正反馈回路等架构创新,融合了多种设计理念和训练策略。每个条目都重点介绍了模型的关键组件——视觉和语言编码器、动作解码器——以及用于支撑其功能的数据集。CLIPort [157] 和 RT-2 [224] 等模型通过将语义嵌入与动作策略相结合奠定了早期基础,而 Pi-Zero、CogACT [102] 和 Groot N1 [13] 等较新的框架则引入了基于扩散或高频控制器的可扩展架构。一些模型利用互联网规模的视觉语言语料库和机器人轨迹数据集进行多模态预训练,增强了泛化能力和零样本能力[223, 219, 218, 198]。此表格比较可为研究人员提供参考,帮助他们了解真实和模拟环境中 VLA 设计的功能多样性、领域适用性和新兴趋势。
视觉-语言-行动模型的训练和效率提升
VLA 模型在训练和优化技术方面取得快速进展,这些技术能够协调多模态输入、降低计算需求并实现实时控制。关键进展领域包括:
• 数据高效学习。
– 基于海量视觉语言语料库(例如 LAION-5B)和机器人轨迹集合(例如 Open X-Embodiment)进行协同微调,将语义理解与运动技能相结合。OpenVLA(7 B 参数)的成功率比 55 B 参数的 RT-2 变体高出 16.5%,这表明协同微调能够以更少的参数实现强大的泛化能力 [152, 175, 94]。
– 通过 UniSim 生成合成数据,生成逼真的场景(包括遮挡和动态光照),以增强罕见的边缘情况,将模型在杂乱环境中的鲁棒性提高 20% 以上 [200, 167]。
– 自监督预训练采用对比目标(类似 CLIP)在动作微调之前学习联合视觉文本嵌入,从而减少对特定任务标签的依赖。Qwen2-VL 利用自监督对齐,将下游抓取和放置收敛速度加快 12% [137, 76]。
• 参数高效自适应。低秩自适应 (LoRA) 将轻量级适配器矩阵插入冻结的 Transformer 层,在保持性能的同时,将可训练权重减少高达 70% [72]。 Pi-0 Fast 变型仅使用静态主干上的 10 M 个适配器参数,即可提供连续 200 Hz 控制,且精度损失可忽略不计 [133]。
• 推理加速。
– 双系统框架(例如 Groot N1)中的压缩动作token (FAST) 和并行解码可将策略步骤速度提高 2.5 倍,实现低于 5 ms 的延迟,同时对轨迹平滑度的影响不大 [13, 161]。
– 硬件感知优化(包括张量核量化和流水线注意核)将运行时内存占用缩小到 8 GB 以下,并支持在嵌入式 GPU 上进行实时推理 [93]。
这些方法共同将 VLA 转变为实用的智体,能够在动态的现实世界环境中处理语言调节和视觉引导任务。
基于数据高效训练的进展,近期研究重点关注减少 VLA 模型的参数占用空间并提升其推理速度——这对于在资源受限的机器人平台上部署至关重要。
- 低秩自适应 (LoRA)。LoRA 将小型可训练的秩分解矩阵注入冻结的 transformer 层,仅需增加几百万个权重即可对数十亿参数的 VLA 模型进行微调。在 OpenVLA 中,LoRA 适配器(20 M 个参数)在不到 24 小时内在商用 GPU 上调优了 7 B 参数的主干模型,与完全反向传播相比,GPU 计算量减少 70% [72, 94]。至关重要的是,LoRA 适配的模型在适应新的机器人操作任务(例如,新的目标形状)的同时,保留了其高级语言基础和视觉推理能力,这使得无需超级计算资源的实验室也能使用大型 VLA 模型。
- 量化。将权重精度降低到 8 位整数 (INT8) 可将模型大小缩小一半,并使片上吞吐量翻倍。OpenVLA 实验表明,在 Jetson Orin 上,INT8 量化在拾取和放置基准测试中保持了 97% 的全精度任务成功率,而在细粒度灵活性任务中仅下降 5% [152, 94]。诸如训练后量化和逐通道标定等补充方法,可以进一步最大限度地减少高动态范围传感器输入的精度损失 [128]。这些优化允许在 50 W 边缘模块上以 30 Hz 的频率实现连续控制环路。
- 模型剪枝。结构化剪枝会移除被识别为冗余的整个注意头或前馈子层。虽然在 VLA 中的探索不如在纯视觉或语言模型中那么多,但早期关于扩散策略的研究表明,对基于卷积神经网络的视觉编码器进行高达 20% 的剪枝,在抓取稳定性方面几乎不会产生性能下降 [34]。类似的方案应用于基于 Transformer 的 VLA(例如 RDT-1B),可以将内存占用减少 25%,同时任务成功率下降不到 2%,这为 4 GB 以下的部署铺平道路 [112, 102]。
- 压缩动作 token 化 (FAST)。FAST 将连续动作输出重新表述为频域 token,将长控制序列压缩为简洁的描述符。 Pi-0 Fast 变型通过将 1000 毫秒的动作窗口 tokens 为 16 个离散 tokens,在桌面 GPU 上实现 200 Hz 的策略速率,使用 300 M 参数扩散头实现 15 倍的推理速度提升 [133]。这种方法以最小的轨迹粒度换取大幅加速,适用于双手装配等动态任务中的高频控制。
- 并行解码和动作分块。自回归 VLA 传统上逐个token地解码动作,从而产生连续延迟。并行解码架构(例如 Groot N1)同时解码多组时空 token,在 100 Hz 频率下,在 7 自由度臂上实现 2.5 倍的端到端延迟减少,位置误差增加不到 3 毫米 [13, 161]。动作分块进一步将多步骤例程抽象为单个 token(例如“取放杯子”),在厨房工作流程等长期任务中将推理步骤减少高达 40% [86]。
- 强化学习-监督混合训练。iRe-VLA 框架在模拟中的强化学习 (RL) 和基于人类演示的监督微调之间交替进行,以稳定策略更新。通过利用直接偏好优化 (DPO) 来塑造奖励模型,并利用保守 Q 学习来避免外推误差,iRe-VLA 与纯强化学习相比将样本复杂度降低 60%,同时保持语言条件先验赋予的语义保真度 [123, 65]。这种混合方法可以为具有稀疏反馈的任务(例如动态避障)提供稳健的策略。
- 硬件-觉察优化。编译器级的图重写和内核融合(例如通过 NVIDIA TensorRT-LLM)利用目标硬件特性——张量核、融合注意机制和流水线内存迁移——来加速 Transformer 推理和扩散采样。在 OpenVLA-OFT 中,与标准 PyTorch 执行相比,此类优化将 RTX A2000 GPU 上的推理延迟降低 30%,并将每次推理的能耗降低 25% [93]。这使得在功耗预算严格的移动机器人和无人机上实现实时 VLA 成为可能。
讨论。参数高效的自适应和推理加速技术共同推动 VLA 部署的民主化:
LoRA 和量化技术使小型实验室能够在消费级硬件上微调和运行拥有数十亿参数的 VLA,从而为机器人开启前沿的语义理解 [72, 94]。
剪枝和 FAST token 化技术压缩模型和动作表征,在不牺牲灵巧任务精度的情况下,实现低于 4 GB、低于 5 ms 的控制循环 [112, 133]。
并行解码和动作分块技术克服自回归策略的顺序瓶颈,支持敏捷操作和腿部运动所需的 100–200 Hz 决策率 [13, 161]。
混合 RL-SL 训练可稳定复杂环境中的探索,而硬件-觉察编译则可确保边缘加速器上的实时性能 [123, 93]。
总之,这些进步使得将 VLA 模型嵌入工业机械手、辅助无人机和消费机器人成为可能,从而弥合从研究原型到现实世界自主性的差距。
视觉-语言-动作模型的应用
VLA 模型正迅速崛起,成为具身智能的基础构建模块,将感知、自然语言理解和运动控制集成到一个统一的架构中。通过将视觉和语言模态编码到共享的语义空间中,并生成上下文落地的动作,VLA 模型实现智体与其环境之间的无缝交互 [102, 220]。这种多模态能力使 VLA 成为现实世界中广泛应用的变革性智体。
在人形机器人领域,Helix 和 RoboNurse-VLA 等系统将视觉、语言和灵巧操作相结合,以协助完成家务和外科手术,并展示了实时推理和安全感知控制 [103, 186]。在自动驾驶汽车领域,OpenDriveVLA 和 ORION 等模型处理动态视觉流和自然语言指令,以便在复杂的城市环境中做出透明、自适应的驾驶决策 [56, 220]。工业部署利用 VLA 架构实现高精度装配、检测和协同制造 [102]。在农业领域,基于 VLA 的机器人系统能够实现视觉引导的水果采摘、植物监测和异常检测,从而减少对劳动力的依赖并提高可持续性。此外,交互式增强现实系统的最新进展利用 VLA 模型进行实时、基于语言的空间导航,根据语音或视觉提示在室内和室外环境中引导用户 [150, 59]。在这些领域,VLA 提供了一个统一的框架,用于执行稳健、适应性强且语义一致的任务,标志着向具身化通用智能体的关键转变。
下表通过总结各种前沿 VLA 模型的方法、应用领域和关键创新,对它们进行比较。
如图所示的应用领域:
VLA 模型面临一系列相互关联的挑战,阻碍其从研究原型转化为鲁棒的现实世界系统。
首先,实现实时、资源感知的推理仍然困难:像 DeeR-VLA 这样的模型利用动态早期退出架构,在保持准确率的同时,在操作基准上将计算量减少了 5 到 6 倍,但在复杂场景下,其增益会减弱 [202]。同样,Uni-NaVid 压缩了以自我为中心的视频 token 以实现 5 Hz 导航,但在高度模糊的指令和较长的视野下仍然举步维艰 [210]。再加上有限的目标泛化能力,即使是先进的混合视觉-语言基础方案(例如 ObjectVLA)也只能泛化到 64% 的新目标,这凸显开放世界鲁棒性方面持续存在的差距 [223]。
其次,在最少的监督下调整 VLA 模型并确保在稀缺、嘈杂的数据下进行稳定的策略更新并非易事。 ConRFT 将行为克隆、Q 学习与人在环微调相结合,在 8 项接触密集型任务中快速收敛,成功率达到 96.3%,但它严重依赖专家干预和奖励塑造 [31]。Hi Robot 等分层框架将高级推理与低级执行解耦,以提高指令保真度,但协调这些模块并为模糊反馈提供基础仍然具有挑战性 [155]。同样,TLA 将触觉流与语言命令融合,在看不见的挂钩孔任务中取得超过 85% 的成功率,但数据集的广度和实时多步解码仍然限制了更广泛的泛化 [70]。
此外,在动态环境中确保安全性、泛化能力和端到端可靠性需要新的建模和评估标准。像 OccLLaMA 这样的占用-语言-动作模型将 3D 场景理解与动作规划统一起来,但它们必须扩展到更丰富的场景动态和跨模态的语义一致性 [183]。RaceVLA 通过量化的迭代控制回路推动高速无人机导航,但其视觉-物理泛化能力落后于更大型的 VLA 和专用推理机 [153]。ReVLA 中的模型合并策略恢复了丢失的域外视觉鲁棒性——将 OOD 抓取成功率提高高达 77%——但引入了额外的计算和复杂性 [39]。
最后,SafeVLA 通过约束马尔可夫决策过程制定约束,将不安全行为减少 80% 以上,但为各种现实世界任务定义全面的、非限制性的安全规则仍然是一个悬而未决的问题 [205]。解决这些相互交叉的限制对于 VLA 模型实现可靠、自主的运行,并应对现实世界机器人技术的复杂性至关重要。
基于上述关键限制,必须将每项挑战与有针对性的缓解策略进行映射,并预测其系统级影响。下表将这种映射蒸馏为三栏——识别核心限制、根据最新进展提出具体的技术补救措施,以及阐明 VLA 在现实世界部署的预期效益。例如,解决实时推理约束需要利用并行解码和量化 Transformer 流水线以及硬件加速(例如 TensorRT)来维持无人机和机械臂的控制环路速率 [100, 94, 60, 110]。通过混合扩散-自回归策略处理多模态动作表征,可以增强模型生成多样化、上下文-觉察的运动指令以执行复杂任务的能力 [133, 121]。为了保障开放世界中的安全,可以集成动态风险评估模块和自适应规划层,确保在不可预测的环境中做出稳健的紧急停止行为 [143, 180, 87]。同样,通过精选的去偏语料库和先进的对比微调,可以抵消数据集的偏差和基础性影响,从而在推广到新目标和场景时增强公平性和语义保真度 [145, 16, 136]。这些解决方案路径以及其他涵盖从模拟-到-现实的迁移、触觉集成和节能架构的解决方案,共同构成了将 VLA 研究转变为可靠、可扩展的自主性的全面路线图。
如图所示,VLA 模型面临着一系列多方面的挑战,涵盖算法、计算和伦理维度。
首先,由于自回归解码器的顺序性和多模态输入的高维性,在资源受限的硬件上实现实时推理仍然很困难。
其次,将视觉、语言和动作融合到连贯的策略中会在遇到意外的环境变化时引入安全漏洞。
第三,数据集偏差和基础错误会影响泛化能力,常常导致模型在分布外的任务中失败。
第四,集成不同的组件(感知、推理、控制)会产生难以优化和维护的复杂架构。
第五,大型 VLA 系统的能量和计算需求阻碍了其在嵌入式或移动平台上的部署。
最后,对环境变化的鲁棒性以及诸如隐私和偏见缓解等伦理考量,增加了社会和监管方面的顾虑。
总的来说,这些限制制约了 VLA 模型在现实世界机器人技术、自主系统和交互式应用中的实际应用。
VLA 模型的未来在于日益强大的多模态基础、智体推理和具身持续学习的交汇。未来十年,预计几种趋势将趋同,推动 VLA 从功能强大但任务范围狭窄的专家型机器人迈向真正通用型机器人智能的核心。
- 多模态基础模型作为“皮层”。如今的 VLA 通常将视觉语言主干与特定任务的策略头相结合。未来期待一个单一的、大规模的多模态基础模型——基于网络规模的图像、视频、文本和 affordance 数据进行训练——作为共享的感知和概念“皮层”。这个基础模型不仅会编码静态场景,还会编码动态、物理和常识性的世界知识,使下游的行动学习者能够利用统一的表征基础,而无需为每个机器人或领域重新发明基本的感知技能。
- 自主式、自监督式终身学习。未来的 VLA 将不再进行静态预训练,而是与环境进行持续的、自监督式的交互。自主式框架——模型能够生成自身的探索目标、假设结果,并通过模拟或实际部署进行自我修正——将推动快速技能习得。通过制定内部子目标(“学习打开抽屉”、“绘制家具可供性”)并整合强化式反馈,VLA 驱动的人形机器人可以在多年的部署过程中自主扩展其能力,就像人类学徒一样。
- 分层神经符号规划。为了从低级运动原语扩展到高级推理,VLA 将采用分层控制架构。一个基于语言的顶级规划器(或许是一个针对 affordance 推理进行微调的 LLM 变体)会将复杂的指令(“泡一杯茶”)分解为一系列子任务(“取水壶”、“加水”、“烧水”、“泡茶包”)。中级模块会将这些子任务转换为参数化的运动规划,而低级扩散或基于 Transformer 的控制器则会实时生成平滑、合规的轨迹。这种神经符号的融合既确保结构化规划的可解释性,也确保学习策略的灵活性。
- 通过世界模型实现实时自适应。非结构化环境中的鲁棒性要求 VLA 维护一个内部的、可预测的世界模型——一个对目标、接触点和智体动态的最新模拟。当机器人行动时,它会不断将其预测与传感器反馈进行协调,并在出现差异(例如,抓握打滑)时使用基于模型的纠正措施。可微分物理学和视频到状态编码器的进步将使这些世界模型足够准确和高效,可用于机载实时使用。跨体现和迁移学习:为每种机器人形态训练单独的 VLA 的时代将让位于与具身无关的策略。通过在抽象的、与运动学无关的空间中编码动作(例如,“在这些 affordance 点施加抓握力”),未来的 VLA 将在轮式平台、四足机器人和人形机器人之间无缝迁移技能。结合元学习,新机器人仅需几分钟的标定数据即可引导先前的技能。安全、道德和以人为本的一致性随着 VLA 获得自主性,内置的安全性和价值观一致性变得不可妥协。未来的系统将集成实时风险评估器——在执行高风险操作之前评估对人员或财产的潜在危害——并在模糊情况下寻求自然语言同意。监管约束和社会意识政策将被融入 VLA 堆栈,确保机器人遵循人类偏好和法律规范。