自动驾驶---视觉语言模型(VLM)引导的模型预测控制器(MPC)

发布于:2025-07-27 ⋅ 阅读:(51) ⋅ 点赞:(0)

1 背景

        之前大家普遍认为的端到端就是传感器输入,控制输出,这也确实是真正的端到端,但目前车企走的更多的是轨迹生成。

        自动驾驶端到端控制瓶颈主要有以下两点:

  • 可解释性缺失:传统端到端模型(如纯VLM控制器)生成的控制指令缺乏透明决策依据,难以追溯风险原因。

  • 动态适应性不足:单一控制器难以协调高层语义理解(如天气影响)与底层动力学约束,导致跨场景性能波动。

        之前笔者提到过理想,小米,小鹏,蔚来等都通过使用VLM模型丰富智驾的功能,并将其量产到车上,主要利用VLM的识别推理能力

2 VLM-MPC

        本篇博客主要介绍VLM-MPC:自动驾驶中视觉语言基础模型引导的模型预测控制器。

        受到视觉语言模型(VLMs)紧急推理能力及其提高自动驾驶系统理解力的启发,本文引入了一种闭环自动驾驶控制器,称为VLM-PLC,其结合了用于高级决策的VLM和用于低级车辆控制的模型预测控制器(MPC)。

2.1 分层异步架构

        VLM-MPC由异步运行的双层组件构成,解决VLM延迟高与MPC实时性需求的矛盾:

组件 功能 运行频率 输入/输出
上层VLM 解析环境语义(天气、光照、交通参与者),生成高层驾驶参数(目标速度、车距) 0.2 Hz 图像+车辆状态→决策参数(如期望速度)
下层MPC 基于VLM参数优化实时控制,满足车辆动力学约束 10 Hz 参数→控制信号(转向角、油门/刹车)

        VLM-MPC系统在结构上分为两个异步组件:上层VLM和下层MPC。

  • 上层VLM基于前视相机图像、自车状态、交通环境条件和参考内存来生成用于下层控制的驾驶参数。
    • Reference memory(数据集真实轨迹作为参考)
    • Environment description model(驾驶环境描述)
    • Scenario Encoder(场景编码)
    • Prompt Generator(推理)
      • Prediction horizon
      • Speed maintenance weight
      • Control effort weight
      • Headway maintenance weight
      • Desired speed
      • Desired headway

  • 下层MPC通过这些参数实时控制车辆,其考虑了发动机滞后并且向整个系统提供了状态反馈。

2.2 关键技术

  1. 环境编码器:利用CLIP模型从图像提取结构化环境特征(如“雨天”“交叉路口”),增强VLM的上下文感知。

  2. 参考记忆模块:聚合历史驾驶参数(如平均安全车距),通过统计先验减少VLM输出波动,抑制幻觉风险。

  3. 抗幻觉设计:双层校验机制确保决策参数符合物理可行性(如MPC拒绝VLM生成的超速指令)。

2.3 实验结果       

        论文的主要贡献如下:

        1)VLM-MPC自动驾驶控制器:提出了一种闭环自动驾驶控制器,其将VLMs应用于高级车辆控制。上层VLM使用车辆的前视相机图像、文本场景描述和经验记忆作为输入,以生成低级MPC所需的控制参数。低级MPC利用这些参数并且考虑车辆动力学,以实现逼真的车辆行为并且向上层提供状态反馈。这种异步两层结构解决了当前VLM响应速度慢的问题;

        2)VLM对环境的理解:通过比较不同场景条件(例如天气、光照、道路条件)下的行为,本文证明了VLM理解环境并且做出合理决策的能力。这突显了VLM适应各种驾驶环境和条件的能力。

        基于nuScenes数据集的实验验证了所提出的VLM-MPC系统在各种场景(例如夜晚、下雨、十字路口)下的有效性。结果表明,VLM-MPC系统在安全性和驾驶舒适性方面始终优于基线模型。通过比较不同天气条件和场景下的行为,证明了VLM理解环境并且做出合理推理的能力。

        实验结果表明,与基线模型相比,VLM-MPC系统始终具有更优的安全性、驾驶舒适性和稳定性能。与不同FMs的兼容性分析表明,Llama3.1-8B模型可以满足所提出方法的响应时间要求。

3 总结

        目前很多的大模型工作都是在开环环境下进行,甚至仿真环境下的闭环实验都没有做,在笔者看来,这是当前很多科研论文不够严谨的表现。

        基于VLM的MPC需要基于闭环实验甚至实车验证,因为涉及到控制器的动态调参,对于整个系统的稳定性是非常重要的。该方案为科研工作者提供了一个思路。

参考文献:

《VLM-MPC: Vision Language Foundation Model (VLM)-Guided Model Predictive Controller (MPC) for Autonomous Driving》


网站公告

今日签到

点亮在社区的每一天
去签到