端到端(End-to-End,E2E)自动驾驶架构中的“一段式”和“两段式”是两种不同的技术路线,核心区别在于是否显式分离感知与决策控制环节。以下是具体对比:
1. 一段式端到端(Monolithic E2E)
核心思想:
输入原始传感器数据(如摄像头图像/LiDAR点云),直接输出车辆控制信号(方向盘转角、油门/刹车),中间过程完全由神经网络黑箱实现。
公式表示:
Control=fθ(Sensor_Input) \text{Control} = f_{\theta}(\text{Sensor\_Input}) Control=fθ(Sensor_Input)fθf_{\theta}fθ:单一深度神经网络(如 Transformer、CNN)
典型架构:
特点:
- 优势:
- 避免模块间误差累积(感知→规划→控制的分段误差);
- 理论上可学习人类驾驶的最优策略。
- 挑战:
- 可解释性差:决策逻辑不可追溯;
- 训练难度高:需海量高质量数据(百万公里级);
- 长尾问题:罕见场景泛化能力弱(如极端天气)。
- 优势:
代表方案:NVIDIA PilotNet、Wayve LINGO-1。
2. 两段式端到端(Two-Stage E2E)
- 核心思想:
拆分为感知抽象层和决策控制层,但两者仍以端到端方式联合训练。
公式表示:
中间表征:
Intermediate_Rep=gϕ(Sensor_Input) \text{Intermediate\_Rep} = g_{\phi}(\text{Sensor\_Input}) Intermediate_Rep=gϕ(Sensor_Input)
控制量:
Control=hψ(Intermediate_Rep) \text{Control} = h_{\psi}(\text{Intermediate\_Rep}) Control=hψ(Intermediate_Rep)
- gϕg_{\phi}gϕ:感知编码网络(输出 BEV 地图 / 目标轨迹等中间表征)
- hψh_{\psi}hψ:控制解码网络
- 典型架构:
- 特点:
- 优势:
- 可解释性增强:中间层输出可人工分析(如可视化BEV场景);
- 模块化设计:可针对性优化子模块(如更换感知模型);
- 数据效率高:部分预训练模型(如目标检测)可迁移。
- 挑战:
- 仍需端到端训练以保证全局最优;
- 中间表征设计影响性能上限(如BEV的几何精度)。
- 优势:
- 代表方案:Tesla HydraNet、Mobileye EyeQ。
关键差异总结
维度 | 一段式端到端 | 两段式端到端 |
---|---|---|
系统结构 | 单一神经网络黑箱 | 感知+决策双网络耦合 |
可解释性 | 极低(无法追溯决策原因) | 中等(可分析中间表征) |
开发难度 | 高(需从头训练超大模型) | 中(可复用预训练模块) |
长尾场景处理 | 依赖数据量,泛化性弱 | 可通过规则干预中间层 |
实时性 | 高(单次前向计算) | 稍低(多级计算) |
工业落地 | 较少(Waymo等试验中) | 主流(Tesla/小鹏等量产方案) |
选择建议
- 选一段式:追求理论最优性能,且具备超大规模数据与算力(如L5研发);
- 选两段式:需平衡安全性、可解释性与量产成本(当前行业主流选择)。
注:两段式在工程实践中常扩展为“多段式”(如感知→预测→规划→控制),但本质仍属于端到端训练框架下的模块化设计。