自动驾驶系列—Monocular 3D Lane Detection for Autonomous Driving-EW帮帮网

🌟🌟 欢迎来到我的技术小筑，一个专为技术探索者打造的交流空间。在这里，我们不仅分享代码的智慧，还探讨技术的深度与广度。无论您是资深开发者还是技术新手，这里都有一片属于您的天空。让我们在知识的海洋中一起航行，共同成长，探索技术的无限可能。

🚀 探索专栏：学步_技术的首页 —— 持续学习，不断进步，让学习成为我们共同的习惯，让总结成为我们前进的动力。

🔍 技术导航：

人工智能：深入探讨人工智能领域核心技术。

自动驾驶：分享自动驾驶领域核心技术和实战经验。

环境配置：分享Linux环境下相关技术领域环境配置所遇到的问题解决经验。

图像生成：分享图像生成领域核心技术和实战经验。

虚拟现实技术：分享虚拟现实技术领域核心技术和实战经验。

🌈 非常期待在这个数字世界里与您相遇，一起学习、探讨、成长。不要忘了订阅本专栏，让我们的技术之旅不再孤单！

💖💖💖 ✨✨ 欢迎关注和订阅，一起开启技术探索之旅！ ✨✨

1. 背景介绍

Ma F, Qi W, Zhao G, et al. Monocular 3d lane detection for autonomous driving: Recent achievements, challenges, and outlooks[J]. IEEE Transactions on Intelligent Transportation Systems, 2025.

🚀以上学术论文翻译由ChatGPT辅助。

3D 车道线检测在自动驾驶（AD）中至关重要，因为它可以从三维空间中的道路中提取结构和交通信息，从而帮助自动驾驶车辆实现逻辑性强、安全且舒适的路径规划与运动控制。

考虑到传感器的成本以及视觉数据在颜色信息方面的优势，基于单目视觉的 3D 车道线检测是自动驾驶领域一个重要的研究方向，正日益受到产业界和学术界的关注。

然而，尽管视觉感知技术近年来取得了进展，但其发展水平仍不足以支撑完全可靠的 3D 车道线检测算法，这也限制了基于视觉的全自动驾驶车辆的发展。

我们认为，使用视觉传感器进行自动驾驶车辆 3D 车道线检测的算法仍存在一个尚未解决且富有挑战性的开放问题，急需在算法性能上取得重大改进。

本综述总结并分析了当前在 3D 车道线检测领域的研究成果，涵盖了现有所有基于单目视觉的 3D 车道线检测流程，讨论了这些前沿算法的性能，分析了各种算法的时间复杂度，突出了当前研究工作的主要成果与局限性。

本综述还全面整理了可用的 3D 车道线检测数据集，并探讨了研究人员目前尚未解决的挑战问题。

最后，我们概述了未来的研究方向，并邀请研究人员和从业者共同投身这一充满前景的研究领域。

近年来，得益于人工智能的迅猛发展，自动驾驶（AD）技术快速演进，逐步重塑人类交通的基本范式。自动驾驶车辆配备了多种传感器，以模拟人类的视觉和听觉等感知能力，从而感知周围环境并理解交通场景，实现安全导航。这些传感器中包括激光雷达、高分辨率摄像头、毫米波雷达和超声波雷达等，它们通过特征提取、目标分类以及与高精地图的结合，帮助识别障碍物与交通环境。在这些传感器中，视觉传感器是自动驾驶车辆中应用最广泛的类型，是环境感知的主要手段，可用于车道检测、交通灯分析、道路标志识别、车辆跟踪、行人检测以及短时交通预测等任务。对视觉场景的处理与理解，包括对交通灯、道路标志、车道线、行人和周边车辆的分析，是实现车辆转向、超车、变道或刹车等操作的前提，有助于提升自动驾驶系统的决策安全性与执行鲁棒性。这一感知与理解的整合构成了自动驾驶中的“场景理解”任务，该任务对于推进车辆自主性与提升道路安全具有决定性意义。

场景理解是自动驾驶领域中最具挑战性的技术之一。如果缺乏全面的场景理解，自动驾驶车辆在道路上的行驶将如同人类在被蒙上眼睛的情况下前行一样困难。车道线检测作为场景理解中的关键任务之一，具有重要意义和挑战性。车道线是道路上最常见的交通元素之一，是划分车道、保障车辆安全高效通行的核心标志。车道检测通常可分为二维车道检测与三维车道检测两类。其中，二维车道检测输出图像平面中的车道坐标或函数，主要反映车道线的几何位置与形状，适用于计算要求较低的简单场景，但由于缺乏深度信息，难以处理复杂环境。相比之下，三维车道检测则输出车道线在三维空间中的位置与形状，可提供深度、曲率与高度信息，更适用于复杂道路情况，能实现更精确和更鲁棒的车道线定位，但其计算复杂度更高，对传感器与算力的要求也更高。当前，车道检测被广泛应用于自动驾驶中的车道保持辅助、自动导航、路径规划与自适应巡航控制等系统。通过实时检测车道线与边界，车辆可以保持在车道内行驶，规划合理路径，调节行驶速度并避免碰撞，从而有效提升驾驶安全性和自动化水平。因此，车道线检测在自动驾驶系统中发挥着不可替代的重要作用。

与典型目标不同，车道线仅占据道路场景中极小的区域，且具有分布广、形态多变等特点，使其检测面临独特挑战。例如，恶劣天气（如雨、雪、雾）可能导致车道线被遮挡，标线磨损或缺失、复杂场景（如交叉口或施工区域）、障碍物遮挡（如临时停车车辆）、光照变化等都可能影响检测精度。此外，城市环境中车道线样式的多样性及道路类型的差异，也进一步提升了检测难度。

基于单目视觉的车道检测方法主要可分为传统人工特征方法与基于深度学习的方法。早期研究主要依赖低层次的人工特征（如边缘、颜色等）进行提取与识别。然而，这些方法往往需要设计复杂的特征提取与后处理模块，在动态环境下鲁棒性较差。传统的人工特征方法通过提取车道线的颜色、纹理、边缘、方向与形状等特征，构建检测模型，将车道线拟合为直线或高阶曲线。然而，由于特征不具区分性，且难以适应复杂多变的场景，这类方法通常在实际应用中可靠性较低且计算开销较大。随着深度学习的发展，图像分类、目标检测与语义分割等计算机视觉任务取得了显著进展，也为车道线检测任务带来了新的研究视角与方法突破。

A. 背景与相关工作

随着深度学习技术的不断进步，研究者提出了众多策略，有效简化、加速并提升了车道线检测任务的性能。与此同时，深度学习技术的广泛应用以及新概念的持续涌现，使得车道线检测的方法不断专业化和精细化。回顾该领域的主流研究方向，基于摄像头的车道线检测方法主要可分为二维车道检测和三维车道检测两大范式。

**1）二维车道线检测：**在相关研究中，为了准确描述图像中车道线的形状与位置，主要采用了四类方法：基于分割、基于锚点、基于关键点和基于曲线的策略。

（1）基于分割的方法将二维车道线检测建模为像素级分类任务，通过生成车道线掩码进行检测。这类方法通过提取有效的语义特征并配合后处理来完成车道线分组，但其计算成本较高。

（2）基于锚点的方法因其结构简洁、效率高而被广泛采用，通常利用线性锚点对目标位置进行偏移回归。为克服线性锚点的局限性，有研究基于内建车道空间生成多种候选车道线；通过启发式设计的行锚点对行像素进行分类，该方法进一步发展为混合锚点（行与列结合）以降低侧向车道的定位误差，并显著提高推理速度。

（3）基于关键点的方法采用更灵活和稀疏的建模方式来表示车道位置，通常首先估计一系列关键点的位置，然后通过不同策略将属于同一路段的关键点进行关联。代表性方法通过预设关键点结构表示车道，并对采样点与预设点之间的偏移进行回归。尽管此类方法性能优异，但由于点设计固定，难以灵活适配复杂车道结构。

（4）基于曲线的方法则通过拟合各种曲线方程与相关参数来建模车道线，将二维车道检测问题转化为曲线参数回归任务。该类方法通常检测车道的起点、终点以及曲线参数。尽管二维车道检测取得了诸多进展，但在实际应用中仍存在明显不足，尤其是在精确三维定位方面与现实需求存在较大差距。

**2）三维车道线检测：**由于二维车道检测天然缺乏深度信息，其在三维空间中的投影易出现误差与鲁棒性下降，因此越来越多研究者将关注点转向三维车道检测。

基于深度学习的三维车道检测方法主要分为三类：基于卷积神经网络（CNN）、基于Transformer 以及混合架构方法。

代表性的 CNN 方法包括：

3D-LaneNet 提出一种双路径结构，结合逆透视变换（IPM）进行特征转换，并通过垂直锚点回归实现车道检测；
3D-LaneNet+ 进一步将鸟瞰图（BEV）特征划分为不重叠单元，利用相对偏移、角度与高度信息改进锚点方向限制；
GenLaneNet 首次引入虚拟俯视坐标系统以优化特征对齐，并通过两阶段框架解耦车道分割与几何建模；
BEVLaneDet 采用虚拟摄像头以保持空间一致性，并通过关键点表示处理复杂场景；
Anchor3DLane 基于三维锚点直接从图像特征回归三维车道线，大幅减少计算开销；
GroupLane 在 BEV 空间中创新性地提出基于行的分类方法，支持任意方向车道，并通过实例分组方式与特征交互；
DecoupleLane 将三维车道检测拆分为曲线建模与地面高度回归，通过在 BEV 空间中表示车道并独立建模地面高度，有效应对非平整路面引起的波动。

基于 Transformer 的方法包括：

PersFormer 利用离线相机位姿构建密集 BEV 查询，在 Transformer 框架下统一二维与三维车道检测；
CurveFormer 利用稀疏查询表示与交叉注意力机制回归三维车道的多项式系数；
Chen 等人 提出一种高效 Transformer，同时学习 BEV 与车道表示，使用分解式交叉注意力机制而非 IPM，以联合监督方式训练；
LATR 在 CurveFormer 的基础上引入车道感知查询生成器与动态三维地面位置嵌入；
CurveFormer++ 提出单阶段检测方法，直接从透视图图像特征中推理三维车道结果，跳过图像视角变换。

此外，一些方法采用 CNN 与 Transformer 的混合网络架构：

CLGo 提出一个双阶段框架：第一阶段使用 CNN 提取特征，并通过 Transformer 编码器整合空间特征之间的非局部关系，同时引入辅助三维车道任务与几何约束估计相机姿态；第二阶段基于相机姿态生成 BEV 图像，并用于三维车道预测；
Anchor3DLane 则结合 CNN 主干网络与 Transformer 层，直接从前视图图像中提取特征并预测三维车道线，跳过 IPM 过程。该方法将三维锚点定义为射线，并投影到特征图上以提取必要的结构与上下文信息，实现高精度三维车道检测。

B. 挑战与动机

基于单目视觉精确估计车道线的三维位置仍面临诸多挑战。首先，由于天气、道路类型、车道标线样式以及环境条件的多样性，真实世界中的 3D 车道线检测数据具有极高的变异性，这给模型在不同场景中的泛化能力带来了巨大挑战。此外，处理 3D 数据所需的计算资源相当可观，而在自动驾驶应用中对低延迟的强需求使得该问题尤为关键。在不牺牲性能的前提下降低算法的处理时间，亦是此类实时应用中的一项重要挑战。

基于上述挑战，以及视觉传感器驱动的 3D 车道线检测在精确理解与解析交通场景中的关键作用，本文系统整理了当前已有的研究成果与进展。同时，在撰写本综述之前，我们还提出了以下问题：1）现有数据集是否具备支持复杂视觉场景下 3D 车道线检测的潜力？2）当前方法的推理速度如何，能否满足自动驾驶系统对实时性的需求？3）现有方法能否在诸如雾天和雨天等充满不确定性的复杂视觉场景中有效完成 3D 车道线检测？

C. 贡献

本综述深入探讨了当前 3D 车道线检测领域的最新研究成果，主要贡献如下：

对近年来在 3D 车道线检测领域受到广泛关注的重要论文与数据集进行了系统梳理与批判性分析。
全面介绍了 3D 车道线检测技术，定义了通用处理流程，并对各关键步骤进行了逐一讲解，帮助新入门的研究人员快速掌握已有研究成果，特别是在自动驾驶应用背景下。据我们所知，这是首篇聚焦于基于摄像头的 3D 车道线检测的综述文章。
从资源消耗与平台适配角度，评估了当前主流方法的性能表现，为工程落地提供参考依据。
在对已有文献分析的基础上，系统提出了未来研究的方向，包括当前尚未解决的问题、存在的挑战及可进一步深入探索的研究机会。

D. 综述方法

本文所讨论的研究工作是通过检索如 “自动驾驶中的 3D 车道线检测”、“基于视觉的 3D 车道线检测” 以及 “基于学习的 3D 车道线检测” 等关键词获得的。检索得到的绝大多数文献与本研究主题高度相关，但也包含部分边界文献，如多模态方法和基于点云的方法，这些与本文的聚焦主题关联较弱。

此外，关键词的检索是在多个学术数据库中进行的，包括 Web of Science 与 Google Scholar，以确保内容的完整性与代表性。纳入标准主要依据论文是否在自动驾驶领域内被专家认可，例如引用量或已有工作的影响力等。值得注意的是，现有文献中尚未发现基于传统方法的单目 3D 车道线检测研究。这可能是因为，相比于仅需在二维图像中识别车道像素的单目 2D 检测，单目 3D 检测需从二维图像中推理车道在三维空间中的位置信息。如果没有激光雷达等距离测量传感器的辅助或深度学习方法的支持，传统方法很难实现该目标。

本文的其余结构安排如下：第二节将综述自动驾驶中 3D 车道线检测的相关研究工作；第三节介绍 3D 车道线检测方法的性能评估；第五节介绍常用的数据集；第六节讨论当前的技术挑战与未来的发展前景；最后，第七节为全文总结。

II. 自动驾驶中的单目三维车道线检测

随着自动驾驶技术与深度学习的迅速发展，基于学习的单目车道线检测日益受到工业界与学术界的关注。在单目车道检测领域，早期研究主要集中在二维车道检测。然而，随着自动驾驶技术的日趋成熟以及对成本控制需求的上升，对车道检测提出了更高要求，即从单张图像中预测车道线的三维信息。因此，自 2018 年起，陆续有研究开始关注单目 3D 车道检测。如图 1 所示，该图按时间顺序展示了单目 3D 车道检测算法的发展趋势。可以看出，随着时间推移，相关工作不断增多，表明该领域正日益热门。图中绿色箭头表示基于 CNN 的方法，橙色箭头表示基于 Transformer 的方法，蓝色箭头表示采用混合结构的方法。

在众多方法中，3D-LaneNet 是单目 3D 车道检测领域的开创性工作。图 2 展示了 3D-LaneNet 的整体架构。该方法提出了一个可以直接从单目图像中预测道路场景下三维车道信息的网络，是首个基于单目视觉传感器解决 3D 车道检测任务的工作。3D-LaneNet 引入了两个关键概念：网络内的 IPM 投影机制和基于锚点的车道表示。网络内 IPM 支持前视图与鸟瞰图之间的信息交互；锚点式的车道输出表示则支持端到端训练框架，对后续研究影响深远，许多后续工作采用了该锚点表示方式。然而，3D-LaneNet 也存在一些局限，例如其采用的坐标系统与视觉特征对齐不佳，以及在端到端学习过程中几何编码容易受到图像外观变化的影响，导致对训练数据依赖更强，从而限制了其实用性。

针对上述问题，Guo 等人提出 Gen-LaneNet，一个更具泛化能力和可扩展性的 3D 车道检测框架（如图 3 所示）。Gen-LaneNet 仍采用统一架构，在单一网络中完成图像编码、特征空间转换与三维曲线提取。但其主要改进体现在两方面：几何扩展后的锚点设计和解耦图像编码与几何建模的两阶段网络结构。此外，该工作还引入了一个具有丰富视觉变化的高度真实合成图像数据集，用于训练与评估。尽管新的几何引导锚点表示提高了对未见场景的泛化能力，但仍局限于与自车行驶方向大致平行的长车道线。

在 Gen-LaneNet 基础上，Jiang 等人提出 Att-Gen-LaneNet，融合了两种注意力机制：ECA 与 CBAM，以进一步提升算法性能。Efrat 等人随后提出采用 tile 表示扩展对复杂车道拓扑结构的支持。在其两篇工作中，采用半局部 tile 表示对局部车道结构与道路几何特征进行建模，并使用基于学习的方法将局部车道段聚合成完整 3D 曲线。后续工作引入了不确定性估计，用以反映检测噪声。但这类方法在处理高度弯曲的车道时仍有一定局限。

为摆脱对相机位姿真值的依赖，Liu 等人提出 CLGO，一种 CNN 与 Transformer 结合的混合结构方法，支持在线学习相机姿态。该方法采用两阶段流程，第一阶段通过辅助 3D 车道任务和几何约束估计相机位姿，第二阶段生成 top-view 图像并进行三维车道预测。与锚点方式不同，CLGO 使用多项式表示车道线，支持实时估计相机参数并减少误差，但增加了系统复杂度。

Anchor3DLane 框架直接在三维空间中定义锚点，并从前视图直接回归 3D 车道线（如图 4 所示），无需 BEV 图像。该工作还提出多帧扩展以利用时间信息提升性能，并结合车道宽度一致性进行全局优化。

PersFormer 是首个基于 Transformer 的 3D 车道检测方法，提出 Perspective Transformer 架构（如图 5 所示），支持空间特征转换，可统一执行 2D 与 3D 检测任务，尽管推理时间相对更长。该工作还提出 OpenLane 数据集，基于 Waymo Open 构建，是首个大规模高质量 3D 车道检测数据集，覆盖丰富真实场景。

为避免 BEV 转换，Yan 等人提出 SALAD，一种无需相机外参也不使用锚点的回归方法（如图 6 所示），直接在前视图中回归车道线的三维信息。其依赖 LiDAR 提供深度信息用于训练，因此在遮挡或远距离点云稀疏时表现较差。该工作同时引入 ONCE-3DLanes 数据集，并提出更加全面的评估指标。

Li 等人认为应在整个检测过程中联合优化三维结构与几何先验关系，提出基于几何结构先验的新型损失函数，能稳定重建全局结构，特别在远距离区域保留更多结构信息。图 7 展示了该方法整体流程。

CurveFormer 与 CurveFormer++ 利用 Transformer 解码器中的曲线查询表示车道为一系列有序 3D 点，并进行迭代优化。CurveFormer++ 在网络结构、锚点机制与时序信息融合方面进一步改进，但其计算资源消耗与推理时间仍较高。

针对不同相机参数带来的困难，Wang 等人提出 BEV-LaneDet，引入虚拟摄像头统一视角参数，并提出关键点表示以适应多样复杂结构。同时设计轻量化空间变换金字塔模块，将多尺度前视特征转为 BEV 表示。该方法推理快但在 z 轴精度方面仍需改进。

Li 等人还提出将车道检测作为从二维重建三维的问题，并明确引入几何先验约束，提出辅助损失函数强化结构监督，从而提升噪声抑制与结构保留能力。

GroupLane 基于行分类的方式构建双组卷积头分别对应不同车道，采用 one-to-one 匹配策略降低优化难度。

为解决视差误差引起的特征错位问题，Luo 等人提出 LATR，基于前视特征构建端到端 3D 检测器。该模型使用车道感知查询生成器与动态三维地面位置嵌入，通过 cross-attention 完成查询与关键特征匹配。

Chen 等人提出一种更高效的 Transformer 模型，使用分解式交叉注意力同时学习车道与 BEV 表示，较传统 IPM 方法转换更准确、更高效。

Kim 等人指出以平面地面为假设的算法难以应对实际复杂路况，提出 D-3DLD，通过深度引导体素映射扩展上下文信息，结合不确定性建模与 Laplace loss 实现 3D 车道点置信度估计。

为降低算力需求，Li 等人提出基于 MobileNet 的轻量级方法，使用三阶段流程提取前视特征、BEV 转换与坐标预测。

Han 等人认为基于曲线的表示不适合不规则车道，提出将检测任务分为曲线建模与地面高度回归两个子任务，支持有无 3D 标签的统一优化。

Park 等人提出 HeightLane，引入多斜率假设预测高度图，使用可变形注意力提升 BEV 表达精度，在 OpenLane 数据集上表现优异。

上述方法多基于单帧输入，在缺乏视觉线索（如被遮挡）时表现不佳。为利用时空连续性，Wang 等人提出 STLane3D，使用多帧融合与时空注意模块，并设计 3D IOULoss 限制车道线变化，实现 SOTA 性能。

考虑到训练数据的高成本，Ai 等人提出弱监督方法 WS-3D-Lane，使用 2D 标签训练并首次引入摄像头俯仰角自校准机制。尽管仍需假设车道宽度恒定，但有效降低了标注成本并提升应用可行性。

图表 Table I 对上述方法进行总结，涵盖方法描述、使用数据集、是否开源以及网络架构等信息。

III. 三维车道线检测的性能评估

本节将讨论单目 3D 车道线检测模型的性能评估内容。我们将介绍评估指标、不同类型的目标函数，分析计算复杂度，并提供多种模型的定量对比结果。各符号含义列于表 II 中。

首先，我们展示 3D 车道线检测的可视化结果。由于部分算法未开源，我们仅在 ApolloSim 数据集和 OpenLane 数据集上，使用部分开源算法进行了可视化测试。这些算法均在 ApolloSim 与 OpenLane 数据集上训练，结果如图 8 和图 9 所示，红色线条为预测车道线，蓝色线条为真实车道线。接下来，我们将介绍 3D 车道线检测的评估指标、训练中所用的损失函数，以及在公开数据集上的定量测试结果，包括性能指标与处理延迟对比。

A. 三维车道线检测的评估指标

仅依赖预测模型进行单目 3D 车道线检测而不在未见数据上测试，并不能满足自动驾驶的安全性需求。大多数模型的性能评估是在与训练集分离的数据集上进行，即测试集对模型来说是“新”的。用于单目 3D 车道线检测的深度学习模型通常采用一系列通用评估指标来衡量其与真实值的接近程度。以下是常见的评估指标：

1）准确率：

$\text{Accuracy} = \frac{N_{TP} + N_{TN}}{N_{TP} + N_{FP} + N_{TN} + N_{FN}} \tag{1}$

2）召回率：

$\text{Recall} = \frac{N_{TP}}{N_{TP} + N_{FN}} \tag{2}$

3）精确率：

$\text{Precision} = \frac{N_{TP}}{N_{TP} + N_{FP}} \tag{3}$

4）F 值：

$F\text{-score} = (1 + \beta^2) \cdot \frac{\text{Precision} \cdot \text{Recall}}{\beta^2 \cdot \text{Precision} + \text{Recall}} \tag{4}$

5）平均精度（AP）：

$\text{AP} = \sum_{k=1}^{N} p(k) \cdot \Delta r(k) \tag{5}$

6）横向误差（X Error）：

$X\text{Error} = \frac{1}{N} \sum_{i=1}^{N} \sqrt{(x_i - \hat{x}_i)^2} \tag{6}$

7）纵向误差（Z Error）：

$Z\text{Error} = \frac{1}{N} \sum_{i=1}^{N} \sqrt{(z_i - \hat{z}_i)^2} \tag{7}$

8）Chamfer 距离误差（CD）：

$\frac{1}{|P|} \sum_{p \in P} \min_{q \in Q} ||p - q||^2 + \frac{1}{|Q|} \sum_{q \in Q} \min_{p \in P} ||q - p||^2 \tag{8}$

B. 单目三维车道线检测模型的定量分析

本节对本文综述的单目 3D 车道线检测方法进行了定量实证分析。在 ApolloSim 数据集上，我们使用四个指标对每种方法进行性能评估：AP、F-Score、X 误差和 Z 误差，结果列于表 III。在 OpenLane 数据集上，我们评估了各方法的 F-Score，如表 IV 所示。在 ONCE-3DLane 数据集上，我们评估了四个指标：F-Score、Precision、Recall 和 CD 误差，结果见表 V。ApolloSim 与 OpenLane 数据集上的定性可视化结果分别展示于图 8 与图 9。

此外，我们还考虑了各方法的计算效率，通过报告推理过程中的每秒帧数（FPS）来量化其运行时性能。各方法的整体运行时间记录在表 III、IV 和 V 中。

在评估计算效率时，我们使用统一平台测量开源算法的推理延迟。对于未开源的方法，我们引用原始论文中报告的延迟及其运行平台。我们的实验平台包括 Intel® Core i9-12900K CPU（操作系统为 Ubuntu 20.04）以及 NVIDIA GeForce RTX 3080Ti GPU（显存为 12 GB）。

从上述表格可以看出，所有方法均具备在自动驾驶系统中实现实时运行的潜力，肯定地回应了我们在第一章 B 节提出的问题。其中，BEV-LaneDet [43]、Anchor3DLane [44] 和 CLGo [50] 等方法在推理速度方面表现优异，有利于实际部署。而 LATR [49]、D-3DLD [65] 和 WS-3D-Lane [70] 等方法尽管满足实时性要求，但推理延迟较高，未来可通过使用 TensorRT 等优化部署方式进一步提升性能。

IV. 三维车道线检测的损失函数

在单目 3D 车道线检测任务中，常用的基本损失函数包括以下几种：

A. 均方误差损失（MSE Loss）

MSE 是最常用的损失函数之一，其通过计算模型预测值与真实值之间的平方差并取平均来度量误差。其数学表达式为：

$L_{MSE} = \frac{1}{N} \sum_{i=1}^{N} (y_i - \hat{y}_i)^2 \tag{9}$

B. 平均绝对误差损失（MAE Loss）

MAE 是另一种常见的损失函数，通过计算预测值与真实值的绝对差并取平均来表示误差。其数学表达式为：

$L_{MAE} = \frac{1}{N} \sum_{i=1}^{N} |y_i - \hat{y}_i| \tag{10}$

C. 交叉熵损失（Cross-Entropy Loss）

交叉熵常用于分类任务，在车道线检测中，模型可以通过判断像素是否属于车道线将问题转化为分类问题。其数学表达式为：

$L_{CE} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{ic} \log(p_{ic}) \tag{11}$

D. 二分类交叉熵损失（Binary Cross-Entropy Loss）

BCE 广泛用于二分类任务中，通过最小化预测值与真实标签之间的交叉熵差异来提升分类准确率，广泛应用于图像分类、文本分类和图像分割等任务。其数学表达式为：

$L_{BCE} = -\frac{1}{N} \sum_{i=1}^{N} \left[y_i \log(p_i) + (1 - y_i) \log(1 - p_i)\right] \tag{12}$

在上述四种基本损失函数中， $y$ 表示预测值， $\hat{y}$ 表示真实值。

E. 焦点损失（Focal Loss）

Focal Loss 是为解决类别不平衡问题而设计的损失函数，广泛应用于目标检测与语义分割任务中。当某一类样本数量远多于其他类别时，模型容易对多数类产生偏倚，导致少数类性能较差。其数学表达式为：

$L_{Focal} = - (1 - p_t)^\gamma \log(p_t) \tag{13}$

F. IoU 损失（IoU Loss）

IoU 损失基于交并比（Intersection over Union）设计，用于衡量模型预测区域与真实区域之间的重叠程度，常用于目标检测与分割任务。其数学表达式为：

$L_{IoU} = 1 - \frac{|S \cap \hat{S}|}{|S \cup \hat{S}|} \tag{14}$

不同方法对上述损失函数的使用各有不同，但本质上多数方法使用的是上述基本损失的组合或变种形式。本文在表 VI 中列出了各方法使用的损失函数配置。

此外，在模型训练过程中，为了将预测车道与真实车道进行合理匹配，通常使用 Hungarian 算法 [71] 来进行匹配操作。

V. 数据集

在基于深度学习的视觉任务中，数据集同样是至关重要的组成部分。本节介绍了用于单目 3D 车道线检测任务的相关数据集。其中一些数据集是开源且广受社区欢迎的，另一些则仅在论文中描述但未公开。无论是开源还是专有，我们均整理了详尽的信息，并在表 VII 中提供了更直观的汇总。

A. Apollo 3D Lane Synthetic Dataset

Apollo 3D Lane Synthetic Dataset [42] 是一个高质量的合成数据集，包含 10,500 帧 1080 × 1920 分辨率的单目 RGB 图像，基于 Unity 3D 引擎构建。每一帧均配有相应的三维车道标签和相机俯仰角数据。该数据集以美国硅谷为背景，涵盖高速公路、城市区域、居民区和市中心等多种场景。

该数据集的图像涵盖了丰富的白天与天气条件、不同的交通/障碍物场景及路面状况，具有很强的多样性与现实性。数据集划分为三类场景：Balanced Scenes、Rarely Observed Scenes 与 Scenes with Visual Variations。Balanced Scenes 用于标准驾驶场景的基准测试；Rarely Observed Scenes 用于评估算法对复杂城市地图（如高落差、急转弯）的适应性；Scenes with Visual Variations 用于测试算法在不同光照条件下的表现，其训练过程中排除特定时间段，仅在测试中使用。该数据集中相机内参固定，安装高度为 1.4 至 1.8 米，俯仰角为 0 至 10 度。

B. OpenLane

OpenLane [22] 是首个大规模真实世界 3D 车道线检测数据集，包含超过 200,000 帧图像和 880,000 条精确标注的车道线。该数据集基于影响力极大的 Waymo Open 数据集构建，使用相同的数据格式与评估流程，采样率为 10Hz，基于 64 线 LiDAR，在 20 秒时长内采集。

每一帧图像都包含详细的相机内外参信息和车道线类型标签，共包括 14 类，如白色虚线与道路边缘。整个数据集中约 90% 的车道线为双黄实线、单白实线或虚线。OpenLane 能真实反映长尾分布问题，标注中包含对向车道（若无中央隔离带）。由于复杂的车道拓扑（如十字路口、环岛等），单帧最多可包含 24 条车道线，约 25% 的图像帧包含六条以上车道，远超其他车道数据集。数据集还标注了场景标签（如天气与地点）及最近路径目标（CIPO），为规划与控制模块提供辅助信息。OpenLane 的三维车道标注由 LiDAR 数据合成，精度较高。训练集包含 157,000 张图像，验证集包含 39,000 张图像。

C. ONCE-3DLanes

ONCE-3DLanes 数据集 [61] 是一个实际可用的 3D 车道检测数据集，来自 ONCE AD 数据库。该数据集包含 211,000 张前视图图像及其对应的 LiDAR 点云数据，涵盖丰富的时间段与天气条件，如晴天、阴天、雨天等，涉及城市中心、住宅区、高速公路、桥梁、隧道等多种地形。

该数据集有助于开发和验证在复杂真实场景中具有鲁棒性的 3D 车道检测模型。数据集分为三部分：3,000 个场景用于验证，8,000 个用于测试，5,000 个用于训练；此外还包含 200,000 个未标注样本用于原始数据训练。该数据集提供相机内参，但未提供外参信息。

D. 其他数据集

在 [40] 中，提出了两个独立数据集：Synthetic-3D-Lanes 和 3D-Lanes。

Synthetic-3D-Lanes 数据集基于开源图形引擎 Blender 创建，包含 30 万张训练图像和 5 千张测试图像，每张图像分辨率为 360 × 480，配有车道线、相机高度与俯仰角等真实标签。该数据集在车道地形、障碍物分布与场景渲染方面具有高度多样性，适合用于方法开发与消融实验。

3D-Lanes 数据集则为真实世界采集的带标签数据集，采集设备包括前向摄像头、Velodyne HDL32 激光雷达和高精度 IMU。数据包含六段独立的道路记录，总行驶时间近两个小时。结合雷达与 IMU 数据生成 top-view 图像，并使用半人工标注工具生成标签。共标注 85,000 张图像，其中 1,000 张来自独立场景用作测试，其余用于训练。该数据集适用于验证算法对真实数据的迁移能力与定性分析。目前仅 Synthetic-3D-Lanes 数据集公开，3D-Lanes 数据集尚未开源。值得注意的是，尽管 Synthetic-3D-Lanes 可获取，但在后续研究中作为基准使用仍不广泛。

如表 VII 所示，虽然目前已有多个用于 3D 车道线检测的数据集，但真正开源的仍较少。针对第一章 B 节中提出的问题，我们认为虽然现有数据集覆盖了一些复杂场景，但仍不充分，例如夜间与极端天气下的数据依然缺乏。为推动该领域的发展，未来应引入更具挑战性的数据。除了采集更多真实数据外，利用最新的文本生成图像或视频技术（text-to-image / text-to-video）也为获取复杂场景数据提供了新的可能性。

VI. 自动驾驶中的三维车道线检测：挑战与未来方向

上述介绍的数据集涵盖了多种公开的道路场景，但当前主流研究仍主要集中在光照充足、天气良好的白天场景，这些条件有利于进行 3D 车道线检测。而实际上，许多车企和设备厂商掌握大量数据，但由于知识产权、行业竞争和《通用数据保护条例》（GDPR）等方面的考量，通常不会将数据公开。因此，在夜间、雾霾和边界场景等动态天气条件下获取足够标注数据，仍是自动驾驶研究中的重大挑战之一。

本节将针对 3D 车道线检测在自动驾驶中的现状提出关键观点，总结当前存在的一系列挑战，并提出研究方向建议，以帮助社区进一步突破技术瓶颈。

A. 主要挑战

尽管自动驾驶领域已有大量研究工作，并在产业中蓬勃发展，但实现真正的智能自动驾驶仍面临以下尚未解决的关键挑战：

1）粗结构化信息问题：目前大部分用于 AD 中 3D 车道线检测的公开数据集，都是在发达城市结构化良好的基础设施中采集的。虽然当前深度学习模型在这些数据集上表现优异，但其在非结构化环境中的泛化能力仍较弱。这一问题不仅需要拓展数据采集范围，也亟需在模型中引入更有效的表达机制。

2）不确定性感知决策缺失：模型在输入数据上做出预测的置信度在当前研究中被严重忽视。然而，在自动驾驶中，预测输出的置信度对于保障驾驶安全至关重要。尽管近期社区开始关注置信度估计 [75][76]，但仍需将证据深度学习 [77]、贝叶斯深度神经网络 [78]、Monte Carlo Dropout [79]、集成方法 [80] 等机制纳入系统性研究。当模型在数据稀缺的复杂环境下进行推理时，往往产生较强的 epistemic 不确定性。如果不将置信度作为决策条件，当前学界提出的 3D 车道线检测模型在工业应用中将面临可迁移性不足的问题。

3）弱监督学习策略缺乏：当前大多数深度学习模型依赖全监督策略，这对标注数据的需求极高，尤其是在 3D 车道线检测中，图像缺乏深度信息，需依赖 LiDAR 等额外传感器获取 3D 数据，导致标注成本高昂。尽管学术与工业界已意识到这一问题，弱监督学习策略在深度学习中已受到广泛关注，但在 3D 车道线检测领域仍研究较少。若能有效引入自监督与弱监督机制，将大幅降低标注成本，并提升模型性能。

B. 未来研究方向

1）基于视频的 3D 车道线检测：参考视频目标检测 [82]、语义分割 [83][84][85] 与 2D 车道检测 [86][87][88] 的发展，视频方法在利用时间信息、提升 3D 检测精度方面优势显著。例如 RVLD [86] 可连续捕捉车道线变化，有助于建模动态车道。引入视频将有助于理解驾驶场景的时空变化，为 3D 车道检测系统提供更全面的空间理解。

2）多模态与混合方法：结合多种传感器（如相机、LiDAR、雷达）能有效弥补单一视觉感知的局限，特别适用于复杂环境与遮挡情形。已有研究 [54][55] 展现了多传感器融合在车道边界估计中的鲁棒性。未来应聚焦于高效数据融合方法、传感器标定与边缘计算技术，以实现实时多模态处理。

3）主动学习与增量学习：主动学习 [92] 允许模型在部署后持续学习新场景，如生成查询样本 [94] 或基于数据结构的参数优化 [95]。与此同时，3D 车道线检测模型需具备持续增量更新能力，以适应道路场景变化，增强模型可持续性。

4）恶劣天气下的检测能力：强降雨、雾霾、雪天与沙尘暴等天气严重影响视觉感知质量，导致检测性能下降。研究表明 [96][97]，通过对包含恶劣天气的数据增强与领域适应，可提升模型在低能见度场景下的鲁棒性，为自动驾驶系统提供更安全的导航能力。

5）基于大语言模型（LLM）的 3D 车道线检测：大语言模型（如 ChatGPT）在自然语言理解方面展示出强大的零样本能力 [98]，但视觉任务仍需预训练与微调流程 [99]–[104]。新兴的视觉提示调优（visual prompt tuning）方法 [109]–[112] 为实例分割等任务提供了新思路，尽管当前尚未有结合 LLM 与 3D 车道线检测的工作。随着 LLM 功能不断增强，该方向值得深入探索。

6）更高效、精准的 3D 车道检测方法：如表 III 所示，当前方法在精度与推理延迟之间尚难平衡。在一些挑战性样本上的测试结果（图 10）亦不理想，强调了极端天气条件下性能改进的必要性。尽管部分方法可在 GPU 上实时运行，但 AD 系统计算资源有限，未来应更加关注算法复杂度优化。

7）基于事件相机的 3D 车道检测：RGB 相机在高速或弱光环境中图像质量差，而事件相机具有高时间分辨率、高动态范围、低延迟与低功耗等优势 [113][114]。当前基于事件相机的 3D 车道检测研究较少，但其在低光、动态场景中的潜力巨大，未来可探索结合 RGB 与事件相机的信息融合与专用数据集构建。

8）不确定性感知的 3D 车道检测：尽管 DNN 在多个视觉任务中取得成功，但其对数据分布变化敏感 [115]。目前大多数模型输出为确定性预测，而实际驾驶场景需要模型输出置信区间 [8][78][116]，供下游决策模块参考。如模型预测某车道线位置存在较高不确定性，则应采取保守驾驶策略；反之则可更自信地执行决策。

VII. 结论

视觉传感器在自动驾驶车辆中至关重要，它们极大地影响了决策过程。作为近年来发展最快的领域之一，计算机视觉技术通过分析视觉传感器获取的数据，从中提取关键信息，如红绿灯检测、交通标志识别、可通行区域划分以及三维障碍物感知。随着传感器技术、算法能力以及计算性能的持续进步，利用视觉传感器数据进行自动驾驶环境感知，已获得越来越多的关注。

例如，基于单目图像的三维车道线检测通过单张摄像头图像，在三维空间中识别车道线位置，融合了宝贵的深度信息。车道线的深度信息对于实现安全且舒适的决策与路径规划具有重要意义。尽管也可通过 LiDAR 等其他传感器获取 3D 车道信息，但视觉传感器因其成本低、信息丰富且具备结构化色彩优势，仍在自动驾驶中扮演不可或缺的角色。

尽管基于单目图像的 3D 车道线检测在自动驾驶中已有广泛研究，但现有文献中系统性的分析与整合仍较为稀缺。为此，本文对现有车道检测方法进行了系统综述，介绍了可用的 3D 车道检测数据集，并探讨了这些方法在公开数据集上的性能表现。此外，我们分析了当前方法所面临的挑战与局限。

研究结果表明，基于单目图像的 3D 车道线检测仍是一个发展中的研究方向，当前仍存在诸多问题。我们在文中详细讨论了这些问题，并提出了相应的改进建议和未来展望。本文回顾了深度学习模型的基础方法，概述了其在 3D 车道线检测任务中的结构层级，并剖析了各类模型在实际应用中面临的具体挑战。同时，我们还分析了性能评估策略、损失函数以及自动驾驶中常用的数据集。

最后，我们总结了当前尚未解决的技术难点，并提出了未来研究的发展方向，参考了近年来具有代表性的基准工作，为后续研究提供借鉴。

可以看出，智能交通系统领域的研究者正在不断推进 3D 车道线检测技术的发展，以更充分地利用视觉传感器数据。目前的研究主要集中在通过神经网络提升模型精度，或探索创新网络结构。但若要实现真正可靠、可信与安全的自动驾驶系统，还需解决更多实际挑战。

具体而言，在 3D 车道线检测中，仍需开发更鲁棒的模型，具备应对车道遮挡、粗结构信息处理和风险预警能力。此外，当前模型大多依赖监督学习，对高质量标注数据需求极高，导致标注过程耗时且成本高昂。因此，探索自监督或弱监督等替代学习方式，将成为未来发展的关键路径。

若能有效利用这些新方法，有望极大推动智能交通系统研究进展，使 3D 车道线检测技术迈向更高水平。这一进步也将促进自动驾驶技术在真实环境中的部署，进一步提升交通出行的安全性、可靠性与舒适性，为现代交通与物流系统提供有力支持。

🌟 在这篇博文的旅程中，感谢您的陪伴与阅读。如果内容对您有所启发或帮助，请不要吝啬您的点赞 👍🏻，这是对我最大的鼓励和支持。

📚 本人虽致力于提供准确且深入的技术分享，但学识有限，难免会有疏漏之处。如有不足或错误，恳请各位业界同仁在评论区留下宝贵意见，您的批评指正是我不断进步的动力！😄😄😄

💖💖💖 如果您发现这篇博文对您的研究或工作有所裨益，请不吝点赞、收藏，或分享给更多需要的朋友，让知识的力量传播得更远。

🔥🔥🔥 “Stay Hungry, Stay Foolish” —— 求知的道路永无止境，让我们保持渴望与初心，面对挑战，勇往直前。无论前路多么漫长，只要我们坚持不懈，终将抵达目的地。🌙🌙🌙

👋🏻 在此，我也邀请您加入我的技术交流社区，共同探讨、学习和成长。让我们携手并进，共创辉煌！

自动驾驶系列—Monocular 3D Lane Detection for Autonomous Driving