自动驾驶&占用网格预测-EW帮帮网

文章目录

需要阅读的文献：

需要阅读的文献：

⭐[ECCV 2024] SparseOcc 纯稀疏3D占用网络和 RayIoU 评估指标
 ECCV 2024｜OSP：自动驾驶全新建模方法，端到端输出任意位置的占用结果
 SparseOcc纯稀疏占用网络论文笔记（南大/上海AI LAB）
3D Occupancy 探索V1.0 - T-MAC的文章 - 知乎
 最新综述！一览Occ与自动驾驶的前世今生，首篇综述全面汇总特征增强/量产部署/高效标注三大主题
 COTR:CompactOccupancyTRansformerforVision-based3DOccupancy Prediction
清华开源GaussianWorld：搭建高斯世界模型，精准预测3D语义Occupancy！
StreamPETR
清华：实时重建Driv3R: Learning Dense 4D Reconstruction for Autonomous Driving

自动驾驶Occupancy梳理笔记（一）

github论文仓库

综述 Awesome-3D-Occupancy-Prediction
Awesome-occupancy-perception
Awesome-Occupancy-Prediction-Autonomous-Driving
课程OccNet-Course
3D 占用感知

论文idea提取

BEVFormer

万字长文理解纯视觉感知算法 —— BEVFormer
(ECCV 2022)BEVFormer：通过提取环视相机采集到的图像特征，并将提取的环视特征通过模型学习的方式转换到 BEV 空间（模型去学习如何将特征从图像坐标系转换到 BEV 坐标系），从而实现 3D 目标检测和地图分割任务

deformable conv

Deformable DETR
传统的CNN卷积核是固定大小的矩形，只能在固定为位置对固定输入特征进行采样，为了解决这个问题，为解决该问题，研究人员提出了 Deformable Convolution—可变性卷积方法，它对感受野上的每一个点加一个偏移量，偏移的大小是通过学习得到的，偏移后感受野不再是个正方形，研究人员期望感受野是和物体的实际形状相匹配。这么做的好处就是无论物体怎么形变，卷积的区域始终覆盖在物体形状的周围。

deformable attention

BEV感知—BevFormer详解
 【有啥问啥】什么是Deformable Attention（可变形注意力机制）？
可变形注意力机制结合了稀疏注意力的思想和动态偏移的创新。它通过生成动态偏移来调整采样位置，从而在稀疏注意力的基础上实现更加灵活的注意力分配。具体来说，可变形注意力机制首先通过稀疏选择减少计算范围，然后在这些关键位置上应用动态偏移，以获取更加准确的注意力权重

Object Query（对象查询）

Object Query（对象查询）是Transformer-based目标检测模型（如DETR、StreamPETR）中的核心概念，可以理解为一种动态的、可学习的“物体探测器”

是什么：Object Query是一组可学习的向量（通常为数百个），每个向量代表模型在图像或场景中寻找的一个潜在目标。

作用：通过与图像特征交互，每个query独立预测一个物体的位置（如3D框）、类别、速度等信息。

类比：类似于传统检测中的“锚框”（Anchor），但更灵活——无需预定义形状或位置，完全由数据驱动。

StreamPETR

ICCV 2023 | StreamPETR：
StreamPETR论文讲解和代码解析
在这里插入图片描述

考虑到以上两种时序建模的优劣性，我们想以DETR-based方法为baseline，像BEV时序建模那样引入一个稀疏object query 的中间表征（创新点）传递时序信息，避免特征重复计算，保持DETR-based方法的高效性与动态建模特性。

为此，如图（c）所示，提出了 Obiect-centric 时序建模方式：

该方法是通过前后帧的 object query 之间的 hybrid-attention 来进行时序的传播。针对于运动物体的建模，用物体的运动属性 M(时间间隔 t，速度 v，ego 姿态矩阵 E) 对历史帧的 object query 进行变换，从而赋予历史帧运动信息，或者理解为把历史帧的时序信息转换到当前帧，然后在hybrid attention 中进行融合交换，使得原初始化的object query也具有该信息。

步骤

输入与初始化：
当前帧图像：通过图像编码器提取多视角特征。
初始查询：随机生成一组查询，代表潜在检测目标。
历史信息加载：

History Memory Queue：加载前N帧（如N=4）的Top-K查询（含位置、速度等）。
Ego Transform：根据自车运动（IMU数据）将历史查询对齐到当前帧坐标系。

时序传播（Propagation）：

混合查询拼接：将历史查询（对齐后）与当前初始查询拼接，形成混合查询。
Hybrid Attention：通过注意力机制，当前查询与历史查询交互：
抑制冗余检测（如重复框）。
修正动态物体的位置（如利用历史速度预测当前位置）。

检测与更新：

Output Transformer：输出当前帧的检测结果（前景对象）和背景特征。

Top-K筛选：保留高置信度的前景查询（如Top-256）。

FIFO更新内存队列：新查询加入队列，淘汰最旧的查询。

自动驾驶&占用网格预测

文章目录

需要阅读的文献：

github论文仓库

论文idea提取

BEVFormer

deformable conv

deformable attention

Object Query（对象查询）

StreamPETR

步骤

清华大学 GaussianWorld

网站公告

今日签到

热门文章

最新发布