PillarNet: Real-Time and High-PerformancePillar-based 3D Object Detection

发布于：2025-06-24 ⋅ 阅读:(201) ⋅ 点赞:(0)

ECCV 2022

paper：[2205.07403] PillarNet: Real-Time and High-Performance Pillar-based 3D Object Detection

code：https://github.com/VISION-SJTU/PillarNet-LTS

纯点云基于pillar3D检测模型

网络比较

SECOND

基于voxel，one-stage，基于sparse 3D conv
将点云划分为3D voxel，在BEV空间识别box
模型结构包括
- encoder：编码非空3D voxel特征，生成多size3D特征
- neck：将bev空间下的多尺度3D特征flatten，转换成多尺度（和多size区别？）特征；top-down
- detect head：用多尺度bev特征做box分类回归

PointPillars

用一个小PointNet将点云投射到xy平面，生成一个稀疏2D底图
2Dconv（top-down）网络，对底图生成多尺度特征
detect head

分析

基于pillar的网络性能瓶颈（资源性能？效果性能？）主要在于sparse encoder、neck模块
PointPillar直接在稠密的2d底图上用特征金字塔网络 fuse多尺度特征
- 缺少pillar特征编码
- 把输出特征的size和初始pillar范围耦合了，造成所用计算资源随着pillar scale上涨

改进

将SECOND中的3d sparse conv替换成2d
用neck模块融合稀疏的空间特征、抽象高维语义特征
总结
1. 学pillar 特征：较重的 sparse encoder
2. 空间特征融合：较轻的neck

结构

encoder

输入：稀疏2d pillar特征
stage1-4：2d conv，逐渐降采样pillar特征
1. 可使用2d检测backbone：vgg，resnet，并且可提升3d效果
2. 逐渐降采样，缓解了pillar size绑定的影响

neck

16倍下采样稠密特征
3种设计
1. v1：SECOND设计
2. v2：基于1多一条skip connection
3. v3：基于2多一层conv

loss

cls：focal loss
iou：

1. S：分类score
2. W：3d iou score
  1. L1 loss
  2. β：超参
  3. iou计算：2 ∗ (W − 0.5) ∈ [−1, 1].
3. 解耦朝向：xxIoU loss → OD-xxIoU
size（3d box），off（位置偏移量），z（z方向位置），ori（朝向）：L1 loss