1. 简介
论文提出了FSHNet(Fully Sparse Hybrid Network),一种用于3D物体检测的全稀疏混合网络。FSHNet旨在解决现有稀疏3D检测器的两大核心问题:长距离交互能力弱和网络优化困难。稀疏检测器(如VoxelNeXt和SAFDNet)虽能高效处理点云数据(仅操作非空体素),但在长距离检测任务中表现不足。FSHNet通过结合稀疏卷积的高效性和注意力机制的长距离交互能力,实现了在多个基准数据集(Waymo、nuScenes、Argoverse2)上的SOTA性能。主要创新包括SlotFormer块、动态稀疏标签分配策略和稀疏上采样模块。
2. 核心问题与动机
稀疏3D检测器仅从非空体素提取特征,导致两个关键挑战:
- 长距离交互弱(Long-range interaction weakness):稀疏体素间的交互依赖于卷积核的局部范围,当体素距离超出核尺寸时(例如,两个遥远体素无法通过中间空体素桥接),特征提取能力受限。这削弱了全局场景感知,尤其影响大型物体(如车辆)的检测。
- 中心特征缺失(Center feature missing):物体中心区域常为空体素(尤其在大物体中),但中心特征对对象检测至关重要(如作为代理)。缺失中心特征阻碍网络优化,导致训练不稳定和性能下降。
图1直观比较了稀疏与稠密检测器的体素交互差异:在稀疏检测器中,遥远体素无交互;在稠密检测器中,空体素充当“桥梁”,实现扩散交互。
传统解决方案(如增大卷积核)会增加计算开销,而基于Transformer的方法(如DSVT)受限于窗口尺寸。FSHNet通过混合架构解决这些问题。
3. FSHNet方法细节
FSHNet的整体框架如图2所示,包括输入处理、稀疏卷积编码器、SlotFormer块、稀疏上采样模块和动态稀疏头。框架以点云为输入,转换为稀疏体素后,通过多阶段处理生成预测。
3.1 SlotFormer块(解决长距离交互问题)
- 核心思想:SlotFormer取代传统窗口分区,使用“槽位分区”(slot partition)。每个槽沿X或Y轴覆盖整个场景(无限边长),提供更大的感受野(全局范围)。相比窗口分区(如DSVT),槽位分区能处理更长的距离交互。
- 机制:体素按槽索引分组(Eq.1),采用线性注意力(linear attention)而非自注意力,计算复杂度从O(N²)降至O(N)。具体步骤:
- 体素分组:基于坐标计算槽索引(d_i^x 和 d_i^y)。
- 线性注意力:生成查询(Q)、键(K)、值(V)矩阵(Eq.2),计算KV矩阵(Eq.3),并通过归一化输出新特征(Eq.4)。最后,通过前馈网络更新特征(Eq.5)。
- 优势:SlotFormer与现有稀疏编码器(如SAFDNet)结合,实现高效全局交互。在FSHNet中,多层SlotFormer交替槽方向(X/Y轴),增强全局连接。
3.2 稀疏上采样模块(增强细粒度细节)
- 问题:稀疏编码器下采样导致小物体细节丢失(如行人)。
- 机制:输入体素坐标加倍(Eq.6),创建更细粒度的体素网格。随后应用稀疏卷积层(核尺寸3,步幅1)扩散特征(Eq.7),恢复下采样中丢失的细节。
- 优势:保留小物体的细粒度信息,提升检测精度。实验表明,该模块对行人等小物体效果显著(见表7对比)。
3.3 动态稀疏标签分配(优化网络训练)
- 问题:现有方法(如中心最近分配)仅选最近体素作为正样本,忽略高质量候选,导致优化不足。
- 策略:为每个标注框中心,动态选择候选体素。如图3所示,计算候选体素(n个最近体素)的选择成本(Eq.8),基于分类和回归损失(IoU加权)选择top-k正样本(Eq.9)。成本计算包括预测框与真实框的IoU。
- 损失函数:回归使用旋转加权IoU损失;分类使用焦点损失(focal loss),正样本权重为1,负样本权重基于IoU设置。
- 优势:提供更多高质量正样本,缓解中心缺失问题,优化网络训练。消融实验显示,候选数n=5时效果最佳(见表8)。
4. 实验验证
FSHNet在三大数据集评估,使用FSHNet_light(基于VoxelNeXt)和FSHNet_base(基于SAFDNet)变体。关键结果:
4.1 Waymo数据集
- 验证集(表1):FSHNet_base在LEVEL 2 mAP/mAPH上达77.1/74.9,优于SOTA方法(如ScatterFormer的75.7/73.8)。在车辆和行人类别提升显著(如车辆AP 82.2 vs. SAFDNet的80.6)。
- 测试集(表2):FSHNet_base的LEVEL 2 mAP/mAPH为77.4/75.2,刷新SOTA记录。SlotFormer对大型物体(车辆)效果突出。
4.2 nuScenes数据集
- 验证集(表3):FSHNet_base在NDS和mAP上达71.7和68.1,超越TransFusion-L和SAFDNet。训练仅36轮(无CBGS策略),显示高效性。
4.3 Argoverse2数据集
- 验证集(表4):针对长距离检测(范围200米),FSHNet_base的mAP为40.2,显著优于SAFDNet(38.7)。小物体(行人mAP +3.2%)和大物体(巴士mAP +1.0%)均有提升。
4.4 消融研究
- 组件贡献(表5):SlotFormer提升大型物体性能(车辆AP +2.4%);动态标签分配优化训练(行人AP +1.8%);稀疏上采样增强小物体检测。
- 分区方式对比(表6):槽位分区 + 线性注意力效果最佳(优于窗口分区)。
- 上采样策略(表7):SP-SU(稀疏卷积扩散)优于SM-SU(特征重复)。
- 参数分析(表8):候选数n=5时动态标签分配最优。
5. 主要贡献与限制
- 贡献:
- 提出首个结合稀疏卷积和注意力的混合模型FSHNet,平衡效率与性能。
- 设计SlotFormer块,实现全局范围体素交互。
- 引入动态稀疏标签分配,深度优化网络。
- 稀疏上采样模块保留细粒度细节,提升小物体检测。
- 实验证明泛化性强,在多个基准达到SOTA。
- 限制:SlotFormer增加延迟(FSHNet_base从94ms增至123ms),未来需优化效率。
6. 结论
FSHNet通过创新混合架构解决了稀疏3D检测器的核心瓶颈,在长距离交互和网络优化上取得突破。实验验证了其在Waymo、nuScenes和Argoverse2的优越性,为自动驾驶感知提供了高效解决方案。代码开源促进了社区应用。