Delivering Arbitrary-Modal Semantic Segmentation(CVPR2023)任意模态语义分割论文阅读

发布于:2025-06-10 ⋅ 阅读:(31) ⋅ 点赞:(0)

paper:https://arxiv.org/pdf/2303.01480
Github:https://github.com/jamycheung/DELIVER

文章研究思路

多模态融合可以使语义分割更加鲁棒。然而,融合任意数量的模态仍然是一个未充分探索的问题。为了深入研究这一问题,我们

1:创建了DeLiVER任意模态分割基准数据集,涵盖了深度(Depth)、激光雷达(LiDAR)、多视角(Multiple Views)、事件(Events)和RGB模态。除此之外,我们还提供了四种恶劣天气条件下的数据集,并包括五种传感器故障情况,以利用模态间的互补性并解决部分故障问题。

2:提出了任意跨模态分割模型CMNeXt。该模型包含一个自查询中心(Self-Query Hub,SQ-Hub),旨在从任意模态中提取有效信息,以便随后与RGB表示进行融合,并且每增加一个模态仅增加极少的参数(约0.01M)。此外,为了高效且灵活地从辅助模态中获取判别性线索,我们引入了简单的并行池化混合器(Parallel Pooling Mixer,PPX)。通过在六个基准数据集上的大量实验,我们的CMNeXt实现了最先进的性能,能够在DeLiVER、KITTI-360、MFNet、NYU Depth V2、UrbanLF和MCubeS数据集上实现从1个模态到80个模态的扩展。在新收集的DeLiVER数据集上,四模态的CMNeXt在mIoU上达到了66.30%,相较于单模态基准提高了9.10%。

创建了DeLiVER任意模态分割基准数据集

统计信息

在这里插入图片描述

DeLiVER 多模式数据集包括 (a) 5种天气情况(多云、有雾、夜间、下雨和晴天),含有4种不利条件;6种传感器情况, 除了正常情况外,有5个传感器故障情况 (MB:运动模糊、OE: 过度曝光、UE: 曝光不足、LJ: LiDAR-Jitter:LiDAR 抖动、和 EL:事件低分辨率),传感器安装在 Ego Car 上的不同位置提供多个视图,包括前、后、左、右、上和下,因此 每个样本有 6 个视图,每个视图都有4种模态(RGB、Depth、Lidar、Event)和2类标签(semantic 和 instance)。(b) 是数据统计,共计 47,310 帧,大小为1042*1042 。其中 7,885 个前视图样本分为 3,983/2,005/1,897 分别用于训练/验证/测试。(c) 是 25 个语义类的数据分布。

在这里插入图片描述

4种模态

在这里插入图片描述
在这里插入图片描述

25个语义类

Building - 建筑物、Fence - 围栏、Other - 其他、Pedestrian - 行人、Pole - 杆、RoadLine - 路线、Road - 道路、SideWalk - 人行道、Vegetation - 植被、Cars - 汽车、Wall - 墙壁、TrafficSign - 交通标志、Sky - 天空、Ground - 地面、Bridge - 桥梁、RailTrack - 铁路轨道、GroundRail - 地面铁路、TrafficLight - 交通灯、Static - 静态、Dynamic - 动态、Water - 水、Terrain - 地形、TwoWheeler - 两轮车、Bus - 公共汽车、Truck - 卡车

提出了任意跨模态分割模型CMNeXt

下图为CMNeXt的整体架构图,该模型是编码器-解码器(Encoder-Decoder)架构。其中,编码器是一个双分支和四阶段的编码器,双分支分为RGB的主要分支和其他模态的次要分支,为了保持模态表示的一致性,Lidar、Event信息按照文章[ ISSAFE: Improving semantic segmentation in accidents by fusing event-based data.][Perception-aware multi sensor fusion for 3D LiDAR semantic segmentation]预处理为类似图像的表示形式。backbone遵循大多数的CNN/Transformer结构,以用于提取多尺度的金字塔特征,四阶段以下只详细标注第一阶段。采用Hub2Fuse范式和不对称分支设计,RGB图像通过多头注意力(MHSA)逐步处理[来自SegFormer],其他M种模态图像则通过本文提出的自查询中心(Self-Query Hub)和并行池化混合器(PPX)进行处理:在Hub步骤中,Self-Query Hub从辅助模态中选择出具有信息量的特征;在融合步骤中,特征修正模块(FRM)和特征融合模块(FFM)被用于特征融合[ CMX: Cross-modal fusion for RGB Xsemantic segmentation with transformers],各个阶段之间,融合后的特征会通过add的方式叠加到每种模态的特征而后进入下一阶段;经过四个阶段后,会得到四阶段特征,传递给MLP解码器分割头,进行预测。

在这里插入图片描述

自查询中心(Self-Query Hub,SQ-Hub)

为了执行任意模态融合,自查询中心(SQ-Hub)是一个关键设计,用于在与 RGB 特征融合之前选择补充模态的信息特征,简单的理解就是用一个类自注意力机制的模块将不同的模态信息进行融合输出。随后,该输出特征经过PPX模块进行进一步加工。
在这里插入图片描述

并行池化混合器(Parallel Pooling Mixer,PPX)

并行池化混合器作用是从上述 SQ-Hub 中的任意模态补充中高效灵活地获取判别线索。结构如下所示,先是7*7的DW-conv,再通过3种不同核尺度的池化层,残差连接; 最后通过FFN和SEnet的结构Squeeze-and-Excitation module 跨通道增强信息。
在这里插入图片描述

与基于卷积的MSCA [27]、基于池化的MetaFormer [86]、全注意力的FAN [99]相比,PPX包含两项创新:

  • (1) 在注意力部分使用并行池化层进行高效加权;
  • (2) 在特征混合部分进行通道级增强。

PPX模块的这两项特点有助于分别在空间和通道维度上突出跨模态融合特征。

实验部分

表 1 为 CMNeXt 与其它多模态融合领域的 SOTA 方法在六个多模态的分割数据集上的对比。实现结果表明,与HRFuser、TokenFusion以及CMX等众多前向研究相比,所提方法无论是在任意单模态或多模态下均能发挥出色的分割性能,具备很强的鲁棒性。

在这里插入图片描述

表 2 展示了 CMNeXt 与主流多模式融合范例在不同条件下的比较结果,包括恶劣天气和部分传感器故障场景。可以看出,先前的方法在两大挑战上均表现不加。受益于所提出的用于选择有效特征的自查询中心(SQ-Hub),方法显著提高了整体的分割性能,平均提升了 9.1 个点。

在这里插入图片描述

表 3 主要对本文所提的各个模块进行消融实验论证。

在这里插入图片描述

CMNeXt针对RGB-only SegFormer和RGB-X CMX的语义分割结果。可以看出,在曝光不足的黑夜中,仅 RGB 的 SegFormer 几乎无法分割近处的车辆,而基于 RGB-D 深度估计的 CMNeXt 明显优于SegFormer。另一方面,结合四种不同模态RGB-D-E-L的CMNeXt方法则进一步提高了性能并产生了更完整的分割效果。同时,在激光雷达抖动的部分传感器故障场景中,CMX产生了不好的雨景解析结果;而本文所提方法几乎不受传感数据未对齐的影响,CMNeXt进一步加强了全场景分割的性能。
在这里插入图片描述