室外 3DVG 基准

发布于:2025-08-15 ⋅ 阅读:(12) ⋅ 点赞:(0)

室外 3DVG基准(按重要性与被引用频率)

  1. Talk2Car / Talk2Car-3D (2019 / 衍生) — 对象 referral(驾驶场景)

    • 说明:最早的自然语言 → 驾驶场景对象引用数据集之一(原 Talk2Car 是以 nuScenes 为底并提供自然语言命令,评测以 bounding-box 定位为主;后续研究把它转换/扩展为 3D 版本(常见称呼 Talk2Car-3D)以用于 3D grounding 实验)。
    • 模态:相机图像 + LiDAR(源自 nuScenes);语言为自由命令 / referring expressions。
    • 可用性:原始 Talk2Car 数据/工具公开(论文与 repo)。
    • 参考:Talk2Car paper & repo. (ACL Anthology, GitHub)
  2. CityRefer (NeurIPS 2023) — 城市尺度点云的 3D visual grounding

    • 说明:面向 city-scale outdoor point clouds(SensatUrban 数据),提供面向 3D 对象定位 的自然语言描述(约 35k 描述),专门为城市/点云室外 grounding 设计。
    • 模态:稠密城市点云(SensatUrban)+地理信息(OpenStreetMap 对齐的地标标签)。
    • 可用性:数据集与基线/代码均公开(NeurIPS 数据集/补充材料、GitHub)。
    • 参考:CityRefer(paper + supplementary / project)。(arXiv, NeurIPS Proceedings)
  3. WildRefer (ECCV 2024) — STRefer / LifeRefer(大规模动态/行人场景)

    • 说明:提出 3DVG in the wild,包含 STRefer 与 LifeRefer 两个子集,侧重动态/人类中心的室外场景(LiDAR + camera + language),用于 3D 对象定位。
    • 模态/特点:多传感器 LiDAR+相机,多帧动态序列,语言为人工标注的 referring expressions;代码/数据仓库可查。
    • 可用性:论文与官方实现公开(ECCV 论文 & GitHub)。
    • 参考:WildRefer paper & repo. (ECVA, GitHub)
  4. City-scale localization / Text→position(Text2Pos / KITTI360Pose,CVPR2022) — 文本到点云定位(大尺度/格网定位)

    • 说明:任务是把自然语言描述映射到城市尺度的位置/格子(coarse→fine localization),而非单个精确 3D box 的实例定位,但它是室外语言↔点云的大尺度基准,常被归入 outdoor 3DVG 的范围(强调位姿/位置而非 box)。
    • 数据源:KITTI360 / KITTI360Pose 构建。
    • 可用性:论文与实现资源可查(CVPR2022)。
    • 参考:Text2Pos / KITTI360Pose. (CVF开放获取, text2pos.github.io)
  5. NuGrounding (2025 preprint) — 多视角/多摄像头的 3DVG(基于 nuScenes)

    • 说明:最近工作(预印本)宣称构建了“首个大规模 multi-view 3D visual grounding benchmark for autonomous driving”(NuGrounding),使用 nuScenes 数据并自动/半自动构造 grounding prompt(包含实例定位、multi-view 融合考察)。
    • 模态:nuScenes(LiDAR + 多摄像头),instance-level grounding 目标。
    • 可用性:预印本已发布(arXiv);数据/代码通常在作者 repo/补充中公布(需按作者 release 状态检查)。
    • 参考:NuGrounding (arXiv preprint). (arXiv)
  6. Talk2LiDAR / Talk2PC / BEVGrounding(2024–2025) — Lidar-centered 3DVG 基准

    • 说明:近年若干工作提出 专门面向 LiDAR(点云)或 BEV 的 3DVG 基准(例如文献/会议里出现的 Talk2LiDAR / Talk2PC / BEVGrounding 等),目的在于直接在 LiDAR(或 BEV)上进行自然语言驱动的实例定位(not just 2D→3D)。这些基准通常在论文/补充中给出数据构建细节与基线实验。
    • 可用性/引用:相关论文与 openreview / conference 出版物可检索(示例:“Talk2LiDAR / BEVGrounding”)。(OpenReview)
  7. Talk2Radar (2024) — Radar 点云 + 自然语言 的 3D referring 数据集

    • 说明:把 4D mmWave radar / radar point cloud 与自然语言 referring 表达结合起来,提出了 Talk2Radar 基准(示例规模:数千条 referring prompts),用于在雷达点云上做 3D referring / REC。
    • 可用性:论文/预印本公布,数据说明在论文与项目页中给出。
    • 参考:Talk2Radar arXiv / paper。(arXiv, ResearchGate)
  8. GroundingOcc / 3D occupancy grounding(2025 preprints / repos)

    • 说明:将传统“bounding-box grounding”推广到体素级 occupancy grounding(即自然语言 → voxel 层级的占用/形状),一些工作在 nuScenes 上构建了 GroundingOcc / occupancy-grounding 基准(更细粒度、对几何要求更高)。这是室外 3DVG 的一种延伸任务。
    • 可用性:近期预印本与代码仓(如 GroundingOcc GitHub)已发布。(arXiv, Hugging Face)
  • 范围差别:上面列出的数据集包含不同定义的“grounding”——有些是实例级(给定语言返回 3D box / object instance,如 CityRefer、Talk2Car-3D、NuGrounding、WildRefer、Talk2LiDAR),有些是定位/格网/占用级(Text2Pos、GroundingOcc),有些专注于特殊传感器(Talk2Radar)。在做比较实验时要把任务定义(instance localization vs. occupancy vs. coarse localization)事先对齐。(arXiv)
  • 公开性:CityRefer、Talk2Car(原版)与 WildRefer 的代码/数据是可访问的(paper + repo);新近的 NuGrounding、Talk2LiDAR、Talk2Radar、GroundingOcc 等有的在 arXiv / openreview 给出了预印本与实现链接,但具体数据发布/许可/下载状态请以各作者 repo / paper 的说明为准(部分可能需申请访问或尚属作者 release 阶段)。请在使用前检查各自的 license/下载页面。(arXiv, OpenReview, GitHub)
数据集 / 基准 (year) 任务类型 传感器模态 论文 PDF / 预印本 官方 repo / 下载 / project page
Talk2Car (2019) instance-level visual grounding (commands → box) multi-view camera + LiDAR (built on nuScenes) Paper / info page. (talk2car.github.io) GitHub / dataset page (Talk2Car). (GitHub, talk2car.github.io)
CityRefer (NeurIPS 2023) instance-level 3D visual grounding (city-scale) city-scale photogrammetric point clouds (SensatUrban) NeurIPS paper PDF / proceedings. (NeurIPS Proceedings, arXiv) Project / supplementary (paper page includes links). (NeurIPS Proceedings)
WildRefer (ECCV 2024) instance-level 3D object localization / grounding in large-scale dynamic scenes (STRefer, LifeRefer) LiDAR + camera (dynamic / human-centric outdoor scenes) ECCV paper PDF. (ECVA, ACM Digital Library) ECCV project / poster & code pointer (paper + repo). (eccv.ecva.net, ACM Digital Library)
Text2Pos / KITTI360Pose (CVPR 2022) localization: text → position (coarse→fine city-scale localization) LiDAR / city-scale point clouds (KITTI360) CVPR 2022 paper (Text2Pos). (CVF开放获取, text2pos.github.io) Project page (Text2Pos site). (text2pos.github.io)
NuGrounding (2025, preprint) multi-view instance-level 3D grounding for autonomous driving nuScenes: LiDAR + multi-camera (multi-view) arXiv preprint / PDF (NuGrounding). (arXiv) arXiv + authors’ repo (check paper for repo link). (arXiv)
Talk2LiDAR / BEVGrounding (2024–2025, papers / preprints) instance-level 3D grounding on LiDAR / BEV LiDAR (point cloud) / sometimes radar fusion; BEV representations Paper / arXiv describing Talk2LiDAR & BEVGrounding (preprints). (arXiv) Repo(s) linked from paper / authors (see paper for code links). (arXiv)
Talk2PC / Talk2PC (TPCNet) (2025 preprint) instance-level LiDAR-centered 3D visual grounding LiDAR ± radar / multi-sensor point cloud arXiv preprint (Talk2PC / TPCNet). (arXiv) Paper + likely repo (见 arXiv / paper 补充)。(arXiv)
Talk2Radar (2024) instance-level 3D referring on radar point clouds 4D mmWave radar (+可能的相机 / LiDAR配合) arXiv paper (Talk2Radar). (arXiv) arXiv page + repo link in paper (authors’ project page). (arXiv)
GroundingOcc / Talk2Occ (GroundingOcc) (2025 preprint) occupancy-level 3D grounding (voxel/occupancy grounding) nuScenes (multi-sensor) → voxel occupancy + language arXiv preprint (GroundingOcc / GroundingOcc paper PDF). (arXiv) GitHub: authors report dataset/repo at https://github.com/RONINGOD/GroundingOcc . (arXiv, alphaXiv)
  1. 定义差异:表中包含三类不同目标 —— instance-level(给定语言返回某个物体的 3D box / instance)、localization/position(把语言映射到城市尺度的位置格子或坐标)、和occupancy(把语言映射到体素/占用网格)。在比较模型/结果时务必对齐任务定义。(CVF开放获取, arXiv)
  2. 数据来源 / 依赖:一些基准是直接建立在已有自动驾驶数据集之上(例如 Talk2Car 建立在 nuScenes 之上;NuGrounding / GroundingOcc / Talk2Radar / 多个 occupancy 型基准也以 nuScenes 为底),因此使用它们通常需要先获取相应的原始底层数据(nuScenes、KITTI360、SensatUrban 等)并遵守这些数据集的许可。请在论文/项目页查看"如何下载 / license"说明。(talk2car.github.io, nuscenes.org)
  3. release 状态:CityRefer、Talk2Car、WildRefer、Text2Pos(KITTI360Pose)是明确已发布且可访问的数据集/基准。NuGrounding、Talk2LiDAR、Talk2PC、Talk2Radar、GroundingOcc 等包含最近(2023–2025)发表或预印本工作;大多数作者会在论文或补充中给出 repo/下载链接,但某些资源可能为预印本阶段(请以对应 GitHub / project page 为准)。我在表中把可用的 repo / arXiv / project page 都附上了来源链接。(NeurIPS Proceedings, ECVA, arXiv)