写在前面：

最近因为新项目的事情，到外地出差，没有太多时间更新深感抱歉~后续有时间会继续更新的！如果你对自动驾驶感兴趣，经过一步步的深入学习最后来到了自己需要设计一个方案来搭载你的设备完成某些任务时，如何快速入手？抑或是没有设备但是想投入研究工作（甚至可以投身于数据集打榜），公开数据集是一个很好的切入点。本文是从几个经典的自动驾驶数据集出发，去体会设计者的思路和方案，注意：本文不侧重于数据集的使用和网络结构的内容。自动驾驶的数据集发布了不少了，例如Kitti、奥迪、Apollo、Udacity等等。本文则主要会涉及到KITTI、nuScenes、Waymo、WoodScape以及今年刚发布的车路协同数据集DAIR-V2X。

-----------------------------------------------------------------------------------------------------------------------

2.nuScenes数据集

3.Waymo数据集

4.WoodScape数据集（待更新）

5.DAIR-V2X数据集（待更新）

首先在这里强调在使用和下载数据集时，非常推荐大家先去下载并阅读数据集的论文或者Github说明，这对我们深入理解和应用数据集十分关键。

1.KITTI数据集

官网：The KITTI Vision Benchmark Suite

论文原文：Vision meets Robotics: The KITTI Dataset

KITTI是非常老牌的自动驾驶数据集了（最早2012~2013制作的），我们来阅读一下其论文看看有什么发现：

首先，对于其传感器布局我们可以看出其传感器的布局方案：

Sensor Setup：

以及

我们可以看出他们的方案主要采用了：相机140万像素，采用的是索尼ICS267 CCD的底，采用的快门方式是global shutter（全局快门）。采用的是两个灰度相机和两个彩色相机。镜头则采用了4个Edmund 的4mm 水平AFOV 大约90度，竖直方向（ROI） AFOV约为35度（这两个数值都是可以根据镜头焦距和相机属性来计算的），从图上可以看出他们将相机分为两组去使用（文中也解释了为什么要两个一起使用，那是因为因为工业相机的Bayer模型需要插值得到最后的彩色数据会损失一定的感光（例如RGGB格式的Bayer插值得到RGB每个感光需要滤光所以总的光线浪费掉了）），彩色+灰度相机为一组组成双目摄像头组。激光雷达则采用当时非常昂贵的激光雷达老大哥Velodyne64线机械式激光雷达，安装在汽车顶部，帧率为10Hz。组合惯导采用的是OXTS RT3003（英国公司的产品）并且使用了RTK服务（L1，L2级别）。工控机（PC）采用的是一台六核的Intel XEON X5650处理器以及4T的储存。操作系统是Ubuntu，数据流通过实时的database来储存和管理。

当然啦，这是很早的配置，但是对于想在线下搭建平台的朋友可以参考其结构设计等方面，是具有一定启发意义的。

从文中还可以发现，本数据集主要采集地点是欧洲，所以如果你照搬Kitti数据集中的数据训练自己的模型在中国实测会发现效果并不好。（例如Kitti中有几个项目例如有轨电车、拖车等等我们这边其实也是比较少见的）。下载过Kitti数据集的同学应该会发现，其图像格式是png格式的。对于惯导而言，每帧储存了30个包括俯仰角海拔等等不同的值，采用了两个不同的坐标系即车体坐标系以及全球的地球坐标系。

在标定方面，对于同步：他们采用了以激光雷达的时间戳作为参考的时间，并把每次旋转设为核心帧（10Hz，旋转一圈为1frame），触发相机的形式为安装了一个簧片旋转到前向位置时触发相机。IMU/GPS数据匹配直接采用最近邻时间戳匹配，运行在100Hz，最坏的误差为5ms。相机标定分为内参和外参标定，文档中他们给出了每日的标定数据（也就是每天开机前他们都做了标定以保证准确性）并完成了pinhole相机的畸变矫正。激光雷达和IMU标定采用的是基于欧式距离优化的方法，通过经典的开车“画八字”使用ICP算法手眼标定来得到两者的RT外参关系。

最后我们来看看数据分布：

可以看出对于人和truck等样本的labels太少了，这会带来一些问题。值得注意的是Kitti数据集中有一个项目为 Don't Care，代表的是激光雷达无法观测到但是会出现在图像中的目标。

打榜：可以看到目前Kitti的打榜依然活跃，通过打榜获取相关研究的论文也是我们学习前沿技术的一个重要途径！（下图为3D目标检测的榜单）

2.nuScenes数据集

官网：https://nuscenes.org/

论文：（来自IEEE）nuScenes: A Multimodal Dataset for Autonomous Driving | IEEE Conference Publication | IEEE Xplore

nuScenes数据集发表于2019年，是一个较为新的数据集。传感器相较于Kitti加入了雷达（radar），配置包括6个相机，5个雷达，1个激光雷达（覆盖360的视场）。其提供了1000个场景，每个场景20s，提供23类8属性的数据，可以看上图。文中提到激光雷达测距范围50~150m，雷达可以达到200~300米并通过多普勒效应提供目标速度信息。并且，他发布时是收个所有sensor都组成360度FoV的传感器组（5个radar、6相机排布覆盖360度视场），详细的传感器配置方案在论文中没有标出，我们可以进入到官网：

传感器具体配置见下图：

激光雷达采用的是威力登的32E，工作帧率20Hz，相机则采用了德国老牌Basler工业相机（acA1600-60gc，目前售价四千多一颗可以上官网找到这颗相机Basler ace acA1600-60gc (CS-Mount) - 面阵相机）12Hz（相机自身最高支持60帧，文中还用了13和20Hz），按照他图中画的5个70度FOV的，1个110度的（配置未知）。70度fov的镜头Evetar的F1.8 f5.5mm 1/1.8（对应sensor的尺寸），200万像素，是CMOS器件（目前主流）采用自动曝光但限制在20ms以内（避免运动模糊），数据储存则是压缩为JPEG输出（大大减少储存写入的数据流）。安装形式则是55度的offset安装70度FOV的相机（同样可以根据sensor和镜头计算），后视（rear）则采用110度（区间也刚好是110度和周围两个相机有重叠区域）；5个雷达，经典的大陆408(Continental ARS 408-21）77GHz，工作帧率13Hz，从手册（具体的可以看下面的图片）可以看出可以达到正负60度的视场，安装5块是一个经典安装方法。组合惯导采用的是Spatial（Spatial | Miniature GNSS/INS | Advanced Navigation）目前售价2900刀，具体参数可以看官网。

文中给出了和其他数据集的对比，可以看出它的优势，并且我们也可以注意到其他在中国收集的数据集（红色框），值得一提的是对于不同场景，他提供了夜晚及雨天的场景这是非常有意义的。

在同步方面，其采用的策略是：当顶部激光雷达穿过相应相机视场是触发并将相片的名称命名为曝光时刻的时间戳（没有采用二分之一曝光时间所以推测可能使用了Basler的全局快门模式）。激光雷达则是整圈完成（1个frame）的时间打上时间戳。由于在城市场景的应用遮挡明显，对于GPS来说影响较大，他们通过离线用激光雷达构建HD map来使得结果更加准确（辅助定位），定位误差小于10cm。他们还做了人工语义标注的地图以协助轨迹预测。

数据标注上，对关键帧以2Hz采样（也就是一秒钟选取2“张”），标注了23个类别，标注框采用的格式为中心点加长宽高加yaw。

评价指标方面，使用AP指标但是没有使用IOU，而是采用2D的中心欧式距离来判断，目的是为了对小物体友好（对小物体检测我们常使用很小的IOU），所以本文还提出了一组评价指标感兴趣的可以看文章，这里不再展开了（下图可以看出CD法的效果）。