数据作为新型生产要素,是数字化、网络化、智能化的基础,是互联网时代的“石油”“煤炭”,掌握数据对于企业而言是能够持续生存和发展的不竭动力,对于需要大量数据训练自动驾驶系统的企业而言更是如此。
而随着激光雷达、毫米波雷达、摄像机、全球定位系统、惯性测量单元等关键技术上车,一辆智能网联汽车所能够收集到的数据也越发丰富。据英特尔公司预测,一辆智能网联自动驾驶汽车每运行8小时将产生4TB的数据。但面对如此纷繁杂乱的数据,“如何利用、用在何处”成了各大企业面对的问题。基于此,各大研究所开源数据集为自动驾驶发展指明应用方向。
1.发展状况
2009年英国剑桥大学研究团队发布CamVid数据集,这是第一个标注了语义信息的视频数据集,包含激光雷达、相机和IMU三类传感器设备采集到的多段路况环境信息,其中图像包含有像素级的语义标注数据,为早期自动驾驶的研究提供了重要帮助。
2012年德国卡尔斯鲁厄理工学院发布KITTI数据集,它包含的点云、图像和实时定位数据,至今仍活跃在自动驾驶相关研究的科研一线,是自动驾驶和移动机器人定位导航领域最重要的算法验证数据集之一。
随后2014年牛津大学发布Oxford RobotCar数据集,2016年独立团队发布Cityscapes数据集,2018年百度发布ApolloScape数据集,2019年本田研究所发布H3D数据集,同年安波福发布nuScenes数据集等。2020年Waymo公司开展了史上最大的自动驾驶数据集采集计划,其数据采集的时间、地点、路线范围都远超已有的数据集。
这些数据集相比于早期的CamVid与KITTI数据集,在数据容量、数据丰富度和数据质量都有了十分明显的提升。至此,自动驾驶数据集的制作,已由早期的纯科研课题,转化为需要大规模人力、物力和财力支撑的工程化、商业化课题。
2.应用方向及案例
正因采集到的数据丰富而多样,在将其应用到模型训练前,需要将各类数据分类并标注,以便其理解,再通过一代一代的升级,实现自动驾驶系统的完善。从自动驾驶系统的感知、决策、执行三方面出发,采集到的数据可以分为八大应用方向:目标检测数据集、语义分割数据集、车道线检测数据集、光流数据集、立体数据集、定位与地图数据集、驾驶行为数据集、仿真数据集。以下将简要介绍其中个别数据集应用案例。
目标检测数据集:Waymo数据集
目标检测需要识别出图片中目标的类别,并定位到目标的具体位置并用矩形框标。而Waymo数据集是到目前为止最大、最多样化的数据集。相比于以往的数据集,Waymo在传感器质量和数据集大小等方面都有较大提升,场景数量是nuScenes数据集的三倍,包括1950个自动驾驶视频片段(至少20s长);以及汽车、行人、自行车、交通标志四类标签;1260万个3D框,1180万个2D框;采集范围涵盖美国加州的凤凰城、柯克兰、山景城、旧金山等地区的市中心和郊区。同时涉及各种天气条件下的驾驶数据,包括白天、黑夜、黎明、黄昏、雨天、晴天等。
语义分割数据集:Cityscapes数据集
语义分割指的是把图像中的每个像素都划分到某一个类别上。Cityscapes专注于对城市街景的语义理解,包含从50个不同城市的街景中记录的各种立体视频序列,拥有5000张在城市环境中驾驶场景的图片;具有19个类别的密集像素标注,其中8个具有实例级分割;高质量的像素级注释有5000帧,另外还包括20000个弱注释帧;标注类别包括平面、建筑、自然、车辆、天空、物体、人类和空洞等。
驾驶行为数据集:JAAD数据集
JAAD是用于研究自动驾驶背景下的联合注意力的数据集。重点是行人和驾驶员在交叉路口的行为以及影响它们的因素。为此,JAAD数据集提供了有丰富注释的346个短视频片段(5-10秒长)的集合,代表了北美和东欧不同天气状况下城市驾驶的典型场景,同时为所有行人提供了带有遮挡标签的边界框,使这个数据集适用于行人检测。行为注释说明了与司机互动或需要司机注意的行人的行为,每段视频都有几个标签(天气、地点等)和固定列表中带有时间戳的行为标签,例如停止、行走、寻找等。此外,还提供每一帧的可见交通场景元素列表,如停车标志、交通信号等。
3.相关思考
基于此,数据有着丰富而又广阔的应用场景,对于强化自动驾驶的感知、决策、执行系统大有裨益,能够极大地提升自动驾驶的安全性,为用户的行车安全保驾护航。但是仍面临着一些亟待解决的挑战:
一是车辆数据的归属权。当前对于车辆数据的归属权尚未明确,厂商需要自建数据集以训练自动驾驶系统,成本高昂且效率低下。同时还存在着“数据量不足”和“交通状况覆盖面狭窄”等问题。
面对海量的用户数据,智己汽车提出了解决办法,即用户通过贡献数据换取“原石”。这一方法间接承认了用户的数据权益,明确了数据、用户、企业三者之间的关系,让用户可以利用数据升级车辆软硬件、享受智享服务等。虽然实际效果还有待用户验证,以及更明确的政策层面保障还有待出台,但是这一方法或许值得借鉴。
二是如何开放更深层次的数据集。当前,行业企业的数据由于缺乏统一的格式和标准以及有效的共享协同机制,难以形成完整的数据产业生态。而且对于自动驾驶系统而言,即使开源了数据集,其所需要的数据量是庞大的,一家企业的数据往往难以支撑起复杂的交通状况,需要各企业合力共建,打造从数据采集到数据标注,再到模型训练、数据分析的完整的数据闭环。
清华大学智能产业研究院率先响应,联合北京市高级别自动驾驶示范区、北京车网科技发展有限公司、百度Apollo、北京智源人工智能研究院共同发布了DAIR-V2X,该数据集提供的示范区内真实场景下的数据,覆盖了一些复杂的交通、天气、环境等信息。该数据集开放的目的还在于支持一批车路协同数据标准的制定,从而支撑自动驾驶的模型训练和数据分析,为行业发展降本增效。虽然目前还仅限示范区小范围,但这一系统性思路值得借鉴。
三是基于生成式大模型技术的思考。尽管面临着重重挑战,但随着科技的进步,尤其是大模型的出现给数据集的发展带来了机遇,为数据集的高效利用提供了新方法。业内大模型结合的NeRF技术,不仅能够重建数据集里的场景,还支持编辑天气、路况以及主车的姿态、位置、行驶轨迹等,以数据生成数据,减少了数据的采集需求。此外,对于数据的预处理,大模型能够自动分类驾驶场景,减少人工筛选劳动,据行业观察,其精准率达90%;其在助力数据标注,提升标注效率,降低人工成本方面也被看好。