大模型+自动驾驶

论文:https://arxiv.org/pdf/2401.08045.pdf

大型基础模型的兴起,它们基于广泛的数据集进行训练,正在彻底改变人工智能领域的面貌。例如SAM、DALL-E2和GPT-4这样的模型通过提取复杂的模式,并在不同任务中有效地执行,从而作为广泛AI应用的强大构建块。自动驾驶,作为AI应用的一个活跃前沿,仍然面临着缺乏专门的视觉基础模型(Vision Foundation Models,VFMs)的挑战。全面训练数据的稀缺、多传感器集成的需求和多样的任务特定架构对该领域VFMs的发展构成了重大障碍。本文深入探讨了为自动驾驶量身定制VFMs的关键挑战,并概述了未来的发展方向。通过对250多篇论文的系统分析,我们剖析了VFM开发的基本技术,包括数据准备、预训练策略和下游任务适应。此外,我们还探索了如NeRF、扩散模型、3D高斯喷溅和世界模型等关键进展,为未来研究提供了全面的路线图。为了赋能研究者,我们建立并维护了Forge VFM4AD,一个开放获取的存储库,不断更新自动驾驶VFMs锻造的最新进展。

自动驾驶(AD)技术的迅速发展正在重塑交通运输领域,开启了一个由AI驱动的未来。传统的自动驾驾驶感知系统依赖于模块化架构,使用专门的算法来处理特定任务,例如对象检测 Lang et al. (2019);Mao, Xue, et al. (2021),语义分割 Y. Guo, Liu, Georgiou, 和 Lew (2018);X. Yan et al. (2022),以及深度估计 Ming, Meng, Fan, 和 Yu (2021)。每个任务通常由一个单独的模型解决,这些模型通常是在特定任务标签上训练的深度神经网络。然而,这些分隔的组件在提升单个任务性能的同时牺牲了更广泛的上下文理解和数据关系。这种方法通常导致输出不一致,并限制了系统处理长尾案例的能力。

大规模基础模型,尤其是自然语言处理(NLP)领域的 Brown et al. (2020);OpenAI (2023),已成为人工智能领域的强大力量。这些模型在训练时使用了广泛多样的数据集,并经常利用自监着学习技术。一旦训练完成,它们可以通过微调来适应广泛的特定任务。像GPT-3/4 Brown et al. (2020);OpenAI (2023)这样的数十亿参数模型在零/少次射击学习中的成功尤其值得注意。它们在少次射击学习方面的卓越能力使它们能够有效地处理分布外的AD数据情景,例如遇到未知对象。此外,它们在推理方面的内在能力使它们非常适合需要逻辑处理和明智决策的任务。

尽管大型基础模型确实在各个领域产生了革命性的影响,但它们对AD的影响尚未达到预期。将现有的在2D数据或其他领域的文本模态上训练的视觉基础模型(VFMs)直接应用于AD任务已被证明是明显不足的。这些模型缺乏利用对AD感知任务至关重要的丰富3D信息的能力,例如深度估计。此外,AD架构的内在异质性和多传感器融合的必要性给VFMs的直接适应带来了额外挑战。这一挑战由高效处理多样化传感器数据(例如激光雷达、相机、雷达)并无缝适应AD领域内各种下游任务的VFMs需求进一步加剧。

在自动驾驶发展的背景下,两个关键因素阻碍了视觉基础模型的进展:- 数据稀缺性:由于隐私问题、安全规定和捕捉真实世界驾驶场景的复杂性,AD数据本质上是有限的。此外,AD数据必须满足严格的要求,包括多传感器对齐(例如激光雷达、相机、雷达)和时间一致性。

  • 任务异质性:自动驾驶呈现出一系列不同的任务,每个任务都需要不同的输入形式(例如相机、激光雷达、雷达)和输出格式(例如3D边界框、车道线、深度图)。这种异质性对VFMs构成了挑战,因为针对一个任务优化的架构在其他任务上的表现往往不令人满意。因此,开发一个能够高效处理多传感器数据并在各种不同下游任务中表现良好的单一通用架构和表示仍然是一个重大障碍。

尽管存在这些挑战,但有迹象表明,为自动驾驶开发大型视觉基础模型的前景正在逐渐显现。通过持续收集 Caesar et al. (2020);Mao, Niu, et al. (2021)和先进模拟技术的不断发展 X. Li et al. (2023);Z. Yang et al. (2023a)为解决数据稀缺问题提供了可能。此外,感知领域的最新进展,尤其是转向统一表示法,利用鸟瞰图(BEV) Z. Li, Wang, et al. (2022);Philion 和 Fidler (2020),和占用表示法 X. Tian, Jiang, et al. (2023),为缺乏通用表示法和架构的问题提供了潜在的解决方案。

本文深入探讨了为自动驾驶发展大型视觉基础模型的关键技术,如图1所示。我们的探索从在基础模型、现有框架和任务方面建立全面背景开始,以及发展表示法,概述我们的核心动机在第2节中。随后,我们在第3节深入研究现有数据集和数据模拟技术,强调了像生成对抗网络(GANs)、神经辐射场(NeRFs)、扩散模型和3D高斯喷溅(3DGS)等技术在解决自动驾驶固有数据稀缺性方面的关键作用。在这个基础上,第4节分析了有效训练VFMs在未标记真实世界数据上的自我训练技术。最后,为了弥合训练有素的VFMs和下游任务之间的差距,第5节探讨了将在其他领域发展的基础模型应用于AD领域。我们审视了所学到的宝贵经验和潜在适应性,以实现自动驾驶中多样化下游任务的有效性能。

与现有的综述论文 Firoozi et al. (2023);Y. Huang, Chen, 和 Li (2023);J. Sun et al. (2023);Z. Yang, Jia, Li, 和 Yan (2023)不同,这些论文囊括了在各个领域应用大型基础模型,本文通过专注于为自动驾驶挑战量身定制的大型视觉基础模型的发展提出了一种新的方法。这种独特的视角使我们能够更深入地探讨构建VFMs所需的基本原则和技术进步,以推动该领域的实质性进展。

本工作的主要贡献可以总结如下

  • 我们采用了一个统一的流程来发展自动驾驶的大型视觉基础模型(VFMs)。这个流程包括对数据准备、自监着学习和适应的全面审查。

  • 我们系统地分类了提出框架内每个过程的现有工作,如图2所示。我们的分析提供了细致的分类、深入的比较,并在每个部分总结了洞见。

  • 我们深入探讨了在为自动驾驶打造视觉基础模型(VFMs)时遇到的关键挑战。通过对超过250篇综述论文的洞察,我们总结了关键方面,并提出了未来研究的方向。

图片

数据准备 

在自动驾驶的背景下,鉴于确保人类安全所涉及的高风险,处理复杂驾驶场景的稳健性至关重要。自动驾驶系统必须有效地应对各种挑战,包括交通参与者、天气条件、照明以及道路状况。然而,收集涵盖所有可能场景的数据集(如意外的行人相关交通事故)是不切实际且效率低下的。此外,基于合成数据训练的模型可能难以有效地概括到现实世界场景,因为数据分布可能存在差异。因此,问题的关键在于生成逼真且可控制的数据。值得鼓舞的是,最近的进展,特别是在扩散模型和NeRF方面,已经产生了模糊了现实与机器生成界限的图像,为解决数据稀缺提供了有希望的技术支持。

本节不仅深入研究利用现有数据集,还探索了以成本效益和高效方式收集、合成或增强自动驾驶数据的多种方法。这包括生成对抗网络、扩散模型、神经辐射场和3D高斯喷溅等技术。表2提供了这些数据生成方法的概览。

图片

自监着学习训练 

在获取大量逼真数据后,有效的预训练范式对于从庞大数据集中提取一般信息和构建视觉基础模型至关重要。

自监着学习(self supervised learning),即在大量未标记数据上进行训练,已在多个领域显示出潜力,如自然语言处理和特定的图像处理应用。此外,它为自动驾驶的视觉基础模型(VFMs)的发展带来了新的前景。如表3所示,我们对构建自动驾驶VFMs的自监着学习范式进行了全面的综述,涵盖了所有自监着或无监督方式的努力。这些方法被归类为五个主要类型,包括基于对比的、基于重构的、基于蒸馏的、基于渲染的和基于世界模型的。

图片

适配

虽然当前缺乏为自动驾驶量身定制的视觉基础模型(Vision Foundation Model)构成了挑战,但我们可以分析现有基础模型的应用,例如来自其他领域的视觉基础模型、多模态基础模型和大型语言模型(Large Language Models),以增强我们的理解。表5清晰地总结了一些著名模型。通过检查现有解决方案的局限性,我们已经提取了关键见解,并提出了专门为自动驾驶定制的视觉基础模型。

图片

结论

基础模型的出现已根本性地改变了人工智能的格局,其在革新自动驾驶方面的潜力不可否认。本文深入探讨了为自动驾驶专门打造视觉基础模型(VFM)的核心问题,重点突出了数据生成、预训练和适应性等关键技术。然而,朝着稳健且适应性强的自动驾驶感知系统迈进的道路依然充满挑战。我们希望我们的调查和平台能够促进未来在安全关键的自动驾驶领域内视觉基础模型的研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/246416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数字图像处理(实践篇)三十一 Raw图像数据转为RGB图像实践

目录 1 Raw图像和RGB图像 2 Raw图像的排布方式 3 方案 4 实践 5 其他 1 Raw图像和RGB图像 Raw图片是未经压缩的,没有任何数据损失,Raw图片保留了从图像传感器捕获的每个像素的原始信息,因此可以实现更高的图像质量。

用C语言实现贪吃蛇游戏!!!(破万字)

前言 大家好呀,我是Humble,不知不觉在CSND分享自己学过的C语言知识已经有三个多月了,从开始的C语言常见语法概念说到C语言的数据结构今天用C语言实现贪吃蛇已经有30余篇博客的内容,也希望这些内容可以帮助到各位正在阅读的小伙伴…

Flink实现数据写入MySQL

先准备一个文件里面数据有: a, 1547718199, 1000000 b, 1547718200, 1000000 c, 1547718201, 1000000 d, 1547718202, 1000000 e, 1547718203, 1000000 f, 1547718204, 1000000 g, 1547718205, 1000000 h, 1547718210, 1000000 i, 1547718210, 1000000 j, 154771821…

基于51单片机智能电子秤

实物显示效果: https://www.bilibili.com/video/BV1Wb4y1A7Aw/?vd_source6ff7cd03af95cd504b60511ef9373a1d 功能介绍: (1)用键盘设计单价; (2)称重后同时显示该物品的重量、单价和总额&…

记签名机制

签名过程: 首先将数据源通过摘要算法获取到数字摘要 对数字摘要用私钥进行加密得到签名 将原始消息 以及签名发送给消息接收方 接收方用公钥解密得到数字摘要 用同样的摘要算法将原始消息进行计算 比较得到的数字摘要与解密后的是否一致 Android学习笔记——Androi…

【精选推荐】3款强大的API渗透测试工具

1免责声明 请勿利用文章内的相关技术从事非法测试,由于传播、利用此文所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,作者不为此承担任何责任。工具来自网络,安全性自测。 2前言 给大家介绍三款优秀的…

智能GPT图书管理系统(SpringBoot2+Vue2)、接入GPT接口,支持AI智能图书馆

☀️技术栈介绍 ☃️前端主要技术栈 技术作用版本Vue提供前端交互2.6.14Vue-Router路由式编程导航3.5.1Element-UI模块组件库,绘制界面2.4.5Axios发送ajax请求给后端请求数据1.2.1core-js兼容性更强,浏览器适配3.8.3swiper轮播图插件(快速实…

VR拍摄+制作

1.VR制作需要的图片宽高是2:1,需要360✖️180的图片,拍摄设备主要有两种: 1)通过鱼眼相机拍摄,拍摄一组图片,然后通过PTGui来合成(拍摄复杂) 2)全景相机,一键拍摄直接就能合成需要的…

C# Graphics对象学习

Graphics对象用于进行绘制; 从哪个对象获取的Graphics,然后进行绘制,就绘制到该对象上; 从位图获取Graphics,然后进行绘制,绘制到该位图上; 从某个控件获取Graphics,然后绘制&…

智慧文旅:提升旅游体验与推动经济发展的新动力

一、智慧文旅的定义与意义 智慧文旅,即智慧文化旅游,是一种以当地特色文化元素为核心驱动,利用现代科技手段实现旅游景区全面智慧升级的旅游模式。其意义在于为游客提供高效便捷的旅游信息化服务,提升旅游体验,同时推…

蓝桥杯备战——6.串口通讯

1.分析原理图 由上图我们可以看到串口1通过CH340接到了USB口上,通过串口1我们就能跟电脑进行数据交互。 另外需要注意的是STC15F是有两组高速串口的,而且可以切换端口。 2.配置串口 由于比赛时间紧,我们最好不要去现场查寄存器手册&#x…

Unity应用在车机上启动有概率黑屏的解决方案

问题描述 最近将游戏适配到车机上(Android系统),碰到了一个严重bug,启动的时候有概率会遇到黑屏,表现就是全黑,无法进入Unity的场景。 经过查看LogCat日志,也没有任何报错,也没有任…

Python网络爬虫分步走之 – 第一步:什么是网络爬虫?

Python网络爬虫分步走之第一步:什么是网络爬虫? Web Scraping in Python Step by Step – 1st Step, What is Web Crawler? By JacksonML 1. 什么是网络爬虫? 在能够使用Google搜索引擎的场合,你是否尝试过简单搜索&#xff…

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程

经典目标检测YOLO系列(三)YOLOV3的复现(1)总体网络架构及前向处理过程 和之前实现的YOLOv2一样,根据《YOLO目标检测》(ISBN:9787115627094)一书,在不脱离YOLOv3的大部分核心理念的前提下,重构一款较新的YOLOv3检测器,来对YOLOv3有…

Go 命令行解析 flag 包之快速上手

本篇文章是 Go 标准库 flag 包的快速上手篇。 概述 开发一个命令行工具,视复杂程度,一般要选择一个合适的命令行解析库,简单的需求用 Go 标准库 flag 就够了,flag 的使用非常简单。 当然,除了标准库 flag 外&#x…

vue3预览pdf文件的几种方法

文章目录 vue3预览pdf集中方法方法一:方法二:展示效果:需要包依赖:代码: 方法三:展示效果:需要包依赖:代码:自己调参数,选择符合自己的 vue3预览pdf集中方法 …

蓝桥杯备战——7.DS18B20温度传感器

1.分析原理图 通过上图我们可以看到DS18B20通过单总线接到了单片机的P14上。 2.查阅DS18B20使用手册 比赛的时候是会提供DS18B20单总线通讯协议的代码,但是没有提供读取温度数据的代码,所以还是需要我们去查看手册,我只把重要部分截下来了 …

一款强大的矢量图形设计软件:Adobe Illustrator 2023 (AI2023)软件介绍

Adobe Illustrator 2023 (AI2023) 是一款强大的矢量图形设计软件,为设计师提供了无限创意和畅行无阻的设计体验。AI2023具备丰富的功能和工具,让用户可以轻松创建精美的矢量图形、插图、徽标和其他设计作品。 AI2023在界面和用户体验方面进行了全面升级…

基于LLaMA-Factory的微调记录

文章目录 数据模型准备基于网页的简单微调基于网页的简单评测基于网页的简单聊天 LLaMA-Factory是一个非常好用的无代码微调框架,不管是在模型、微调方式还是参数设置上都提供了非常完备的支持,下面是对微调全过程的一个记录。 数据模型准备 微调时一般…

Dockerfile里ADD * 保留原来的目录结构

1、问题 给新模块写Dockerfile,很多静态资源分散在各个目录,于是Dockerfile里我直接一句: ADD ./* /dest/镜像出来后,启动容器,进入容器种后发现:文件拷贝成功,但原来的目录结构都不在了&…