大模型与端到端会成为城市自动驾驶新范式吗?

摘要:

最近可以明显看到或者感受到第一梯队的城市自动驾驶量产已经进入快车道,他们背后所依靠的正是当下最热的大模型和端到端的技术。

近期,城市自动驾驶量产在产品和技术上都出现了新的变化。

在产品层面,出现了记性行车或者称为通勤NOA的新形态,首先学习和记忆用户自行驾驶的路线,等到学习成功以后,就可以使用该路线实现城市NOA,大疆、理想等多家公司已经正式官宣该产品。

在技术层面,最近可以明显看到或者感受到第一梯队的城市自动驾驶量产已经进入快车道,他们背后所依靠的正是当下最热的大模型和端到端的技术。从各家发布的技术路线来看,可以归纳出城市NOA的四件套

1)以BEV大模型为基础的城市道路交通全栈感知大模型;

2)至少上亿公里或者上百万个视频的数据训练;

3)至少上百P的算力平台,用作大模型数据训练;

4)智驾芯片上Transformer的高效部署。

某种程度而言,要真正实现数十个城市的大规模量产,以上四件套缺一不可。

虽然种种迹象表明城市自动驾驶量产呈现快速发展势头,但是我们仍然应该理性认识到在国内数十个城市解决每一个复杂场景和corner case的不确定性、复杂度和难度。四件套是基础,但足不足够我依然会打一个问号,毕竟拥有上述豪华四件套的特斯拉也依然还没有迎来V12版本,依然没有全量推送。

从技术路线上来说,大模型和端到端是继高精度地图路线后的一次冲锋,在chatGPT席卷浪潮之下下可谓是生逢其时,那么他们会是否会成为城市自动驾驶量产的新范式呢?让我们来分析一下各家的武器库。

注:以下素材均来源于网络公开资料,如有侵权,请联系删除。

0理想:智驾全面拥抱大模型

2023年6月17日,首届理想家庭科技日在理想汽车常州智能制造基地举行,分享会上宣布本月即将开启城市NOA内测,也宣告理想AD智能驾驶进入大模型时代。

其自动驾驶大模型能力体现以下几点:

1.BEV感知大模型

感知采用BEV大模型,不依赖高精地图,能够实时感知和理解环境中的道路结构信息。通过大量的训练,目前理想的BEV大模型已经可以在绝大多数的道路和路口实时生成稳定的道路结构信息。这里的「绝大多数的道路和路口」到底是多少,个人认为还有待验证,毕竟全国道路总里程有1000万公里。

2.路口神经先验网络(NeuralPriorNet)

对于城市中的复杂路口,仅通过BEV大模型来进行感知依然不够稳定。例如在一些跨度较大的路口,通行车辆较多,传感器视野容易被遮挡,导致车端实时感知的结果会丢失局部的信息。

针对这类复杂路口,理想使用自研的神经先验网络(NeuralPriorNet,简称为NPN网络),提前提取和存储路口NPN特征,当车辆再次行驶到该路口时,将之前提取好的NPN特征,与车端感知大模型的BEV特征层进行融合,从而得到完整的感知结果。

NPN特征是一堆神经网络参数,人类无法从这些参数直接理解复杂路口形态,但是大模型可以。相比高精地图,NPN特征的信息量更大、保密性更高。可以理解为,它用网络模型替代了人为规则,进行环境信息的理解和环境信息的使用。

通过NPN特征增强BEV模型的研究论文,发表在AI领域的国际顶级会议CVPR上,论文题目为:Nerual Map Prior for Autonomous Driving。

据业内某专家分析,从他们的模型流程来看:车队的数据训练好之后会被存储,当用户车(offline)走到这里的时候,就会查询当前位置(比如路口)对应的全局NMP,然后用户车端编码器提取到的BEV特征会和当前位置存储好的全局NMP进行一个融合,类似于定位,最后解码器输出一个车端的路口语义地图;如果发现车端观测的特征和全局NMP不一样,又会做一轮融合更新,重新存储到全局的NMP里,相当于用户车只要是走过自动驾驶车队走过的路口,都有图参考。

3.端到端的信号灯意图网络(TrafficIntentionNet)

众所周知,路口红绿灯的通行规则一直是城市道路中的难点。一般需要从高精地图中获取信号灯与道路、车道的绑定关系来确定当前车道所对应的红绿灯。这个规则的建立需要人工提前处理,而理想选择用大模型解决。

训练了一个端到端的信号灯意图网络(TrafficIntentionNet,简称为TIN网络)。不需要人为设定任何规则,甚至不需要识别红绿灯的具体位置。只要将图像视频输入给TIN网络模型,网络就能直接给出车辆现在该怎么走的结果——左右转、直行或停止等待。其核心是通过学习大量人类司机在路口对于信号灯变化的反应,来训练TIN网络模型。

在路口处,TIN网络根据输入的视频图像,实时给出的路口不同通行意图的概率,概率值最大的就是实际使用的意图,这与信号灯的指示一致。

此外,面对道路上可能会出现的通用障碍物,比如施工路障、遗撒物体、卡车后斗伸出的货物等,理想也和特斯拉、华为一样使用Occupancy网络,来精准地识别它们的边界和类型。近几个月,通过“喂”大量训练里程,Occupancy网络识别的内容和准确性又得到了很大的提升。

4.1200P和6亿公里的训练平台

大模型的训练,需要一个强大的基础训练平台,才能完成快速高效的训练和迭代。理想到今天为止已经拥有1200 PFLOPS算力的自动驾驶训练集群。自动驾驶训练里程,已经突破了6亿公里。

在这个平台上,大模型可以进行高度自动化的闭环学习训练。整个训练过程主要包括:样本采集、样本挖掘、样本标注、模型训练和测试验证。

0小鹏:已量产BEV

截至2023年,小鹏已成功在国内提供一流的自动驾驶解决方案:开发、部署了小鹏的BEV感知架构XNet,直接感知自动驾驶车辆周围的环境,可以处理动态物体、复杂的道路拓扑,乃至交通信号灯的极端长尾情况(例如多类型交通灯一起推理、以及与附近的倒计时计时器或交通标志一起推理)。
 

1.端到端的BEV

BEV感知可以看作是一个端到端的感知系统,是迈向端到端自动驾驶系统的重要一步。在小鹏自动驾驶总监Patrick看来,端到端自动驾驶系统是完全可微分的管道,它将原始传感器数据作为输入,并生成高级驾驶计划或低级控制动作作为输出。

在传统的自动驾驶堆栈中,2D图像被输入感知模块以生成2D结果。然后利用传感器融合对多个摄像机的2D结果进行推理,并将其提升为3D。生成的3D对象随后被发送到下游组件,例如预测和规划。

然而,传感器融合步骤需要大量手写规则来融合多个摄像机流的感知结果。每个相机仅感知到观察的物体的一部分,因此结合获得的信息需要仔细调整融合逻辑。本质上是通过工程师的头脑进行反向传播。此外,制定和维护这些规则会带来一系列复杂性,导致复杂的城市环境中出现许多问题。

为了克服这一挑战,应用鸟瞰图 (BEV) 感知模型,它使我们能够直接在 BEV 空间中感知环境。BEV 感知堆栈将两个独立的组件组合成一个解决方案,从而消除了脆弱的人为逻辑。BEV感知本质上是一种端到端的感知解决方案。这标志着迈向端到端自动驾驶系统的关键一步。

2.BEV实现原理

Xpeng 的 BEV 感知架构代号为 XNet。

下面的可视化描述了正在运行的车端XNet 感知架构。中间的红色车辆代表自动驾驶车辆在环形交叉路口行驶。周边静态环境完全靠车端感知,不使用高精地图。可以观察到 XNet 准确地检测了车辆周围的各种动态和静态物体。

小鹏AI 团队在两年多前(2021年初)开始试验 XNet 架构,此后经历了多次迭代才达到目前的形式。利用卷积神经网络(CNN)主干来生成图像特征,同时通过交叉注意模块(变压器)将多摄像头特征转置到BEV空间中。

然后,过去几帧的BEV特征与自我姿势(在空间和时间上)融合,以从融合特征中解码动态和静态元素。

以视觉为中心的BEV感知架构提高了大规模部署自动驾驶解决方案的成本效益,减少了对更昂贵的硬件组件的需求。准确的3D检测和速度展现了冗余的新维度,并减少了对LiDAR和雷达的依赖。此外,实时3D感性环境感知减少了对高清地图的依赖。这两种功能都有助于打造更可靠、更具成本效益的自动驾驶解决方案。

3.BEV部署的挑战与方案

将这样的神经网络部署到生产车辆上会带来一些挑战。

首先,训练 XNet 需要数百万个多摄像头视频剪辑。这些剪辑涉及大约10亿个需要注释的对象。按照目前的标注效率,标注大约需要2000人年。从模型训练的角度来看,使用一台机器训练这样的网络需要将近一年的时间。此外,在 NVIDIA Orin 平台上部署这样一个没有任何优化的网络将占用一个芯片 122% 的计算能力。

小鹏通过自动化标注、大规模训练、以及Orin芯片上的高效部署来解决BEV大模型实际落地应用问题。

1)自动化标注

为了提高标注效率,开发了一个高效的自动标注系统。这种离线传感器融合堆栈将效率提高了高达4.5万倍,使小鹏能够在短短17天内完成需要200个人年才能完成的注释任务。

以上是基于激光雷达的自动标签系统,除此之外还开发了一个完全依赖视觉传感器的系统。这让注释从没有激光雷达的客户车队获得的剪辑成为可能。这是数据闭环的关键一环,促进了自我进化的感知系统的发展。

2)大规模训练

关于大规模训练,从以下两个角度优化了 XNet 的训练流程。

首先,应用混合精度训练和算子优化技术,简化了单节点的训练过程,将训练时间缩短了10倍。

然后,通过与阿里云的合作,构建了一个算力为600 PFLOPS的GPU集群,将训练从一台机器扩展到多台机器。这进一步减少了训练时间,这个过程并不简单,因为需要仔细调整训练过程以实现近线性的性能扩展。

3)Orin芯片上高效部署

如果没有任何优化,在Nvidia Orin芯片上运行 XNet 将需要该芯片 122% 的计算能力。在分析开始时显示的分析图上,可以观察到变压器模块消耗了大部分运行时间。

这是可以理解的,因为变压器模块在 Orin 芯片的初始设计阶段并未受到太多关注。因此,需要重新设计Transformer模块和注意力机制以支持Orin平台,从而实现3倍的加速。

为了进一步优化,通过修剪进一步优化了网络,从而使速度提高了2.6倍。最后,在GPU和DLA之间采用工作负载平衡,进一步实现了1.7倍的加速。

通过这些不同的优化技术,将XNet 的GPU利用率从122%降低到仅9%。总体而言,XNet的训练时间从276天减少到仅仅11小时。

0UniAD:感知决策端到端

2023年6月22日,CVPR 2023最佳论文新鲜出炉,有2篇论文从总量高达9155篇的投稿中脱颖而出,其中一篇就是Planning-oriented Autonomous Driving,即以路径规划为导向的自动驾驶。该论文由上海人工智能实验室、武汉大学及商汤科技联合完成。这是近十年来,计算机视觉三大顶级国际会议(CVPR、ICCV、ECCV)上,第一篇以中国学术机构作为第一单位的最佳论文。
 

自动驾驶历来被人们称为集AI技术之大成者。一般在自动驾驶任务中,通常包含三大模块,分别是感知、预测和规划,主流方案通常是分开来处理具体任务。

由此导致的缺陷也是比较明显,要么是任务之间协调不足,要么是影响到了整体性能的提升。

基于这样的一个背景,这篇论文便首次提出了感知决策一体化的自动驾驶通用大模型——UniAD

UniAD是一个综合框架,将全栈驾驶任务整合到一个基于Transformer的端到端网络中。

除了我们刚才提到的三个主任务之外,还包括六个子任务,包括目标检测、目标跟踪、场景建图、轨迹预测、栅格预测和路径规划。

那么如此“大一统”的方式之下,结果又如何?

根据论文显示,在nuScenes真实场景数据集中,UniAD的所有任务均达到SOTA!

具体“实战”效果如下:

在面对采访时,上海人工智能实验室青年科学家李弘扬介绍:

凭借其充分的可解释性、安全性、与多模块的可持续迭代性,UniAD是目前为止最具希望实际部署的端到端模型。

0小结

大模型已成趋势,端到端不断扩展,学术研究虽距离实际应用尚早,但是完成了原型验证,为工程化指明了方向。


同时,从各家技术发展路径来看,也在逐步过渡到大模型和端到端,目前主要处在感知大模型的阶段,可以预见未来将会发展到感知决策甚至规控一体的大模型,真正实现端到端。
除了模型算法本身的研究、迭代和优化,背后所需要的训练数据量、算力以及芯片上的部署,都是不可忽视的巨大挑战。

来源 | 企鹅智驾

引用:

1.https://mp.weixin.qq.com/s/IZzZGhzNqMT6fNZOC-uVRQ

2.https://mp.weixin.qq.com/s/1ua51GA1AJbodLIZVZY8zw

3.https://mp.weixin.qq.com/s/bWaqD8GNGRrLxE1F_7r1fA

4.https://arxiv.org/abs/2212.10156

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/60754.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

跳妹儿读绘本:我家孩子爱不释手的经典绘本之套装书

上篇分享了我给跳妹儿买书的经验,这里我就来说说这些跳妹儿非常喜欢并点读率高的绘本。 今天分享的主要是套装书,套装书的优点我在之前的文章中有提到过,而且迄今为止我买回来的套装书,每一套我家跳妹儿都非常喜欢,读了…

儿童绘本

亲情类绘本: 1、猜猜我有多爱你 适合年龄段:2-4岁 2、爱心树 适合年龄段:3-6岁 3、巴巴爸爸 适合年龄段:3-6岁 情商教育类绘本: 随着社会的发展,对宝宝 的教育,已经不仅仅关注与脑力开…

合格的CTO应该是什么样?雷军王海峰王小川等共谈「技术创新」| CNCC2020

金磊 发自 CNCC现场 量子位 报道 | 公众号 QbitAI 企业在社会中的分量有多重? 从17世纪到20世纪70年代,改变人类生活的160种主流创新工业,80%以上是由公司来完成。 今天,全世界70%的专业和三分之二的研究的开发经费,都…

倔强的王小川,倔强的技术人

从上市到退市,搜狗经历了近4年时间,搜狗也从搜狐旗下投入到腾讯怀抱。 搜狗CEO王小川今日发布内部邮件,称从今天开始,搜狗融入腾讯大家庭,向新而行,共赴山海。 王小川指出,根据383天前的约定&am…

中年王小川:成就了搜狗,但终究错过了新时代

站在敦煌千年壁画前,中年王小川不由得发出“是非成败转头空”的叹息。曾承载过半生夙愿的搜狗,最终陨落成企鹅帝国中的几片瓦砾。 如今43岁的王小川,开始相信命运,偶尔也会伤感。 在办公室的书架上,王小川开始摆放《…

搜狗员工吐槽“统计加班时长裁人”,CEO 王小川破口大骂:“赶快滚”

作者 | 伍杏玲 出品 | 程序人生(ID:coder_life) 之前在报道996.ICU时,有粉丝担心道,如果被老板看到自己的发声,会不会有掉饭碗的危险? 最近搜狗员工用真实经历验证了这个问题:是会…

天才少年王小川,18年青春“喂了狗”

文丨惊蛰研究所,作者丨路涵 2003年,随着张朝阳的一声令下,刚刚从清华大学毕业的王小川挂帅组建搜狐研发中心,开发搜索引擎,开始了他和搜狗的前半生。18年后,随着搜狗公司发布公告宣布与腾讯完成合并&#…

视频:搜狗CEO王小川终于把区块链讲通透了

看完视频终于可以畅快地和小伙伴们聊聊区块链了 目前从区块链的最大应用来看,各种虚拟货币发行和闹剧,让人逐渐意识到这只是一场大佬割韭菜的游戏?对于币圈的现状,各位有什么看法?欢迎留言交流~ 程序员的一天 小视频 1…

巴比特 | 元宇宙每日必读:“中国需要自己的OpenAI”,王小川官宣新公司百川智能,争取年内发布国内最好的大模型和颠覆性的产品...

摘要:据新智元报道,4 月 10 日,搜狗创始人王小川正式对外宣布开启人工智能大模型领域创业。王小川与前搜狗 COO 茹立云联合成立了人工智能公司百川智能,旨在打造中国版的 OpenAI 基础大模型及颠覆性上层应用。目前已初步组建了50人…

搜狗王小川“吐槽”李彦宏,称其活在平行宇宙

👇👇关注后回复 “进群” ,拉你进程序员交流群👇👇 来源丨 扩展迷EXTFANS https://mp.weixin.qq.com/s/YtYDD93qw6c3gwH8h6bi_w 2023年,AI“狂飙”,ChatGPT一经问世,就掀起了新一轮A…

王小川想走张一鸣和黄峥的老路,但终点不同

互联网大佬的终极追求是生命科学? 生命科学,这扇未打开的生命本源大门,为何有如此大的魔力吸引着一众互联网大佬?我们统计分析后发现,这并非是一次突然的决策,也不是一个人的选择,背后与他们的生…

王小川官宣大模型创业!5000万美元启动资金,年中发布首个产品,目前在训500亿参数版本...

梦晨 发自 凹非寺量子位 | 公众号 QbitAI 搜狗创始人王小川,正式官宣入场大模型创业: 有信心在年底做出中国最好的大语言模型。 新公司百川智能,前搜狗COO茹立云是已经对外公布的合伙人。 团队方面,以前搜狗团队为基础&#xff0c…

如果真做“中国的OpenAI”,王小川这票我投了

作者|骆轶航 邮箱|tluopingwest.com 作者|玄宁 邮箱|wangzhaoyangpingwest.com 在“ChatGPT现象”掀起中国人工智能科学、科技企业界和创业投资界的众声喧哗之侧,前搜狗CEO王小川发了一条朋友圈,表达了一…

VC知识库人物专访:搜狗CEO兼任搜狐CTO王小川

VC知识库人物专访:搜狗CEO兼任搜狐CTO王小川 来源:专访 发布日期: 2012-05-06 17:34 作者:VC知识库 浏览量:1828 分享到: 新浪微博 腾讯微博 更多 -- 收藏 搜狗CEO 王小川 王小川介绍: …

王小川告别搜狗:卸任CEO职务 爱过,无怨无悔

文/雷建平 搜狗CEO王小川今日发布内部邮件,称从今天开始,搜狗融入腾讯大家庭,向新而行,共赴山海。 王小川指出,根据383天前的约定,今天也是其卸任搜狗CEO的日子。这封邮件,代表着其与搜狗的正…

王小川告别搜狗那一天

李根 发自 凹非寺量子位 报道 | 公众号 QbitAI 2020年9月30日这一天,不是王小川作为搜狗CEO的最后一天。 这是他来到搜狐的第20个年头,也是一手开创的搜狗分拆独立运营的第10年。 但也是从这一天开始,无声的告别其实就已经在悄然进行。 在登陆…

搜狐首席技术官(CTO)王小川

王小川 添加义项 这是一个多义词,请在下列义项中选择浏览 1.搜狗CEO兼搜狐CTO搜狗CEO兼搜狐CTO 2.安徽卫视主持人安徽卫视主持人 3.华中科技大学教授华中科技大学教授 4.《Matlab神经网络三十个案例分析》作者《Mat…

最赏识王小川的,还是马化腾

没有腾讯就没有今天的搜狗。 文丨猎云网 ID:ilieyun 作者丨尹子璇 7月27日晚间,搜狗公告称,腾讯向公司发出初步非约束性收购要约,有意以9美元/ADS的价格收购公司剩余股份。交易一旦完成,搜狗将成为腾讯的一家私人间接全…

前苹果设计总监创办,Humane想用AI+AR界面取代手机

在2001年,微软研究院一位工程师Gordon Bell开始了一段长时间的“生活记录”(Lifelogging)之旅,他会在胸前、头顶或是眼镜腿处佩戴相机,每30秒自动拍摄一张照片,以捕捉自己生命中的瞬间,记录下他…

疫情期间再读三体——读后感

最近疫情持续的时间有点长,感觉在家挺无聊的,正好《我的三体--章北海传》完结了,这部动画真的是圆了三体迷的重现三体书中的场景和意境的的一个梦想。章北海是书中的一个重要人物,也是当前这部动漫的主角,他为人类文明…