51c自动驾驶~合集45

我自己的原文哦~   https://blog.51cto.com/whaosoft/13020031

#运动控制和规划控制需要掌握的技术栈~

各大垃圾家电造车厂又要开始了~~~​

1、ROS的通信方式

李是Lyapunov的李:谈谈ROS的通信机制

话题通信和服务通信,其中话题通信是通过发布和订阅话题实现,属于单向通信,订阅方被动接收信息;服务通信由请求方(Client)和应答方(Server)组成,通过加入一个请求机制,在应答处理后返回信息。

建议看看ROS2,在ROS2中,Master这个角色已经没有了:ROS1架构下,所有节点需要使用Master进行管理

  • ROS2使用基于DDS的Discovery机制,和Master说拜拜
  • 通讯换成了DDS(Data Distribution Service)
  • ROS1:TCPROS/UDPROS
  • ROS2:DDS

2、智能指针

FOCUS:现代 C++:一文读懂智能指针
​​​https://zhuanlan.zhihu.com/p/150555165​​​

3、循环引用解决方法

C++ 智能指针中的循环引用_51CTO博客_c++智能指针
​​​https://blog.51cto.com/u_12204415/3804223​​​

4、vector内存问题

堆区是一块非常灵活的区域,因为使用这块空间需要程序员自己申请和释放空间,这就使得我们可以根据自己的需求来确定每个空间的使用周期,但是由此引发的问题就是,非常容易导致内存泄漏或者重复释放的问题,这两种问题同样是编译时不会报错。

arrary的空间是由系统分配的,在编译时已经确定,存放在栈区

vector的空间可由程序员动态分配,可动态增长,在运行时才确定大小,存放在堆区​

5、迭代最小二乘和卡尔曼滤波

最小二乘:不需要正态分布,仅仅只需要误差均值为0,每次测量同方差且互不相关

卡尔曼滤波:

转自知乎某高赞回答:https://www.zhihu.com/question/47559783/answer/2988744371

通俗来讲,卡尔曼滤波解决的是:我需要用传感器测量一个数据,想要提高测量精度。

1,如果我有很多个传感器,那怎么办?
答:取多个传感器的平均值。

2,如果我的多个传感器精度不一样,那怎么办?
答:对于精度高的传感器,我多相信一点,对于精度低的,我少相信一点,然后综合考虑他们给出的结果,在数学上叫做“加权平均”

3,在实时测量中,我并没有很多传感器,但是我还是想要提高精度,怎么办。
答:对于系统现在的状态进行观测,并预测下一个状态可能的值,把这个预测当做一个传感器来用,进行加权平均,例如测量位置:“目前gps传感器测到位置在正东方向5米处,速度为正东方向1米/秒,那么,下一秒预测的值是正东方向6米处,在下一秒的测量数据中,会综合考虑预测值和实际测量值。”

Mockingjay:卡尔曼滤波(Kalman filter) 含详细数学推导

详解卡尔曼滤波原理-CSDN博客​

6、C++中常用的最小二乘的求解器

【Ceres基本使用方法】使用Ceres拟合曲线求解最小二乘问题_git clone ceres-CSDN博客
​​​https://blog.csdn.net/weixin_44543463/article/details/120796525​​

非线性优化工具Ceres如何指定优化算法?
​​​https://www.zhihu.com/question/500343339/answer/3301069496​​​

7、MPC的原理和基本步骤

MPC模型预测控制原理和Matlab以及Python代码实现_模型预测控制代码-CSDN博客
​​​https://blog.csdn.net/weixin_44924725/article/details/128050063​​​

8、单例模式

我给面试官讲解了单例模式后,他对我竖起了大拇指!-CSDN博客
​​​https://blog.csdn.net/weixin_41949328/article/details/107296517​​​

9、最优化计算方法

知识比较多,先推荐把数值分析相关东西学了,然后可以看一下最优化计算方法及其MATLAB程序实现(马昌凤版本),附带课后习题的部分答案,可做参考。最优化方法及其matlab程序设计 马昌凤 课后答案​

10.S曲线和梯形曲线

S曲线是针对于速度而言,大致分为七段

关于运动控制中S型速度曲线的简单演示(C++实现)_速度曲线算位置曲线-CSDN博客
​​​https://blog.csdn.net/DLS756/article/details/104553385​​

梯形加减速算法详解及示例
​​​https://blog.csdn.net/Galaxy_Robot/article/details/129432311​​​

11.SVD分解

对于奇异值,它跟我们特征分解中的特征值类似,在奇异值矩阵中也是按照从大到小排列,而且奇异值的减少特别的快,在很多情况下,前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。也就是说,我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

可以用作主成分分析(PCA)

SVD原理与应用
​​​https://blog.csdn.net/qq_58535145/article/details/122651843​​

奇异值分解(SVD)原理与在降维中的应用_刘建平 svd算法-CSDN博客
​​​https://blog.csdn.net/bubble_story/article/details/79988019​​​

12.商用PID形式

PID基本上都会,但是实际运用中,和理论分析还是有区别的,给出商用PID控制器表达式

基本解释:

①比例微分:带滤波,抑制测量噪声增大;

②微分先行:当输入频繁变化时,运用微分对其求导会影响系统表现,拿掉R(s)​

13.直线插补

【电机绘图】:插补算法(一)-直线插补-逐点比较法-CSDN博客
​​​https://blog.csdn.net/qq_64257614/article/details/132156073​​

需要注意两点:

(1)区分不同的象限

(2)根据F(x,y)的取值,判断是向x,还是向y运动​

14.S曲线和插补

基于S型曲线的连续多段曲线插补平滑过渡的规划算法(Matlab)_s型曲线平滑算法matlab-CSDN博客
​​​https://blog.csdn.net/qq_26565435/article/details/98789361​​

分段的首尾速度为0​

15.BLDC和PMSM的区别

BLDC(无刷直流电机)和PMSM(永磁同步电机)的区别_集中绕组pmsm和bldc有什么区别-CSDN博客
​​​https://blog.csdn.net/weixin_41469013/article/details/133722827​​

驱动信号是最大区别,PMSM正弦波驱动,BLDC方波驱动​

16.FOC介绍

FOC矢量控制原理&SVPWM原理及实现_foc控制-CSDN博客
​​​https://blog.csdn.net/IOTBOT/article/details/138541200​​​

17.DOB扰动观测器

非线性扰动观测器(NDOB)-CSDN博客
​​​https://blog.csdn.net/weixin_43903639/article/details/128881666​​​

18.扰动抑制和噪声衰减的矛盾

对于扰动抑制而言,应当使灵敏度函数的幅值较小;

对于噪声衰减而言,应当使补灵敏度函数的幅值较小;

扰动项集中在低频段,噪声集中在高频段。

并且 灵敏度函数+补灵敏度函数=1(限制了两者不可能同时很小),

因此,在低频段,让灵敏度函数小一些;在高频段,让补灵敏度函数小一些。​

19.电机类型区分

电动机分为直流电机和交流电机两大类,其中交流电机又分为异步电机(转子的磁场旋转速度跟不上定子的旋转磁场)和同步电机,中国研究永磁同步电机多的原因在于中国的稀土资源丰富,国外挺多研究三相异步电机。

#禾赛科技传裁员数百人

突发!:N+1,无年终奖

据爆料称:激光雷达科技企业禾赛科技正在开启裁员计划,据相关消息显示,此次裁员比例可能达到数百人。赔偿N+1,无年终奖。

根据禾赛科技最新公告:禾赛12月激光雷达交付量突破10万台,成为全球首个达成单月交付量超过10万台的激光雷达企业。值得一提的是,禾赛面向机器人市场单月交付激光雷达超过2万台,广泛覆盖移动机器人、配送机器人、清扫机器人、割草机器人等多个领域。

上海禾赛科技有限公司2014年在嘉定创立,最初致力于激光气体传感器的研发工作,但因该领域的市场规模较为有限,开启了转型之路。

2016年,禾赛科技针对无人驾驶领域陆续推出了三款激光雷达,正式进入激光雷达领域。此后,禾赛科技一直聚焦于激光雷达产品的研发、制造和销售。

2023年2月9日,禾赛科技在纳斯达克正式挂牌上市,发行价为19美元,募资额达1.9亿美元。上市首日,禾赛科技的股价表现极为出色,开盘大涨25%,报23.75美元,盘中股价一度达到24.44美元,最终收于21.05美元,上涨10.79%,市值达到26.21亿美元。这一成绩使得禾赛科技成为过去一年多时间里,赴美上市的中概股中规模最大的首次公开募股。

目前,禾赛科技拥有7个激光雷达系列产品,包括AT系列、FT系列等,覆盖ADAS市场、自动驾驶市场和机器人领域。

第三季度财报显示,禾赛科技实现营收5.4亿元人民币,同比增长 21.1%。激光雷达季度总交付量达13.42万台,同比大幅增长182.9% ;业务综合毛利率为47.7%,实现了自2022年第二季度以来的最高水平。

从目前的毛利压下来的角度来看,要盈利必须要控制成本,所以裁员是禾赛的工具箱一种武器。目标ADAS的激光雷达规模扩大到100万(2025年) 2024年Q4实现盈利,然后继续在2025年盈利。

天风证券海外团队指出,禾赛科技目前已覆盖理想、小米、零跑、比亚迪、华为、长城、长安等国内客户。截至2024年底,公司已累计获得来自21家车企的超过100款前装量产定点车型。

对于禾赛科技的此次裁员事件,你怎么看?欢迎文末留言讨论、转发朋友圈,也欢迎加入技术交流群,和众多技术同行一起交流讨论。

近期,汽车、自动驾驶、机器人等市场可谓几家欢喜几家愁,有成功上市的、有顺利融资的、有积极ipo冲刺中的,也有在业务转型的,还有大规模调整的。。。。。

#2025,大佬们这样谈自动驾驶

2024年各大车企的智能驾驶相继交卷了,据统计目前已经有十余家企业宣布端到端量产上车。这其中最具代表性的便是理想汽车的One Model快慢双系统—E2E+VLM架构,慢系统VLM用于指导端到端快系统,并且宣称有望在今年实现L3自动驾驶。而小米汽车也在奋力追赶,并在十二月宣布大模型上车。​

理想汽车

首先是,理想汽车在某汽车年会上分享了快慢系统理论在自动驾驶中的实践方案

图片

图片

来源:https://www.bilibili.com/video/BV1qyYxeyE5t/?spm_id_from=333.337.search-card.all.click&vd_source=60762b2741beebb14f0eaac7c46cc65f

受到Daniel Kahneman的双系统《思考,快与慢》的启发,理想汽车设计了快慢双系统框架,拥有车端和云端两个算法。快系统是从输入直接到轨迹输出号的端到端模型;慢系统是视觉语言大模型,算力巨大,利用CoT逻辑链一步步推演;同时还用一个世界模型进行强化学习和验证。

图片

快系统是一个统一的端到端4D One Model模型,输入包括摄像头、激光雷达、GPS定位、车辆位姿、IMU导航信息,输入带有时空记忆的BEV特征提取器,经过一个transformer解码器,解码出四类输出:感知类的障碍物和道路结构、动态静态OCC、规控轨迹。在训练方法上,感知方面使用监督训练,对感知结果进行监督式学习,加速收敛。在规控学习方面还加入了模仿学习和强化学习。

图片

慢系统是一个视觉语言大模型(VLM),其中的特别之处在于根据prompt灵活调整模型的注意力,来提升模型对各种输入信息的注意力。最后的输出是CoT,第一步理解当前环境,第二步做出合理决策,第三步给出参考信息,并通过解剖法返回给系统1(快系统),作为系统1的模型输入及预处理,从而实现快慢系统的配合。

图片

华为

华为近日发布乾崑ADS 3.0,相对于之前实现了架构升级、安全升级、场景升级、泊车代驾升级。首先是感知架构升级,从ADS 2.0的BEV+GOD到ADS 3.0的仅保留GOD对异性障碍物的识别,除此以外增加对场景的理解(包括红绿灯状态、车流信息等)。激光雷达的全天候和小目标检测能力进一步提升,通过降噪提高对扬尘、雨雾、飞雪等场景的适应能力,对小目标物体(路肩、轮胎、锥桶等)实现远距离探测。将4T4R技术代入4D高精度毫米波雷达,实现探测能力提升。

ADS 3.0实现了端到端架构的商用,仅采用GOD感知网络,使用PDP网络进行预决策与规划。采用华为云端训练,算力达到3.5E FLOPS,每天学习3000万+公里,每5天迭代一次。

图片

来源:https://www.bilibili.com/video/BV15p421Q7t4/?spm_id_from=333.337.search-card.all.click&vd_source=60762b2741beebb14f0eaac7c46cc65f

主动安全方面使用CAS 3.0全向防碰撞系统,支持前向、后向、侧向主动安全。相对于先前版本,CAS 3.0利用ESA紧急转向辅助实现横向避障(行人、电动车等),可以跨车道避让,新增横穿、斜穿车辆等场景。此外,实现了全场景贯通“一键”车位到车位导航抵达,可以直接从公开道路到园区道路,从园区地面到地下车位,而非像常规的导航,只到园区。不止于记忆,支持任意车位。

在泊车领域超越老司机,速度比老司机泊车快20%,极窄车位(车身+40cm)、极窄通道也可泊车。并且离车即走、轻松省时,只需选定目的车位,人下车即走,车自主泊入车位。​

比亚迪

比亚迪无图驾驶技术领先,不依赖城市高精地图。近日发布了2025款汉,达到L2+级别的智能驾驶辅助。其中2025款汉DM-i及汉EV车型同时搭载了比亚迪王朝系列首个DiPilot 300“天神之眼”高阶智能驾驶辅助系统。这一系统依托于英伟达OrinX高算力芯片,其算力高达惊人的254TOPS,为智能驾驶提供了强大的计算支持。为了实现全场景覆盖的智能驾驶体验,车辆配备了31个智驾传感器,包括5颗毫米波雷达、1颗激光雷达、12个超声波雷达以及全车13个高清摄像头。整车电机电控实现毫秒级响应,使得2025款汉能够在城市领航、高快领航等复杂驾驶场景中游刃有余,并且还支持先进的代客泊车等功能,为用户带来前所未有的智能驾驶享受。

图片

小米汽车

小米在近日的发布会上展示了三项自研感知技术。第一是变焦BEV,根据驾驶场景自动调节感知范围,比如高速上看得远,地库泊车时看得清,比如高速识别范围250m,城市识别范围160米、精度0.2米,地库识别精度5cm。第二项技术是超分辨率占用网路,精准识别异形障碍物。加入矢量算法,精度小于0.1m,将物体描述为连续曲面;并配合一键降噪,降低雨雪天气对感知识别的干扰。第三项技术是道路大模型,不依赖城市高精地图,能够实时生成道路拓扑,准确生成形式引导线,应对道路修路这类情况的发生。

图片

来源:https://www.bilibili.com/video/BV1zw411g76f/?spm_id_from=333.337.search-card.all.click&vd_source=60762b2741beebb14f0eaac7c46cc65f​

蔚来

蔚来提出的群体智能架构,通过海量数据的自动采集和挖掘,累积了10万+小时高价值数据,不仅带来了通用能力的提升,还实现了对全局的深刻洞察。这一架构能够洞察真实场景分布,既包括常规的也涵盖了长尾及罕见场景,确保了场景覆盖的全面性。在此基础上,蔚来通过100万+次的验证和10万公里的实际道路测试,快速验证场景,实现了技术的快速进化。针对各种复杂场景,蔚来采用了高效迭代和验证的方法,不断改据片段,提升模型精度,确保每一次迭代都能选出更强的版本。

基于每月超2000万公里的真实里程验证,蔚来实施了大规模自动化测试,每条单一路线都经过5次以上的自动准出验证,确保了验证的细致与准确。这种由场景到路线的验证方式,不仅提升了验证效率,也使得自动驾驶系统能够合理应对各种复杂情况。自动化路线准出的引入,更是进一步加速了技术的成熟与落地。

图片

来源:https://www.bilibili.com/video/BV1Hm41127T6/?spm_id_from=333.337.search-card.all.click&vd_source=60762b2741beebb14f0eaac7c46cc65f​

小鹏汽车

小鹏汽车是全球唯二实现端到端大模型量产落地的车企,拥有长达10年的智能化量产落地经验。每年投入高达35亿的AI费用,小鹏已积累了2.51E FLOPS的最大AI算力储备,这一「端到端大模型」技术让小鹏的智驾技术进步前所未有地加速。小鹏汽车定义了「全国都好用」的新标准,即不限城市(所有城市均可使用)、不限路线(覆盖所有公开道路)、不限路况(包括掉头、环岛、窄路等复杂场景)。凭借XNGP系统,小鹏已成为行业首个走遍全国2595个城市,经历756万公里实车测试的车企。在2024年第四季度,小鹏将实现真正的「门到门」体验,不仅打通高速与城市场景,包括ETC收费站,还在最新一轮7月29日的OTA内测中,AI代驾已实现了自动过ETC的功能;同时,小鹏也将打通行车与泊车场景,实现停车场闸机的无缝对接,预计在2024年第四季度,AI代驾将能提供从车位到车位的完整体验。此外,小鹏还致力于打通园区内部道路,预计到2024年第四季度,全国道路将全部实现打通,为用户提供前所未有的便捷与智能出行体验。

图片

来源:https://www.bilibili.com/video/BV1wjbFeNE2J/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=60762b2741beebb14f0eaac7c46cc65f​

智己汽车

智己汽车LS7发布了前所未有的智能3.0系统,其核心是全域融合的智舱IMOS 2.0,该系统引入了全新的直觉式人机交互方式,大大降低了驾驶强度,颠覆了传统的驾驶体验。通过智能驾驶技术与高精度地图的融合,智己LS7实现了“空中领航”的功能体验,为驾驶者带来了全新的导航与驾驶辅助享受。此外,A柱盲区影响辅助在转弯时能够呈现左右盲区,进一步提升了行车安全。智己LS7还全面打造了行车场景下的多车社交乐趣,驾驶者可以通过“Say Hi”功能与路上偶遇的另一位智己车友进行交流,增添了驾驶的趣味性和互动性。

在硬件方面,智己LS7搭载了英伟达OrinX超高算力智驾芯片,并配备了“隼式”双激光雷达布置方案,这一方案使得车辆能够看得远、看得广、看得清。前向可视范围接近180°,侧视野扩展至B柱附近,提供了全面的环境感知能力。同时,该方案还具备安全冗余设计,即使一颗激光雷达失效,系统仍可正常工作。高视野和越视功能使得车辆能够识别遮挡物后方的目标,最远探测距离达到200米。

在智能驾驶辅助功能方面,高速领航辅助NOA已在全国重点城市陆续上线,为驾驶者提供了更加便捷的高速驾驶体验。基于高精地图的城市领航辅助也计划在年底前开始公测。值得一提的是,智己LS7采用了DDLD算法来取代高精地图,这一创新技术将进一步推动智能驾驶技术的发展。

图片

图片

图片

来源:https://www.bilibili.com/video/BV11o4y1v78d/?spm_id_from=333.337.search-card.all.click&vd_source=60762b2741beebb14f0eaac7c46cc65f​

长安汽车

长安汽车的自动驾驶解决方案主要包括以下几个方面:首先,智驾技术方面,长安汽车融入了全速ACC自适应巡航,该技术不仅涵盖了定速巡航、跟车控制、启停控制、弯道控制四大技术,还特别适用于城市拥堵路段和高速公路巡航。此外,车道偏离预警系统(LDW)通过车辆前置摄像头实时监测前方路面车道线,计算车轮离车道线的距离,在意外偏离车道时及时提醒驾驶员。预警辅助制动系统(PAB)则利用车载毫米波雷达实时监测与前车的距离,一旦车距过近,系统将发出报警并采取点刹措施以防碰撞。其次,智能车载互联系统方面,长安汽车的In Call 3.0+T-Box系统具备强大的智能互联和语音识别功能,支持搜索目的地、影音娱乐等多种功能指令,并且可以远程操控车辆,如远程监测车况和汽车定位。再者,在智驾架构与模型上,SDA天枢架构统筹了“智驾、智舱、车身、动力、底盘”五大智能汽车领域的海量数据,支持数十亿级参数大模型的本地部署。而天枢大模型则分为感知系统、推理交互大脑、规划控制三大部分,并引入了具备世界知识的多模态大语言模型,能够接收并执行包括非智驾传感器信息在内的用户指令。最后,在安全与算力方面,长安汽车采用了大模型安全对齐引擎策略,通过云端强化学习对齐和车端规则优化确保智驾系统的安全可靠。同时,云端算力集群等效数千张A100的算力,结合端到端体系和每年新增的数百万辆车的海量训练数据,共同构成了长安自研智驾体系的基础。这些解决方案共同构成了长安汽车的自动驾驶技术体系,致力于为用户提供更安全、更智能的驾驶体验。

图片

吉利汽车

吉利汽车的自动驾驶解决方案主要包括以下几个方面:首先,吉利汽车集团发布了SEA浩瀚智能进化体验架构,这是一个集硬件层、系统层和生态层于一体的立体化布局,旨在为全球用户提供最大带宽和最高效的智能电动汽车解决方案。在此基础上,吉利汽车计划在2021年实现结构道路上的高度自动驾驶,并在2022年亚运会核心区域提供智能出行服务,进一步在2022年实现结构道路上的完全自动驾驶,目标是在2025年之前将这一技术扩展到开放道路上。为实现这一目标,吉利汽车与Mobileye展开了深入合作,后者为其提供从认知、规划到执行的端到端解决方案,其中Mobileye的Supervision系统,由两颗先进的EyeQ5H系统集成芯片(SOC)驱动,并支持OTA更新功能。此外,吉利汽车的自动驾驶方案还融入了智能导航系统和智能语音助手,这些系统能够根据实时交通情况和驾驶者的偏好,提供最优的行车路线,并通过语音指令控制车辆功能。更值得一提的是,吉利汽车的智驾方案还包括AVP代客泊车和城市NOA技术,这些创新技术能够在复杂的城市环境中实现自动导航辅助和泊车功能。这些解决方案共同构成了吉利汽车在自动驾驶领域的全面布局,旨在通过持续的技术创新,提升驾驶的安全性和便利性,同时牢牢把握未来自动驾驶技术所带来的时代机遇。

图片

长城汽车

长城汽车的自动驾驶解决方案主要包括以下几个核心组成部分:首先,其基础智能驾驶方案最初是基于采埃孚和安波福提供的基础辅助驾驶方案,并随后融入了自研技术。这一基础方案起始时配备了一颗摄像头,并逐渐从一颗毫米波雷达升级到四颗,同时采用Mobileye的处理方案来融合雷达信号处理。在L2+到L2++的进阶过程中,长城汽车引入了TDA4芯片,实现了集成式设计方案,主要变化体现在毫米波雷达和视觉摄像头的更广泛运用上,采用了毫末智行/诺博提供的行泊一体解决方案,以平衡成本与性能。此外,长城汽车还展示了由元戎启行提供的无高精地图全场景NOA方案,该方案搭载了激光雷达和Orin-X高算力域控平台,在智能化方面取得了显著进步,尤其是在处理复杂城市路况和无车道线的环境中表现尤为出色。更进一步,长城汽车采用了端到端自动驾驶技术,这种技术能够应对复杂的长尾场景,使智能驾驶系统更加接近人类驾驶员的聪明和自然。端到端技术的优势在于它能迅速重建世界模型,精确识别车道宽度和路肩位置,确保基本的行车路线准确无误。为了支撑这些先进技术的研发与应用,长城汽车进行了超过900万公里的实车测试和超过5000万公里的仿真测试,构建了新一代的AI数据智能体系,显著提升了数据闭环的自动化水平。

极氪

极氪汽车的自动驾驶解决方案主要包括以下几个核心组成部分:首先,浩瀚智驾2.0系统是其技术亮点之一,该系统采用端到端自动驾驶技术,将所有自动驾驶功能整合在一个神经网络中,不仅优化了信息处理流程,还大幅减少了数据丢失的可能性,从而显著提升了自动驾驶的精确性和可靠性。此外,城市NZP通勤模式是另一大特色,它允许用户设定固定的通勤路线,并通过车辆的自学习能力自动生成和记忆该路线,这一模式特别针对用户80%以上的出行场景进行了优化,并支持在全国多个城市使用。在旧款车型方面,极氪001搭载的是与Mobileye合作的Mobileye Supervision智能驾驶解决方案,该方案覆盖了高速公路/城市快速路、泊车以及城市公开道路的全场景智能驾驶。值得注意的是,虽然Mobileye的芯片如EyeQ5H算力为48 Tops相对较低,但极氪自研的浩瀚智驾2.0方案算力高达508 Tops,这使得极氪在处理复杂交通场景和实时决策方面更具优势。

2025已开启,这一年,自动驾驶将驶向何方呢?

那么一起来首届自动驾驶百人论坛现场聊一聊吧(快来扫码报名)!

首届自动驾驶百人论坛由自动驾驶之心联合雅森国际新能源,于2025年2月21日在北京新国展二期进行举办,面向自动驾驶之心和中设协特邀嘉宾免费参与,同时欢迎赞助。本场论坛将汇聚众多自动驾驶领域的领军企业与权威机构,旨在搭建一个高端交流平台,促进行业内各方的深入对话与合作。除了深入研讨城市NOA优化、L3/L4技术开发、端到端解决方案、自动驾驶高算力芯片、多模态感知、车路云一体化等关键议题,通过共同探讨自动驾驶技术的最新创新成果、实践应用案例以及未来发展趋势,论坛还旨在凝聚行业智慧,激发创新活力,为推动中国自动驾驶产业的快速发展注入强劲动力。欢迎各大车企自动驾驶相关部门、海内外tire1、自动驾驶领域领军企业与权威机构、政府及高校研究机构报名!

主论坛:自动驾驶百人论坛 2025年2月21日 14:00-18:00。目前论坛安排如下,期间会有圆桌畅聊:

图片

另一部分是自动驾驶平行研讨会,面向特定的车企、供应商。从车企与Tier1商机合作需求出发,开年布局全年;车企对口板块负责人参与讲技术、聊产品、探讨合作可能性。主打精准需求研讨,扁平对接,拥有一对一、面对面商务洽谈空间,名额有限,先到先得。

平行论坛(付费参与,目前赞助招募中)2025年2月22日 9:00-20:00

图片

部分车企已有域控、雷达、摄像头、泊车方案、自动驾驶泊车、智能座舱等明确需求对接,欢迎来现场洽谈对接!!

图片

现场有谁1、车企(排名不分先后)理想汽车、小鹏汽车、赛力斯汽车、蔚来汽车、北汽新能源、东风汽车、中国一汽、长安汽车、长城汽车、某跨界车企、阿维塔科技、智已汽车、吉利汽车研究院

持续邀约中...

2、高校及研究院(排名不分先后)

清华大学、北京大学、上海交通大学、复旦大学、浙江大学、香港大学、香港中文大学、香港科技大学、香港城市大学、北京交通大学、首都师范大学、清华大学产业研究院、中科院计算所、北京智源人工智能研究院、宁波东方理工大学等。​

3、海外政府及企业代表

海外大使馆携本国自动驾驶领域领先企业,带来国际自动驾驶前瞻资讯。​

确定独立举办活动:

以色列使馆、巴西使馆、泰国使馆、摩尔多瓦使馆、波兰使馆、墨西哥使馆、亚美尼亚使馆、摩洛哥使馆、匈牙利使馆、基里巴斯使馆、芬兰使馆​

带海外企业展团:

墨西哥使馆、亚美尼亚使馆、芬兰使馆、摩洛哥使馆

芬兰:Qt、Mapvision、Basemark、Afry、Visual Component、Tundra Proving Group、Etteplan

以色列:ADASKY、Mobileye、Foretellix、Innoviz Technologies、Opsys Tech、TriEye、Foresight Automotive、Hailo、Arbe、BGR Robotics Ltd、Carteav Technologies、Algolion、CENS、StoreDot

#VLM-RL

一个用于安全自动驾驶的统一视觉语言模型与强化学习框架

近年来,基于强化学习(Reinforcement Learning, RL)的驾驶策略学习方法在自动驾驶领域受到越来越多的关注,并在各种驾驶场景中取得了显著进展。然而,传统的RL方法依赖于手工设计的奖励函数,这不仅需要大量的人力投入,还往往缺乏通用性。为了解决这些局限性,我们提出了VLM-RL,一个将预训练的视觉-语言模型(Vision-Language Models, VLMs)与RL相结合的统一框架,用于通过图像观测和自然语言目标生成奖励信号。VLM-RL的核心是将对比语言目标(Contrasting Language Goal, CLG)作为奖励,利用正面和负面的语言目标生成语义奖励信号。此外,我们引入了一种层次化的奖励合成方法,将基于CLG的语义奖励与车辆状态信息相结合,从而提升奖励的稳定性并提供更全面的奖励信号。同时,采用批量处理技术优化了训练过程中的计算效率。我们在在CARLA模拟器中进行了大量实验,结果表明,VLM-RL优于最新的基线方法,使碰撞率降低10.5%、路线完成率提高104.6%,并且在未见过的驾驶场景中表现出强大的泛化能力。此外,VLM-RL能够无缝集成几乎所有标准的RL算法,有望革新依赖于手工奖励设计的传统RL范式,并实现持续的性能提升。演示视频和代码可通过以下链接访问:https://zilin-huang.github.io/VLM-RL-website/

  • 论文链接:https://arxiv.org/abs/2412.15544

介绍

观察人类学习新技能的过程,我们发现,人类通常通过对比示例更有效地学习(图1)。例如,在教授某人如何煎牛排时,导师通常会强调正确和错误的技巧:“完美煎制的牛排应具有金黄酥脆的外壳和均匀粉红的内部”,与“如果牛排完全变成深棕色并伴有烧焦的气味,则表示煎过火了”。这种方式帮助学习者通过识别期望和不期望的结果,全面理解正确的烹饪技巧。

图片

图 1:奖励设计范式的概念对比。(a) 机器人操作任务通常具有明确的目标(例如,“将胡萝卜放入碗中”),使得 VLM 可以提供清晰的语义奖励。(b) 现有方法仅使用负面目标(例如,“两辆车发生了碰撞”),专注于规避但缺乏正面引导。(c) 我们的 CLG-as-Reward 范式整合了正面和负面目标,使 VLM-RL 能够提供更具信息性的语义引导,实现更安全、更具泛化能力的驾驶。

受到人类学习过程的启发,我们提出了一个整合预训练视觉语言模型与在线强化学习的统一框架,称为 VLM-RL,如图2所示。VLM-RL 从根本上重新思考了基础模型如何融入基于 RL 的自动驾驶系统中。我们首先引入了对比语言目标的概念,用于指导基于 RL 的安全驾驶任务。在此基础上,我们提出了一种新的 CLG-as-Reward范式,利用 CLG 生成更具信息性和上下文感知的奖励信号。

为了增强学习的稳定性,我们采用了一种层次化奖励合成方法,将基于 CLG 的奖励与车辆状态信息相结合。这些合成的奖励随后被集成到标准 RL 中进行策略训练。此外,我们还引入了批量处理技术,以提高训练过程中的计算效率。

据我们所知,VLM-RL 是自动驾驶领域中首个将视觉语言模型与强化学习相结合,用于在 CARLA 模拟器中进行端到端驾驶策略学习的研究工作

图片

图2:自动驾驶奖励设计范式的比较概览。(a) 描述了基于 IL/RL 方法的驾驶策略学习的基本原理及其局限性。(b) 说明了基于基础模型的奖励设计方法(如 LLM-as-Reward 和 VLM-as-Reward 范式)在驾驶策略学习中的基本原理及其局限性。(c) 展示了我们提出的 VLM-RL 框架,通过利用 VLM 实现安全自动驾驶的全面且稳定的奖励设计。​

方法

如图3所示,VLM-RL 框架由四个主要组件组成。首先,我们定义了对比语言目标的概念,该目标描述了期望和不期望的驾驶行为,为奖励计算提供了基础。其次,我们利用 CLIP 来计算当前驾驶状态与这些对比语言描述之间的语义对齐程度,从而生成语义奖励信号。第三,我们开发了一种层次化的奖励合成方法,将语义奖励与车辆状态信息(例如速度、航向角)相结合,以生成稳定且全面的奖励信号。第四,为了优化计算效率,我们实现了一种批量处理技术,该技术通过定期处理来自回放缓冲区的观测数据,而不是实时计算奖励来提高训练效率。

图片

图 3:用于自动驾驶的 VLM-RL 框架架构。(a) 用于策略学习的观察和动作空间;(b) 定义 CLG 提供语义引导;(c) 基于预训练 VLM 的 CLG 语义奖励计算;(d) 分层奖励综合,将语义奖励与车辆状态信息整合,生成全面且稳定的奖励信号;(e) 使用批处理的策略训练,其中通过回放缓冲区存储的经验执行 SAC 更新,并异步计算奖励以优化效率。

对比语言目标

给定一个任务  及其自然语言描述 ,这一基本方法利用视觉语言模型生成奖励信号,引导智能体朝着期望的行为方向行动。其形式化表达如下:

其中  是一个可选的上下文,可以包含额外的信息或约束。在此公式中,VLM 接收语言目标 、当前观测  和可选上下文 ,并输出奖励信号。

CLG 作为奖励范式

给定视觉编码器  和语言编码器 ,它们映射到相同的潜在空间 。对于一系列状态-动作转移 ,VLM 奖励定义为:

其中  是嵌入表示之间的距离度量。大多数研究使用 CLIP 作为预训练的 VLM,并采用余弦相似度作为距离度量。具体公式为:

其中, 表示嵌入之间的余弦相似度, 和  分别是视觉和语言编码器。在这种情况下,我们不需要上下文 。语言目标  通常表示期望的行为。计算过程如下:当前观测  通过视觉编码器  处理,生成共享潜在空间  中的状态嵌入;语言目标  通过语言编码器  编码,生成同一潜在空间中的目标嵌入;奖励由状态嵌入与目标嵌入之间的余弦相似度计算得出。

我们将 CLG 奖励函数定义为:

其中, 是加权因子,满足 。当  时,智能体更专注于实现正面目标,而当  时,智能体更强调避开负面结果。为了简化,在本工作中,我们设定 ,即两个目标具有相等的优先级。 表示嵌入之间的余弦相似度。

多层奖励合成

与传统方法相比,我们的目标是通过结合车辆状态信息来保留 VLM 的zero-shot能力,从而生成更稳定且全面的奖励信号。具体而言,我们提出了一种层次化的奖励合成方法,该方法包括两个阶段:(a)通过 VLM 生成归一化的语义奖励;(b)将这些语义奖励与车辆状态信息结合以生成综合奖励信号。

Phase I: 语义奖励归一化

首先,通过 CLIP 处理观测帧,计算语义奖励 。为了确保稳定性,我们将相似度分数归一化到范围 :

其中, 和  分别经验设定为  和 ,以避免极端值并确保一致的缩放。

Phase II: 融合车辆状态信息

我们结合车辆状态信息生成综合奖励信号。该步骤利用传感器数据确保奖励反映现实的驾驶行为和安全约束。

综合奖励函数  通过将归一化的语义奖励  与车辆状态信息结合来计算。具体如下:

其中, 用于调节速度对齐程度,其中 ; 评估车辆相对于车道中心的横向位置; 衡量车辆相对于道路方向的朝向; 确保车辆的横向位置相对于车道中心的一致性。

通过结合综合奖励函数,我们得到 VLM-RL 框架的最终奖励函数:

其中,稀疏任务奖励  确保智能体目标导向,而综合奖励  提供了基于高层语义理解和低层车辆动态的连续反馈。

基于批处理的策略训练

我们采用了 Soft Actor-Critic (SAC) 算法作为基础强化学习框架,原因是其在连续控制任务中具有出色的采样效率和稳定性。SAC 算法的目标是最大化期望总回报,同时通过熵正则化鼓励探索行为。其目标函数可以表示为:

其中, 为折扣因子, 是熵温度参数,用于控制回报与熵最大化之间的权衡,而  表示状态  下策略的熵。

为了更新策略参数 ,SAC 通过最小化以下目标函数实现:

其中, 是经验回放池, 是由参数  表示的 Q 函数。

Q 函数参数  的更新通过最小化Soft Bellman 残差实现:

这里, 是目标 Q 函数,其参数  会定期更新。

我们定义的替代奖励  替换到Soft Bellman 残差中,从而得到新的损失函数:

在训练过程中,策略网络通过学习预测未来的回报,而策略更新通过标准 SAC 策略梯度更新进行。

为了降低 CLIP 推理的计算开销,我们开发了一种批量处理技术。在每个预定义的间隔时间内,从回放池中抽取一批观测,批量通过 CLIP 编码器处理。CLG ( 和 ) 的 CLIP 嵌入仅在训练开始时计算一次,并在整个训练过程中保持不变。我们根据  合成奖励,用于更新存储的转移数据中的奖励。SAC 算法随后使用更新后的转移数据按照其标准的更新程序优化策略。

这种方法显著降低了 VLM 推理的计算开销,并使智能体能够异步优化,推动连续学习。​

实验和结果

评价指标

为了全面评估我们的自动驾驶系统在性能和安全性方面的表现,我们采用了多种定量指标来评估驾驶效率和安全特性。在驾驶效率评估方面,我们测量了车辆在整个测试过程中保持的平均速度(AS)、单次测试中成功完成的路线数(RC)以及车辆在每次测试中累计行驶的总距离(TD)。

安全性能通过多个互补指标进行评估。基础碰撞率(CR)用于衡量包含碰撞事件的测试比例。我们进一步通过两个频率指标分析碰撞模式:基于时间的碰撞频率(TCF),即每1000个时间步长发生的碰撞次数,以及基于距离的碰撞频率(DCF),即每行驶一公里发生的碰撞次数。为评估碰撞严重程度,我们记录了每次碰撞时的碰撞速度(CS)。此外,我们跟踪记录了碰撞间隔时间步长(ICT),即连续碰撞事件之间的平均时间步数,从而深入了解安全事故的时间分布。在测试阶段,我们还报告了成功率(SR),用于评估模型在10条预定义路线中成功到达目的地的能力。

训练效果比较

为了进一步验证 VLM-RL 的有效性,我们在 10 条预定义路线中进行了全面的测试评估,并将其性能与基线方法进行了比较。路线完成率表示每次评估中平均的路线完成率。表 2 的测试结果表明,与基线方法相比,我们的方法具有显著的优势。

在测试阶段,二元奖励方法的局限性依然明显。TIRL 变体的路线完成率仅为 0.01,总行驶距离分别为 4.7 米和 14.8 米,证实了它们无法学习有意义的驾驶行为。在具有加权求和项的专家设计奖励方法中,Chen-SAC 保持了最高的平均速度 21.4 km/h,但其成功率仅为 0.08,路线完成率为 0.29,表明其激进的驾驶风格降低了任务成功率。ChatScene 变体表现出更均衡的性能,成功率分别为 0.73 和 0.63,但其碰撞速度分别为 1.18 km/h 和 0.89 km/h,显示出潜在的安全隐患。

基于 LLM 的方法在测试中具有竞争力,Revolve 的成功率达到 0.83,路线完成率为 0.92。然而,其碰撞速度为 1.53 km/h 和 1.65 km/h,表明仍存在安全问题。大多数基于 VLM 的方法,包括 VLM-SR、RoboCLIP、VLM-RM 和 LORD,表现出极为保守的行为,其路线完成率均低于 0.07,成功率为 0.0。LORD-Speed 的效率指标显著提高,但记录了所有方法中最高的碰撞速度 2.80 km/h。

相比之下,VLM-RL 在测试期间所有关键指标上都表现出卓越的性能。它保持了 19.3 km/h 的高平均速度,同时记录了 0.02 km/h 的低碰撞速度,与最保守的方法安全性相当。最值得注意的是,VLM-RL 实现了最高的成功率 0.93 和路线完成率 0.97,以及最长的总行驶距离 2028.2 米。这些结果表明,我们的方法不仅能够学习更有效的驾驶策略,还表现出更好的测试场景泛化能力。在效率和安全性指标上取得的显著改进验证了基于 CLG 和分层奖励设计的方法在提供全面且平衡的学习信号以实现安全驾驶任务中的有效性。

图片

可视化

为了更好地理解基于 CLIP 的语义奖励的效果和局限性,我们可视化了三个具有代表性的失败案例,并分析了正目标、负目标和 CLG 如何捕获不同的驾驶行为。如图 14 所示,我们展示了图像序列及其对应的语义相似度分数在三种挑战性场景中的变化。

在图1 4(a) 展示的追尾碰撞场景中,我们观察到,当自车逐渐接近前车时,正目标的相似度分数逐渐下降,而负目标的相似度分数逐渐上升。这种模式与我们的设计意图一致:不安全行为应导致较低的正目标相似度和较高的负目标相似度。最终的对比得分显示出明显的下降趋势,正确反映了追尾碰撞行为的不理想性质。

图 14(b) 展示的侧面碰撞案例揭示了另一个有趣的模式。在第 30 到第 45 步的碰撞期间,正目标的相似度并未显著下降,这表明 VLM 有时难以单独通过正目标捕捉安全违规行为。然而,负目标的相似度在碰撞期间表现出显著的峰值,导致对比得分出现适当的下降,从而正确惩罚了该不安全行为。

图14(c) 展示的偏离道路场景突出了纯基于 VLM 的语义奖励的局限性。随着车辆偏离道路,正目标相似度下降的同时,负目标相似度也呈现下降趋势。这导致对比得分相对平稳,未能充分惩罚偏离道路的行为。这一局限性源于我们的语言目标主要聚焦于与碰撞相关的行为,而未明确考虑道路边界违规。

这些观察结果揭示了基于 VLM 的语义奖励的潜力和局限性。尽管 CLG 能有效捕获许多不安全行为,但在某些场景下可能无法提供适当的学习信号,特别是那些未在语言目标中明确描述的场景。这突显了我们分层奖励合成方法的必要性,通过结合高层语义理解与低层车辆状态信息,提供更全面且可靠的奖励信号。

图片

图片

结论

本文提出了 VLM-RL,一个将预训练视觉-语言模型(VLMs)与强化学习(RL)相结合的统一框架,用于安全自动驾驶。本研究的主要贡献在于通过利用 VLMs 的语义理解能力,解决了奖励设计的挑战。具体而言,我们提出了对比语言目标(CLG)作为奖励的范式,利用正目标和负目标生成语义奖励。同时,我们引入了一种分层奖励合成方法,将基于 CLG 的奖励与车辆状态信息结合,提升了奖励的稳定性,并提供了更全面的学习信号。为缓解计算挑战,我们采用了一种批处理技术,实现了训练过程中的高效奖励计算。

图片

在 CARLA 仿真器中进行的大量实验验证了 VLM-RL 的有效性。与最先进的基线方法相比,VLM-RL 在安全性、效率和对未见驾驶场景的泛化能力上实现了显著提升。特别是,VLM-RL 将碰撞率降低了 10.5%,路线完成率提高了 104.6%,并在多样化交通环境中展现出稳健的性能。这些结果验证了将 VLMs 与 RL 相结合的潜力,为开发更加可靠且具备上下文感知能力的自动驾驶策略提供了新途径。

#ViPOcc

利用视觉基础模型的视觉先验来实现单视图3D占用预测

  • 论文链接:https://arxiv.org/pdf/2412.11210
  • 代码链接:https://mias.group/ViPOcc/

摘要

本文介绍了ViPOcc:利用视觉基础模型的视觉先验来实现单视图3D占用预测。根据单张图像推断场景的3D结构在以视觉为中心的自动驾驶领域中是一个不适定且具有挑战性的问题。现有的方法通常采用神经辐射场来生成体素化的3D占用,其缺乏实例级语义推理和时间光度一致性。本文提出了ViPOcc,它利用了来自视觉基础模型(VFMs)的视觉先验来实现细粒度的3D占用预测。与先前仅采用体渲染进行RGB和深度图像重建的工作不同,本文引入了一种度量深度估计分支,其中提出了一个逆深度对齐模块来弥补VFM预测和真值之间深度分布的域差距。然后,将恢复的度量深度用于时间光度对齐和空间几何对齐,以确保准确且一致的3D占用预测。此外,本文还提出了一种语义引导的非重叠高斯混合采样器,用于高效、实例感知的射线采样,这解决了先前最先进方法中仍然存在的冗余和不平衡采样问题。大量实验表明,ViPOcc在KITTI-360和KITTI Raw数据集上的3D占用预测和深度估计任务中均展现出更优的性能。

主要贡献

本文的贡献总结如下:

1)本文提出了ViPOcc,这是一种单视图3D占用预测框架,它结合了来自VFMs的视觉先验,在单目深度估计和3D占用预测任务中均实现了SOTA性能;

2)本文引入了一种逆深度对齐模块,它有效地恢复了VFM深度预测的尺度,同时保留了它们的局部视觉细节信息;

3)本文提出了一种语义引导的非重叠高斯混合(SNOG)采样器,它引导框架更多地关注关键实例,并且在射线采样过程中避免重叠图像块;

4)本文建立了一种新的训练范式,它使用所提出的时间光度对齐和重建一致性损失来将3D占用预测和单目深度估计的无监督训练相结合。

论文图片和表格

总结

本文引入了ViPOcc,这是一种有效利用VFM视觉先验进行单视图3D占用预测的新框架。ViPOcc由两个耦合的分支组成:一个通过对齐来自Depth Anything V2的逆深度输出来估计高度精确的度量深度,而另一个通过结合Grounded-SAM引导的高斯混合采样器来预测3D占用,以实现高效且实例感知的射线采样。这两个分支通过时间光度对齐损失和空间几何一致性损失来有效地耦合。大量实验和综合分析验证了本文方法的有效性以及ViPOcc与先前SOTA方法相比的优越性能。未来的目标是实现这两个分支更紧密的耦合,并且开发一种更轻量级的3D占用预测框架。

#diffusion policy,是值得研究的方向吗

在人工智能领域,扩散模型(Diffusion Models,简称DMs)凭借其强大的生成能力,在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而,当扩散模型应用于决策规划领域时,其低效的迭代采样成为了一个主要瓶颈。许多现有方法,如 Diffuser 和 Decision Diffuser (DD),在生成高质量轨迹的同时,由于复杂的建模过程,其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。

为解决上述问题,DiffuserLite 应运而生。它通过引入一种创新性的 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,在减少冗余信息建模的同时,实现了更高效的轨迹生成。令人印象深刻的是,DiffuserLite 的决策频率达到了 122Hz,比主流框架快 112 倍以上,并在多个基准任务中实现了 State-of-the-Art(SOTA) 性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点,剖析其在实际应用中的潜力,并探讨这一框架可能带来的广泛影响。

问题

在决策规划领域,DiffuserLite 所面临的任务可以描述为一个基于离线强化学习(Offline Reinforcement Learning)的优化问题,其核心目标是生成一条满足目标属性的轨迹。

系统的状态由离散时间动力学方程控制,公式如下:

 = f(,)

其中:

表示系统在时间 t 的状态。

为在时间 t 的动作。

表示系统的动态模型。

轨迹 x 可以表示为状态序列或状态-动作对序列,其中T是规划的时间范围。

Diffusion Planning 的目标是找到一条最符合目标 的轨迹:

其中:

  • d 是一个度量轨迹属性与目标属性之间距离的函数。
  • C是一个评价器(Critic)。

在离线强化学习的背景下,轨迹的属性通常被定义为其累积奖励:

核心在于从离线数据中生成符合目标属性的轨迹,并从中提取执行动作

扩散模型

扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模,能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同,扩散规划直接生成完整轨迹,避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程,这需要多次前向传播和复杂的去噪处理,导致决策频率极低。

DiffuserLite

DiffuserLite 是一种高效轻量级的扩散规划框架,旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,减少了不必要的计算。此外,DiffuserLite 使用 DiT(Transformer 变体) 替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段:

  • 初始粗略规划:在较大的时间间隔内多次生成关键状态点,忽略中间冗余细节。
  • 评价:使用评价器(Critic)选择最优轨迹。
  • 逐步精细化:在每一层细化关键状态点之间的轨迹(执行多次),利用评价器选择最有轨迹。
  • 快速执行:通过简化的模型架构和条件采样技术,快速生成动作决策。

渐进式精细

规划渐进式精细规划(PRP) 是 DiffuserLite 的核心创新之一,用于在生成轨迹时逐步减少冗余建模,提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段,从最初的粗略规划逐步细化,直到生成精确的完整轨迹。在扩散规划中,完整轨迹的生成通常涉及大量冗余信息,尤其是远端状态的细节对于当前决策的影响微乎其微。例如,在长时间跨度的轨迹规划中,远端的状态可能由于环境噪声或动态变化而无法准确到达,因此建模这些细节不仅无益,反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布,这显著降低了推理速度。PRP

  • 粗略规划:初始阶段仅生成关键点(Key Points),间隔较大的状态点被视为轨迹的主要参考,而中间状态被忽略。
  • 逐层精细化:从关键点轨迹出发,逐层填补两点之间的细节,逐步将轨迹分辨率提高到所需的精度。示例:
  • 优化终结:最后一层完成全轨迹的生成,生成的轨迹既包括整体的长远性,又有足够的局部细节。

例如:对于规划范围为 128 的轨迹,第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32],第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法,能够快速生成出理想的轨迹。

训练

将完整轨迹按层次划分为子轨迹,每层生成的轨迹采用扩散模型拟合其概率分布,优化目标为最小化噪声预测误差。为指导模型生成目标轨迹,DiffuserLite 使用了无分类器指导(CFG)。

Critic设计

Critic 

  • 提供生成条件:在扩散模型训练过程中,Critic 评估轨迹的属性 C(x),并作为条件输入指导模型生成目标轨迹。
  • 选择最优轨迹:在推理阶段,Critic 用于从候选轨迹中选择最优轨迹。

在稀疏奖励任务中,直接使用累积奖励可能不够有效,因此可以加入最终状态的值函数 :

在特定任务(如机器人控制或行为定制)中,可以将其设计为目标任务的特定指标,例如轨迹平滑性、目标对齐度、或者状态变化的能量消耗。

实验

1.实验目的

实验的主要目的是验证 DiffuserLite 在多种任务中的性能,包括:

  • 效率:决策频率是否显著提升。
  • 准确性:生成轨迹是否符合任务目标。
  • 任务适应性:是否能够处理长时序、稀疏奖励等复杂任务。

2. 实验设置

数据集与环境

DiffuserLite 在以下标准基准任务中进行评估:

  • Gym-MuJoCo:机器人运动控制任务。
  • 任务包括 HalfCheetah、Walker2D 等,主要关注连续控制性能。
  • FrankaKitchen:复杂任务完成环境。
  • 包含多个子任务组合,如打开微波炉、关门等,考验轨迹规划能力。
  • Antmaze:长时序导航任务。
  • 需要在稀疏奖励场景中生成可行的轨迹,特别测试远端轨迹规划能力。

评估指标

  • 决策频率(Hz):每秒生成的决策次数。
  • 任务成功率:轨迹是否成功达到目标状态。
  • 奖励累计值:生成轨迹的累计奖励。

3. 实验结果

性能比较

DiffuserLite 与主流方法(如 Diffuser、Decision Diffuser)进行了全面对比。结果如下:

  • 决策频率:
  • DiffuserLite 的频率达到了 122 Hz,显著高于 Diffuser(约 1 Hz)和 Decision Diffuser(约 0.8 Hz)。
  • 任务成功率:
  • 在 FrankaKitchen 任务中,DiffuserLite 的成功率达到了 85%,比基准方法高出约 10%。
  • 累积奖励:
  • 在 Gym-MuJoCo 任务中,DiffuserLite 的累计奖励接近理论最优值,展现了优异的控制性能。

消融实验

为了验证各组件的贡献,进行了以下消融实验:

  1. 无 PRP(渐进式精细规划):
  • 不使用 PRP,直接生成完整轨迹。结果显示效率和准确性显著下降。

替换模型架构:

  • 用传统的 UNet 替换 DiT(Diffusion Transformer),推理速度降低约 30%。

移除 Critic 指导:

  • 不使用 Critic 提供的轨迹属性条件,任务成功率降低了 15%。

总结

DiffuserLite 在扩散规划领域实现了一项重要突破,通过引入 渐进式精细规划(PRP) 和灵活的 Critic 和属性设计,显著提升了轨迹生成的效率和适应性。实验结果表明:

  1. 高效性:DiffuserLite 的决策频率达到了 122Hz,是现有方法的百倍以上,能够满足实时任务需求。
  2. 准确性:在 Gym-MuJoCo、FrankaKitchen、Antmaze 等复杂任务中,DiffuserLite 均展现了优异的任务成功率和轨迹规划能力。
  3. 适应性:通过 PRP 和 Critic 的结合,DiffuserLite 能够有效处理长时序和稀疏奖励任务,展现了极强的任务扩展性。

整体来看,DiffuserLite 解决了扩散规划的实时性问题。

#上海微软大裁员

赔偿达N+8??老员拿20个月工资走人...

我之前写文章,有读者给我留言说,国内最遵守劳动法的一定是外企,听起来挺扎心但确实是事实。

外企就连裁员也是超规格的。

这不,微软又开始恶意裁员了,直接给员工 N+8 赔偿,工作12年的老员工,直接拿 20 个月的工资走人。

大家知道,一般研发的工作还蛮高,也就说有人可以拿几十万甚至上百万的赔偿金。

确实有点香,哪怕被离职了,拿了这么多钱心里也多少踏实一点点。

一般来讲,按照法律规定,裁员会给到N、N+1或2N的赔偿。

所谓“N”,就是员工在单位工作的年数。如果员工在单位工作3年,那么被裁员时,其可能拿到相当于3个月、4个月或6个月工资的补偿金。

在现实生活中,很多人是拿不到赔偿的,因为用人单位那头会千方百计逃避赔偿,员工能拿到N或者N+1赔偿已经算不错了。

裁员的原因呢,一方面是大环境的变化,另一方面是因为 AI。而受AI影响,从去年到现在,硅谷裁员超40万。

去年年底,谷歌被曝出用AI取代3万销售的工作;4月特斯拉宣布全球裁员超1.4万人;8月英特尔宣布全球裁员1.5万人,相当于总员工的15%。

紧接着戴尔被爆两年裁了2.55万人,通讯大厂思科、诺基亚传出裁员2000人、8000人;游戏大厂的原画师正在被 AI 取代;电商详情页头部电商80%已经用AI来做图……

“AI时代”正式到来,“人工智能”更是被首次纳入企业裁员理由,而或许AI引爆的裁员浪潮才刚刚开始。

6月14日,咨询机构麦肯锡发布了的一份题为《生成式人工智能的经济潜力》的研究报告,分析师们通过对47个国家及地区的850种职业(全球80%以上劳动人口)的研究,探讨了在AI成指数级发展背后,对全球经济将带来的影响,哪些行业冲击最大,哪些人面临失业威胁?

这个研究报告,在业内算是比较权威和全面的报告了,总结了报告的几个关键结论:

1、AI取代人类工作的时间被大幅提前了10年,在2030年至2060年间(中点为2045 年)50%的职业逐步被AI取代。

2、AI每年可为全球经济带来2.6万亿至4.4万亿美元的增长,生产力提高0.1%—0.6%,相当于每年贡献一个英国的GDP。 

3、全局上看AI对各行各业的发展有利,但是对个人不利,而高薪、高学历的脑力劳动者受到的冲击最大。 

4、生成式AI带来的价值增长,主要(约75%)集中在四个领域:客户运营、营销和销售、软件工程和研发。 

5、生成式人AI及其他科技的发展或将使当前工作的60%到70%实现自动化。其中,银行业、高科技行业和生命科学等行业所受的影响最大。​

报告认为,高薪、高学历的知识工作者受AI冲击最大,AI取代人类工作的时间被大幅提前了10年!

报告还提到了一个观点,AI 对底薪工作者的替代会慢很多,比如采摘苹果的工人,送外卖的快递小哥等等。

反而,AI 的出现可能对高薪知识工作者的工作影响最大

这个有点能理解,因为越是高薪的相关工作,越是涉及到自动化、复杂决策、信息化的工作,算是 AI 的擅长点。

报告原文:https://wallstreetcn.com/articles/3691210

怎么说呢?

看完还是蛮震撼的,因为我们一直在 AI 这个赛道中探索创业,所以也一直很关注这方面的研究和发展。

但是这份报告给出的数据,还是超出了我的想象,AI 对世界的影响越来越加速了。

对于普通人呢?

打不过就加入,可能现在 AI 还没影响到你的工作,但是未来 AI 一定会对你有所影响。

早一点接触,早一点了解,肯定是最好的。

这个有点能理解,因为越是高薪的相关工作,越是涉及到自动化、复杂决策、信息化的工作,算是 AI 的擅长点。

#UniPLV

解放人工标注!理想多模态框架:开放3D场景理解新SOTA~

开放世界的3D场景理解旨在从点云等3D数据中识别和区分开放世界的对象和类别,而无需人工标注。这对于真实世界的应用,如自动驾驶和虚拟现实等至关重要。传统的依赖人工标注的闭集识别方法无法满足开放世界识别的挑战,尤其3D语义标注,非常耗费人力和物力。大量的互联网文本-视觉对数据,使得2D视觉语言模型展现出了杰出的2D开集世界理解能力。同样道理,为了理解3D开放世界,当前的SOTA方法通过构建点云-文本对数据,再通过CLIP的对比学习方式,达到3D开放世界理解能力。这种方式不仅要求繁琐的点云-文本对数据制作过程,而且要求大量的点云文本对齐数据。在实际互联网世界中,大量的3D点云数据难以获得且是有限的,因而限制了大量点云-文本对数据的制作,进而限制了方法的性能上限。

仔细观察可以发现,尽管3D点云数据有限,它们通常与图像成对出现。这就使得我们仔细思考:是否可以利用2D开放世界理解方法的成功,借助图像作为媒介,在有限的数据中,将2D开放世界理解的能力转移到3D开放世界理解当中。因此,我们设计了一个点云-图像-文本统一的多模态学习框架,在数据有限的情况下,将图像-文本的对齐关系迁移到点云-文本,得到3D开集场景理解模型。这个框架不需要生产点云-文本对,仅通过2D基础模型得到区域像素-文本对,即可通过多模态统一训练得到3D开集场景理解模型。同时,推理时不需要依赖图像即可得到点云的语义信息。在广泛使用的nuScenes、Waymo以及SeamanticKITTI数据集上进行的多个实验验证了多模态框架在3D开集任务上的有效性。

图片

  • 论文链接:https://arxiv.org/abs/2412.18131

本文提出了一个多模态开集框架UniPLV,将点云、图像和文本统一到一个范式中,以实现开放世界的3D场景理解。UniPLV利用图像模态作为桥梁,将3D点云与预对齐的图像和文本共同嵌入到一个共享的特征空间中,不需要制作对齐的点云和文本数据。为了实现多模态对齐,我们提出了两个关键策略:(i) 图像和点云分支的逻辑和特征蒸馏模块;(ii) 一个视觉点云匹配模块,用于显式纠正由点云到像素投影引起的错位。此外,为进一步提升我们统一框架的性能,我们采用了四种特定任务的损失函数和一个两阶段的训练策略。大量实验表明,我们的方法在两个开集任务Base-Annotated和Annotation-Free上的指标平均分别超过最先进方法15.6%和14.8%。​

相关工作回顾

3D语义分割。3D语义分割技术可根据对点云的建模方式分为三类:view-based、point-based和voxel-based。view-based将3D点云转换为距离视图或鸟瞰视图,提取2D特征,但会损失3D几何特性。point-based直接使用3维点作为模型输入,并设计算法聚合上下文信息。Voxel-based将点云空间划分为多个体素网格,并使用稀疏卷积技术处理这些体素特征以提高效率。本文采用MinkUNet、SparseUnet32和PTv3作为骨干网络,分别验证提出框架的可扩展性和泛化能力。

开放词汇2D场景理解。开放词汇的2D场景理解技术随着大型视觉语言模型的发展,在理解二维开放世界场景的能力上取得了显著进展。主要有两大方向:基于CLIP的方法和Grounding方法。基于CLIP的方法通常使用CLIP文本特征代替线性投影特征,并利用对比学习进行特征对齐,如GLEE、DetCLIP系列、RegionCLIP和OWL-ViT等。Grounding任务的输入是一张图片和对应的描述,通过不同的描述在图像中输出物体框的位置。鉴于2D开放世界理解的成功,我们选择GLEE和Grounding DINO作为我们的2D开集区域标签生成算法。

开放词汇3D场景理解。开放词汇的3D场景理解旨在识别未被标注的物体。早期的方法主要通过特征区分或生成的方法实现开放场景的理解。随着视觉语言模型(如CLIP)的成功,出现了许多工作将视觉语言知识迁移到3D场景理解上。Clip2Scene使用冻结的CLIP获取图像的语义标签,然后投影以指导点云的语义分割。OpenMask3D采用3D实例分割网络创建3D掩码,并投影以获得2D掩码。这些2D掩码输入到CLIP中,以提取视觉特征并与文本特征匹配,最终获得3D语义。由于CLIP是基于完整图像和文本的对齐进行训练的,其理解特定区域的能力有限。OpenScene通过将预测结果从冻结的2D视觉模型投影并在图像与点云特征之间进行蒸馏,实现了点云与文本对齐。然而,OpenScene需要资源密集的特征提取与融合,并且在训练期间图像骨干是固定的,难以扩展到更先进的3D网络和3D场景。RegionPLC和PLA通过构建大量的点云文本对来训练点云与文本的对齐,实现了开放场景的3D理解。本文提出了一个统一的多模态框架,用于开放场景3D理解,具有轻量级和可扩展的特点,并且不需要生成额外的点云文本对。​

UniPLV 方法详解

UniPLV能够识别无人工标注的新类别,同时保持对已标注的基础类别的性能。与之前通过构建3D点-文本对来实现开放词汇理解的方法不同,我们的工作利用2D基础模型构建图像区域语义标签,将开集能力从二维迁移到三维,而无需额外的3D和文本配对数据。利用二维和三维空间之间的映射关系以及预先对齐的图像和文本,我们设计了一个多模态统一训练框架,使用图像作为桥梁,将点云特征嵌入到图像和文本的共享特征空间中。我们介绍了所提框架的主要组件、数据流转换、两个知识蒸馏模块以及一个视觉点匹配模块。我们引入了一种多模态和多任务的训练策略,以确保点云和图像分支的稳定和高效训练。在推理阶段,此框架仅需要点云和类别描述作为输入来计算特征相似性,选择最相似的类别作为每个点的语义预测。

图片

区域文本生成

我们利用二维视觉-语言基础模型提取图像实例和像素语义。具体来说,给定一组图像和类别文本列表,为每张图像输出边界框、实例掩码和语义类别。我们使用GLEE进行实例掩码和边界框生成,该模型已在大规模数据集上训练,在准确性和泛化性方面表现出色。另外,我们结合了 Grounding DINO 和 SAM2 ,以生成另一组实例标签。边界框通过 Grounding DINO 生成,随后使用 SAM2 对每个框进一步分割以产生实例掩码。至此,我们获得了区域-像素-文本对,以及与图像时空对齐的点云,用于训练提出的多模态3D场景理解网络。本文的实验结果中,2D 语义标签来自 GLEE,相关的 Grounding DINO 和 SAM2 实验可以在补充材料中找到。

模型框架

所提出的UniPLV包括一个冻结的文本编码器、图像编码-解码器和点云分割网络,如图2所示。我们将所有类别名称作为文本prompt输入到文本编码器中,在序列维度上应用全局平均池化来获取文本特征。为了支持开放世界理解,我们用感知特征与文本特征之间的相似性测量替换了图像解码器和3D分割头的分类器:

UniPLV可以利用构建的区域图像-文本对微调图像的分割和检测,并提供对应于给定类别的点云分割结果。该框架的最终优化目标是通过多模态联合训练将点云特征和图像-文本特征嵌入到统一的特征空间中,实现点云和文本在开放世界3D场景理解中的对齐。对于图像和文本分支,我们加载GLEE的第二阶段模型作为预训练权重,以加强文本和图像的对齐。在训练过程中,我们使用二维基础模型构建的数据微调图像模型,在迭代训练过程中,模型进行特征聚类,以识别并学习给定类别的共同属性。这种机制有助于滤除由误检引入的噪声,从而有效清洗伪标签。

视觉-点云知识蒸馏

为了将图像作为桥梁,将点云特征和预对齐的图像-文本对共同嵌入到统一的特征空间,我们从图像分支到点云分支引入了两个蒸馏模块:逻辑蒸馏和特征蒸馏。

逻辑蒸馏。 图像像素的语义分类概率是通过图像特征与所有给定类别的文本特征之间的相似性测量获得的。类似地,点云的语义分类概率也通过计算与文本的相似性获得。我们设计了逻辑蒸馏来监督新类别的点云分类,新类别语义由图像分支预测并经过投影得到,使用了交叉熵损失和Dice损失来实现逻辑蒸馏:

特征蒸馏。 图像和文本之间的对齐已经使用大规模数据进行预训练。为了弥合点云与语义文本之间的特征差距,我们进一步使用图像特征蒸馏点云的特征。我们仅蒸馏在空间映射和语义上同时对齐的2D-3D配对点。特征蒸馏基于相似性计算进行,使用余弦相似度函数在特定配对的点云和图像之间测量特征相似度:

视觉-点云匹配学习

我们引入了视觉-点云匹配(VPM)模块以进一步学习图像与点云之间的细粒度对齐。这是一个二分类任务,要求模型预测来自投影的像素点对是正匹配还是负匹配。VPM主要包括一个注意力编码器模块和一个二分类器。给定配对的图像特征和点云特征,图像特征为查询向量,而点云特征作为键和值向量。自注意力应用于图像特征以获得图像注意力特征。随后的交叉注意力在图像和点云特征之间进行,交叉特征经过前馈网络输出到一个二分类器获得匹配概率:

优化目标&多模态训练

为了实现3D开放世界场景理解,我们联合训练图像像素、3D点云与文本之间的对齐。我们提出的UniPLV有四个特定任务的损失:图像-文本对齐、点云-文本对齐、像素-点云匹配,以及逻辑和特征蒸馏损失。最终的总损失通过加权结合上述四种损失进行如下计算:

为了达到多模态稳定的训练,我们提出了一种两阶段多任务训练策略,用于训练多模态框架UniPLV。

阶段1:独立图像分支训练。 训练初步阶段,我们独立训练图像分支持续总迭代步数的一半,保证两个模态的网络梯度同步,并且在图像分支训练期间实施梯度剪裁,以防止梯度爆炸,保证训练稳定。

阶段2:统一多模态训练。 第二阶段涉及图像和点云分支的联合训练,采用不同的损失权重以有效平衡它们的损失值。在整个训练过程中,我们使用AdamW优化器,因其自适应学习能力和收敛稳定而被选择。优化器参数,特别是学习率和权重衰减,取决于每个分支的主干结构,并且针对图像和点云分支设置有所不同。这种策略上的优化设置差异确保了两个分支根据其特定的网络结构和数据特性进行训练,最终使得多模态训练任务达到更优的性能。

推理

推理过程如图2所示。在推理过程中,我们可以将任意开放词汇类别编码为文本查询,并计算它们与3D点云的相似性。具体来说,我们将每个点与计算出的余弦相似度最高的类别关联。由于我们已经将图像-文本对齐蒸馏到点云-文本对齐,因此在推理过程中不需要处理图像。​

实验结果

图片

图片

图片

图片

图片

图片

图片

结论&未来工作

结论。本文提出了一种用于开放世界3D场景理解的统一多模态学习框架,UniPLV,该框架不需要制作点云文本对,利用图像作为桥梁,提出了逻辑蒸馏、特征蒸馏和视觉-点云匹配模块。此外,我们引入了四个特定任务的损失函数和两阶段训练过程,以实现稳定的多模态学习。我们的方法在nuScenes数据集上显著超越了最先进的方法。此外,在不同3D骨干网络以及Waymo和Semantickitti数据集上的实验结果也显示了我们方法的可扩展性和轻量级特征。

未来工作。未来有一些工作需要改进和解决。我们提出的框架目前仅在室外数据集上进行了验证。未来,我们计划将验证扩展到室内数据集,如ScanNet,其中2D和3D之间的投影参数更为准确。我们将来会改进和量化图像分支,使提出的框架能够同时实现2D和3D开放世界场景理解任务。点云分支也可以替换为OCC占用预测网络,以扩展开放世界的应用。

#Sparse4D

了解稀疏的BEV感知

许久没有更新了,自从开始工作以后愈发的困在了Corner Case和各种各样的琐事,闲言少叙,这篇文章将用尽可能简洁的语言,帮助各位大佬了解地平线的Sparse 4D系列工作。(PS:对于Sparse4D中,不同帧间的信息不再依赖各自帧内的ego2global部分就不做介绍了,大佬工作的代码写的很清晰,有这样一个概念即可~)​

Summary

  • 环视障碍物的检测,将不依赖显式的稠密BEV特征进行学习。
  • 基于K-Means的初始化Anchor, 让模型拥有更快的收敛速度,且Query的可解释性更好
  • 引入去噪过程,模型可更快收敛。
  • 考虑3D检测特点,引入质量估计
  • 以检测结果为基础,可出Tracking结果,不依赖BEV下的多目标追踪后处理

Methods

接下来,我们将分开两部分介绍模型结构部分;分开两部分的原因,是因为Denoising并不影响整体模型训练的pipeline,拆开两部分,可更好帮助各位大佬理解整体工作。

  1. 介绍模型整体的forward流程,包括Loss的设计
  2. 介绍Denoising的使用

Overall Pipeline

一言以蔽之:模型将基于query_based的instance_feature和anchor,进行整体的稀疏BEV感知;图像特征将不进行显式的深度信息编码,模型基于anchor的中心点,通过offset的学习,将图像特征引入至instance_feature。

接下来将基于开源的代码,进行尽可能简短的模型forward pipeline介绍。

  • instance_feature和anchor起始存储于instance_bank内。anchor(,11)的初始化,是基于GT的kmeans计算得到。对应的11维信息:[x,y,z,l,w,h,,,,,state]. 其中, 所有anchor的速度为0yaw角为0,最后一维信息可不关注,仅与denoise相关。模型在训练过程中,anchor会伴随着模型的学习更新。但在每一个iter的forward开始,instance_bank内取到的初始化当前帧instance_feature都是全0(即instance_feature永远依赖于当前图像特征的提取,和后续的注意力计算)。
  • 在通过Transformer进行forward过程中,operation主要包括:deformable, ffn, norm, refine, temp_interaction, interaction在内的六部分。其中,ffn, norm很好理解,重点介绍deformable, refine, temp_interaction, interaction四部分。
  • 单帧decoder: deformable+FFN+Norm+Refine
  • 多帧decoder: temp_interaction+interaction+norm+deformable+ffn+norm+Refine
  • 模型整体包括两类decoder:

其中,Deformable模块负责将图像特征引入;Refine模块负责基于instance_feature获取感知结果;temp_interaction负责对当前帧特征信息与历史特征信息进行融合; interaction负责将当前帧特征进行自注意力计算。

  • deformable(图像特征引入):前面提到,Sparse4D中,模型将不在学习稠密的显式BEV特征。图像特征的使用主要依赖该module。该模块的作用,是将图像特征基于anchor和采样点,对instance_feature进行更新(即引入图像特征)。
  • deformable依赖的输入包括instance_feature, anchor, anchor_embed, feature_maps与projection_mat. 最终输出的结果将用于更新instance_feature.
  1. instance_feature[B,,256]: 当前帧的instance feature, 模型在每一轮forward时,第一次进入deformable中的instance_feature结果都是全0,是通过若干次调用deformable module的过程中,图像特征的不断引入堆叠才得到最终的instance_feature.
  2. anchor:[B,,11]当前帧的anchor,即可能会存在于当前帧的框体的位置和对应大小的预设。
  3. anchor_embed:[B,,256]当前帧anchor对应的position_embedding。

图片

图像特征引入模块的forward流程五步走:

  1. 获取key_points[B,,,3]:基于anchor_embed求解anchor中心点的对应位置偏移量,与anchor相加后得到key_points。此处的指代的是anchor中心点对应采样在图像中采样点的个数,论文中=8.
  2. 获取多尺度图像特征采样的权重weights[B,,,]:对已有的instance_feature分别引入框体的位置编码信息(anchor_embed)和相机参数的编码信息(基于ego2img的全连接层进行的编码信息). 并通过全连接层和softmax层,以及15%的随机掩码,得到weights。论文中=8,=8(的引入理解为multi-head attention就好)。
  3. 获取采样后的图像特征features[B,,,256]: 基于ego2img, 将key_points的点投影到图像特征中的归一化位置(在[0, 1]位置内)。通过grid_sample采样每个key_points在图像上的对应特征。对于采样点经ego2img投影后不在图像范围内的情况,对应features为0。

图片

  1. refine(基于instance_feature和anchor,基于全连接层得到感知结果):
  2. 整体输入依赖instance_feature, anchor与anchor_embed,最终的输出结果包括:经过refine后的anchor[B,,11],对应anchor的类别分类[B,,],质量分析(quality)[B,,2] (值范围在[0,1]区间内)
  3. refine模块流程三步走:
  • 基于已有instance_feature和对应的anchor位置编码信息相加, 得到instance_feature
  • instance_feature通过全连接层得到anchor的偏移量,相加后更新anchor。
  • quality, cls全连接层得到对应的质量结果和分类结果。
  1. temp_interaction(基于当前帧特征和历史特征,进行交叉注意力学习):输入包括instance_feature(当前帧特征[B,,256]), temp_instance_feature(历史帧特征[B,,256]), 对应的位置编码信息anchor_embed&temp_anchor_embed。
  2. interatcion(基于当前帧特征,进行自注意力学习):输入包括instance_feature(当前帧特征[B,,256])。对应位置编码信息anchor_embed
  • 历史特征(temp_instance_feature),历史anchor(temp_anchor)及当前帧anchor、当前帧特征的获取(get),是从instance_bank内获取,在Det_head每一轮forward的起始去做,获取的过程中,会基于历史特征和当前帧特征的时间间隔,进行mask判断;历史帧的anchor会基于ego2global信息进行基础的运动补偿,统一至当前帧下。
  • 基于历史特征,历史anchor和当前帧的anchor,当前帧的特征及对应confidence对当前帧特征和anchor的更新,是在模型经过单帧decoder forward后进行的,是通过concat当前帧的top与历史帧的得到。即instance_feature在基于采样点引入对应图像特征后,选取对应topk的当前帧特征,与历史帧特征融合,作为新的instance_feature&anchor,随后进行多帧decoder的forward。
  • 基于完整forward后instance_feature, anchor及对应的confidence,对instance_bank内的特征进行更新。选择confidence最高的top作为新的历史特征(temp_instance_feature)和历史anchor(temp_anchor)。

Loss

Loss部分将仅针对Quality部分进行讲解

  1. cns_target: 预测与真值在x,y,z上面的l2距离误差:dist,最小值为0,最大值为无穷,所对应的,值域为(0, 1].即误差越大,对应值越接近0。
  2. yns_target: 预测与真值在sin(yaw)和cos(yaw)的余弦相似度,若相似度大于0,yns_target为1.0,反之为0。反映的是预测与真值在yaw角的预测上是否可保证是在同一方向上。
  3. 模型输出的cns和yns与对应target进行loss计算,其中cns用交叉熵损失计算,yns用高斯focal loss计算

个人理解,该部分的loss学习,本质上是强调模型对于目标障碍物的中心点(特别是深度)和yaw角的预测,因为本质上对于图像进行3D检测的ill-posed问题,yaw角和深度的预测就是最关键,最难的问题。(个人也有一些瞎想,即现有的learning-based prediction&planning, 也在强调在一味的模仿学习基础上,要学习人类的判别逻辑/或提供奖励函数等等;此处的quality是否也可作此理解呢?)​

Denoising

一言以蔽之:Denoising中在loss计算部分,与正常anchor的loss计算一摸一样;Denoising的作用,在于绕过了匈牙利匹配,在去噪的过程中,直接优化检测头。李峰:[CVPR 2022 Oral]DN-DETR: 去噪训练加速DETR收敛 评论区大佬的这个解释让我茅塞顿开

其实detection任务可以类比成image domain到box domain的机器翻译问题。自然语言的翻译问题通常需要在两种语言上都有预训练才能work的比较好。ImageNet预训练的backbone使得我们有了很好的image domain预训练模型,但box domain我们是没有预训练模型的,只能利用image-box pair在训练过程中强行拟合。本文利用GT生成的noisy query更像是在box domain构造了一个自监督task,有效地缓解了box domain没有预训练模型的问题。类似思路在Pix2seq中也有体现。

  1. Denoising部分只在训练过程中引入,并不会影响模型的infer阶段
  2. 获取denoising的相关信息,

最终得到的输出包括:

图片

  • Forward pipeline
  1. 设置了max denoising GT=24,如果当前batch_idx下的GT中周边障碍物数量大于该数量,则取前24个,否则取全量的GT。获取的GT信息包括分类信息和对应的框体信息(x,y,z,l,w,h,yaw,vx,vy)。
  2. 统计当前batch_size中最多的GT数量,上限为max denoising_GT的数量。
  3. 对cls_target和box_target中,batch_idx中不足最大GT数量的样本进行补齐。其中,cls_target补-1, box_target进行对应的全零补齐。

图片

  1. 求解box_cost,对应得到每一个加入噪声后的dn_anchor, 其去噪后最接近的box_target。
  2. 基于box_cost得到的匈牙利匹配结果,构建dn_box_target和dn_cls_target。其中,positive的部分由于添加的噪声较小,对应的target就是GT的cls_target和box_target,而negative部分,对应的box_target为全0,cls_target为全部-3。

图片

原有的anchor中包括的11维的输入,其中最后一维本身是没用的,可能是作为dn_anchor和anchor的区分位置
dn_anchor补齐最后一维的shape,最后一个remain_state_dim为0。并与anchor进行concat。此时的anchor_shape,为 [B,N]
构建attn_mask, 在计算自注意力机制时,对不同的query之间的attention进行mask。最终的目的,在于正常的query进行进行self_attention时,不会看到各个group的denoising query信息(防止GT信息泄漏)。同时各个denoising query在进行self_attention计算时,也不会看到正常的query和其他group的query信息(防止one-to-one的assignment,变成了n to one)。此处的信息泄露,是指denoising_query中的信息,是在GT基础上加小幅度扰动得到的,把近乎百分之百准确的投影点投回到图像中拿的query肯定很准,用这样的信息给原有的query看到属于泄题,会完全影响模型学习。

Thinking

个人在初次读完Sparse4D的系列工作,第一感觉是好屌,而且代码的工程量开发好大。但后续再阅读了DAB-DETR,DN-DETR和DINO在内的三篇工作后,发现Sparse4D的系列工作更多是踩在巨人的肩膀上,进一步完善了环视障碍物的BEV检测任务。在这里也推荐作者本人在知乎进行的论文分享~李峰:DINO: 让目标检测拥抱Transformer 李峰:[CVPR 2022 Oral]DN-DETR: 去噪训练加速DETR收敛

有一些美中不足的地方和可能可以去改进的点,一方面在于,由于没有显式的深度信息学习,导致基于anchor的中心及对应offset往回投影学习图像特征时,无法考虑到目标车辆部分被前车遮挡的情况。能想到的一些解决思路,是通过GT提供分割结果,一定程度上约束图像特征投影点学的是统一的instance。​

碎碎念

由于自己的懒惰,导致大半年的时间长期没有进行认真系统的论文阅读。在读Sparse4D的工作时,需要结合开源的代码逐行阅读,一点一点厘清思路。但当最近系统化的再次阅读了DETR系列的相关工作,会发现Sparse4D更多的是站在了巨人的肩膀上,将BEV障碍物检测的性能再次拔高了一个台阶。

年底了,在这里也立个小flag,尽量保证至少两周一次的更新频率维护我的论文分享,也希望各位大佬不吝指正赐教。个人能力有限,很多分享难免会有纰漏,也欢迎各位大佬进行指正

#xxx

#xxx
#xxx

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/503188.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Qt】控件概述和QWidget核心属性1(enabled、geometry、windowTitle、windowIcon、QRC机制)

一、控件概念 界面上各种元素、各种部分的统称(如按钮、输入框、下拉框、单选复选框...) Qt作为GUI开发框架,内置了各种的常用控件,并支持自定义控件。 二、控件体系发展 1.没有完全的控件,需要使用绘图API手动绘制…

基于transformer的目标检测:DETR

目录 一、背景介绍 二、DETR的工作流程 三、DETR的架构 1. 损失函数 2. 网络框架讲解及举例 一、背景介绍 在深度学习和计算机视觉领域,目标检测一直是一个核心问题。传统方法依赖于复杂的流程和手工设计的组件,如非极大值抑制(nms&…

打包部署若依(RuoYi)SpringBoot后端和Vue前端图文教程

打包后端‘ 1,打开若依,点击右侧的Maven展开Maven管理,选择ruoyi>Lifecycle 先双击clean清除原本启动项目时生成的文件。然后点击package等待项目打包,切记要取消运行再打包 打包完成后会在ruoyi-admin>src>target里面…

RedisTemplate执行lua脚本及Lua 脚本语言详解

使用RedisTemplate执行lua脚本 在开发中,我们经常需要与Redis数据库进行交互,而Redis是一个基于内存的高性能键值存储数据库,它支持多种数据结构,并提供了丰富的命令接口。在某些情况下,我们可能需要执行一些复杂的逻…

倾斜摄影相机在不动产确权登记和权籍调查中的应用

一、项目背景 1.1 项目背景 为贯彻落实中央、国务院关于实施乡村振兴战略、关于“扎实推进房地一体的农村集体建设用地和宅基地使用权确权登记颁证,完善农民闲置宅基地和闲置农房政策,探索宅基地所有权、资格权、使用权‘三权分置’”的要求&#xff0…

SSL,TLS协议分析

写在前面 工作中总是会接触到https协议,也知道其使用了ssl,tls协议。但对其细节并不是十分的清楚。所以,就希望通过这篇文章让自己和读者朋友们都能对这方面知识有更清晰的理解。 1:tls/ssl协议的工作原理 1.1:设计的…

STM32 I2C通信外设

单片机学习! 目录 前言 一、I2C外设简介 1.1 硬件I2C外设 1.2 硬件I2C功能 1.2.1 多主机模型 1.2.2 7位地址和10位地址的模式 1.2.3 通讯速度 1.2.4 支持DMA 1.2.5 兼容SMBus协议 1.2.6 芯片型号资源 二、I2C框图 2.1 引脚 2.2 SDA数据控制 2.3 SCL时…

新型大数据架构之湖仓一体(Lakehouse)架构特性说明——Lakehouse 架构(一)

文章目录 为什么需要新的数据架构?湖仓一体(Lakehouse)——新的大数据架构模式 同时具备数仓与数据湖的优点湖仓一体架构 存储层计算层 湖仓一体特性 单一存储拥有数据仓库的查询性能存算分离开放式架构支持各种数据源类型支持各种使用方式架…

Linux安全防火墙(iptables)配置策略

目录 概念 防火墙的主要功能和特点: 防火墙分类 其他概念 通信五要素: 通信四要素 用户态和内核态 四个表五个链 四个表 五条链 数据包过滤的匹配流程 三种报文流向: 规则内的匹配顺序: iptables iptables命令的格…

十四、Vue 混入(Mixins)详解

文章目录 简介一、基本语法定义混入对象使用混入对象二、混入的数据合并数据合并规则深度合并(对象类型数据)三、混入的生命周期钩子生命周期钩子的合并规则利用生命周期钩子合并的优势四、混入的方法合并方法合并规则调用被覆盖的方法(高级用法)五、混入的应用场景多个组件…

每日AIGC最新进展(80): 重庆大学提出多角色视频生成方法、Adobe提出大视角变化下的人类视频生成、字节跳动提出快速虚拟头像生成方法

Diffusion Models专栏文章汇总:入门与实战 Follow-Your-MultiPose: Tuning-Free Multi-Character Text-to-Video Generation via Pose Guidance 在多角色视频生成的研究中,如何实现文本可编辑和姿态可控的角色生成一直是一个具有挑战性的课题。现有的方法往往只关注单一对象的…

【C++面向对象——类的多态性与虚函数】计算图像面积(头歌实践教学平台习题)【合集】

目录😋 任务描述 相关知识 1. 纯虚函数 一、特点 二、使用场景 三、作用 四、注意事项 五、相关概念对比 2. 抽象类的使用 一、定义与概念 二、使用场景 编程要求 测试说明 通关代码 测试结果 任务描述 本关任务:设计一个矩形类、一个圆形…

STM32 拓展 电源控制

目录 电源控制 电源框图 VDDA供电区域 VDD供电区域 1.8V低电压区域 后备供电区域 电压调节器 上电复位和掉电复位 可编程电压检测器(PVD) 低功耗 睡眠模式(只有CUP(老板)睡眠) 进入睡眠模式 退出睡眠模式 停机(停止)模式(只留核心区域(上班)) 进入停…

c# CodeFirst生成表字段加注释

前置:ORM框架工具使用的FreeSql 背景:开发环境中运行接口,所有的表字段以及备注会自动加上,但是在测试环境时运行就只生成了表,没有把每个字段的注释加上 问题检查: FreeSql CodeFirst 支持将 c# 代码内的注…

Python连接和操作Elasticsearch详细指南

Python连接和操作Elasticsearch详细指南 一、服务器端配置1. 修改 Elasticsearch 配置文件2. 开放防火墙端口 二、本地 Python 连接 Elasticsearch1. 连接 Elasticsearch2. 索引操作3. 文档操作4. 搜索内容5. 聚合查询6. 批量操作 三、注意事项四、故障排除结论 Elasticsearch …

五个不同类型的数据库安装

一、 官方首页下载 打开 MySQL 官方首页,链接为: MySQL 进去社区后选择合适的版本进行安装 安装细节 依图一路next 点击finish结束安装 二、 在线YUM仓库 将该安装包的下载链接在 Linux 操作系统中按照以下命令直接进行下载 三、 二进制本地 通过该链接…

用户界面软件01

Jens Coldewey 著,Tom.X 译 本文中的模式语言逐步深入地探讨用户界面架构的设计,它基于人机工程学,足以形成一套完整的体系。如果你对这方面有兴趣,请参考[Tog92],[Coo95]和[Col95]。 本文不讨论用户界面的布局&…

Android 性能优化:内存优化(实践篇)

1. 前言 前一篇文章Android性能优化:内存优化 (思路篇) 大概梳理了Android 内存原理和优化的必要性及应该如何优化,输出了一套短期和长期内存优化治理的SOP方案。 那么这一篇文章就总结下我最近在做内存优化如何实践的&#xff0…

stm32第一次烧录或者上电运行卡死问题分析

问题描述 单片机烧录代码(刚上电)无法立即运行,必须要复位一次或多次才能运行;跟踪调试会进入HardFault_Handler中断。 问题分析 烧录配置如下图,首先排除配置问题那么该问题就比较让人头大了,理论上&am…

Unity中 Xlua使用整理(一)

1.安装: 从GitHub上下载Xlua源码 Tencent/xLua: xLua is a lua programming solution for C# ( Unity, .Net, Mono) , it supports android, ios, windows, linux, osx, etc. (github.com) 下载Xlua压缩包,并解压将Aseet文件夹中的Xlua和Plugins文件夹复制到Unit…