博世(BOSCH)× Milvus:智能驾驶领域的数据挖掘革新

01.博世智能驾控:智能驾驶技术的领航者

博世(BOSCH)智能驾控是全球汽车技术领域的领导者,以其在自动驾驶技术上的创新和深厚历史而闻名。博世的自动驾驶解决方案,包括先进的驾驶辅助系统(ADAS),如自适应巡航控制、车道保持辅助和自动泊车系统等,被业界广泛认可,并被多家顶级汽车制造商采用。通过与多方的合作,博世不断将研究成果应用于实际,引领自动驾驶技术的发展。

公司汇聚了众多资深技术专家,致力于通过先进的数据处理技术,推动智能驾驶的进一步发展。

02.智能驾驶的挑战:应对无穷的“corner case”

在自动驾驶领域,"corner case"指的是那些不常见、异常或极端的交通场景,例如突如其来的大雾、暴雨、暴风雪等极端天气,或是行人、动物、非常规交通工具的意外出现。这些场景对车辆的感知系统,包括雷达、摄像头和激光雷达(LiDAR)等,提出了严峻的挑战。自动驾驶系统的开发和测试必须特别关注这些难以预测的边缘情况,以确保在各种复杂和不可预测的环境下都能安全、可靠地运行。博世智能驾控面临的主要挑战是如何高效且低成本地获取符合这些场景的图片数据集。

03.探索新境界:大模型与向量数据库的结合

那些年,博世智能在探索过程中曾经走过了这些路程:

  • 人工采集:获取数据最传统的方法就是人工采集,为了采集特定的场景数据,可能需要派出多辆数据采集车,这个过程费时低效且不一定能够轻易遇到所需场景,这意味着整个过程需要一个很长的时间周期。

  • 知识图谱:用于将特定的属性或分类标注给数据点,以便于组织、检索和分析。但是 Corner case 是无穷的,为每一种 corner case 打上独特的标签是一项巨大的挑战。

由此可见,无论人工采集还是知识图谱,都存在成本高、效率低、覆盖面有限等问题。

而随着大型预训练模型和向量数据库技术的发展,博世智能驾控开始探索新的解决方案:利用大模型对采集到的数据进行 embedding,再通过向量数据库进行高效的以文搜图或以图搜图。在这一过程中,视觉大模型 LVM(Large Vision Model)以及多模态大模型 LMM (Large Multimodal Models)被确认能够满足业务需求,而落地的真正难点则在于大规模的向量检索,接下来向量数据库就成了关键。

04.向量检索的选型之道

博世智能驾驶业务使用的预训练大模型参数量已经达到数十亿,特征维度都在1000多维以上。以1024维为例,每个特征值如果是浮点数(4字节),那么一个特征在内存中的存储就需要大约4KB。这样的存储需求在大规模数据处理时会导致资源消耗巨大,从而使存储和计算成本变得非常高。

博世智能驾控的图像数据量是巨大的,当前已经至少达到数百亿甚至千亿级别,并且还在增长。在经过基于时序分片的聚类去重后,最终需要入库检索的数据量也在十亿级别。在向量数据库的选型过程中,博世智能驾控通过引入量化索引+分片技术来降低资源消耗,同时提高数据处理的效率。其中量化索引技术更适合大规模数据高效存储和高维特征的索引策略。而分片技术适应数据规模的增长,从而使得大规模的实时检索成为可能,同时提高了计算资源的利用效率。团队做了以下尝试或者调研:

  • 在nlp领域,智能问答知识库召回场景很多都采用了 HNSW 图索引,这是一种广泛使用的索引方法,它虽然简单易用,但需要将原始的高维特征直接存储进算法库,资源消耗量巨大,成本极高。

  • 很多传统向量搜索采用的是在结构化数据库中加入向量字段。对于量化索引算法,在分片更新后都需要重新训练码本(codebook),这增加了实现的复杂度。因此,市场上开源的传统数据库中引入的向量检索功能,基本都只支持HNSW索引,无法满足博世大规模底库的检索需求。

博世智能资深技术专家张工说到:“我们需要的是一种能够适应大模型和复杂搜索需求的索引技术,它应该能够减少训练成本,提高更新效率,并能够灵活应对不断变化的数据和查询需求。”

因此,一个专门的向量数据库才有可能满足博世智能的业务场景需求,在实践比对筛选后,Milvus 脱颖而出。

注:基于大模型+Milvus的coner case数据挖掘架构示意

Milvus 能够处理高维度数据,支持百亿级向量的毫秒级搜索,因此面对博世智能当前数十亿及未来不断增长的海量数据,依然可以保持高性能。更重要的是,Milvus 的量化索引技术大幅降低了存储和计算资源的消耗,使得博世智能在处理大规模数据集时更加得心应手。

1.成本效益:

  • 数据采集成本降低80%:通过 Milvus 的高效检索能力,博世智能驾控能够从已有的数据库中挖掘出70%-80%所需场景,这大幅减少了重新采集数据的成本。同时,使用 Milvus 进行向量搜索,如果所需数据已经存在于数据库中,就可以实现几乎即时的数据获取,数据挖掘效率也得到了大幅提升。张工举例说,如果今天提出了一个数据需求,当天就可能通过意图搜图/文本搜图搜索得到所需的场景数据。这种搜索方式极大提高了数据处理的效率,对业务流程产生了显著的积极影响。

  • 每年数据存储成本减少近千万:因为极大的减少了外采的数据,数据存储的成本就降了下来,“这部分成本是非常夸张的。如果一个企业每一年全靠自己出去采的数据,可能云成本都是要花到接近千万起的。”张工说道。

  • 搜索效率优化:Milvus 的量化索引技术大幅降低了存储和计算资源的消耗。在处理大规模数据集时,博世智能驾控不再受限于传统数据库的性能瓶颈,能够更加灵活和高效地进行数据处理。Milvus 还提供了分段以及分片的搜索方法,这样的效率更高,能够解决业务当前面临的痛点,特别是在处理大规模数据和高维度特征数据时。

2.利于业务拓展的弹性架构——数十亿数据毫秒级检索

目前博世智能驾控的自动驾驶业务架构也是基于云服务,而 Milvus 的云原生架构也简化了许多流程,使得部署过程相对容易。此外,Milvus 的云原生架构也展现出了良好的扩展性,这对于博世智能这种数据规模已经达到数十亿的业务来说至关重要。当需要扩容时,Milvus 能够一键扩容。更重要的是,根据实际生产环境验证,随着业务的扩展,搜索速度依然保持在毫秒级,“我们测过数十个并发搜索,根本感觉不到搜索速度变慢”,张工如是说。

3.活跃的社区服务

Milvus 是全球最受欢迎、迭代最快、架构最成熟的开源向量数据库,拥有最大的中国及海外用户及开发者社区。“我觉得还有一点做的非常好的是 Milvus 社区非常活跃。”张工表示,之前也遇到过一些问题,“在 Milvus 社区里面一反馈,立马就得到响应。这点我觉得也做的非常好。”

4.未来探索——基于多向量列+混合搜索的向量数据库应用

为了保证每个场景的多样性,需要上万张样图数据,这样才可以保证数据集的多样性。目前业务会优先用文本搜图,当文本搜索结果不理性的状态下再去以图搜图。

而随着 Milvus 对多向量列及混合检索的支持,按需搜图变得更有可能性,比如用天气图片叠加锥桶图片可以搜索出各种天气下的锥桶路况图,也可以用三角路牌叠加描述文字来搜索出不同示警功能的路牌。这也是未来 Milvus 和博世智能共同去探索的方向。

05.Milvus在智能驾驶领域的无限潜力

Milvus 不仅仅是一个工具,它更像是博世智能驾控在智能驾驶领域的一位战略伙伴。通过Milvus,博世智能驾驶业务能够更深入地理解和利用数据,从而在智能驾驶的赛道上占据先机。Milvus 的引入,让博世智能驾控在数据处理上实现了质的飞跃,从数据采集到处理,再到最终的应用,每一个环节都变得更加高效和精准。期待将 Milvus 的更多创新技术运用到博世智能驾驶业务的未来业务规划中,通过技术创新,让驾驶更安全、更智能、更便捷。

作者介绍:高甜甜,Zilliz Product Marketing Manager

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/403970.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构与算法】归并排序

归并排序目录 一.归并排序的原理二.有序的归并实现三.无序的归并实现(分治法)四.归并排序的实现五.完整代码 一.归并排序的原理 如何将这两个数组排序? 二.有序的归并实现 将一个数组分为两段,那边的值小就加入到新数组中,直到一边已经加完了. 有一种情况就是一边已经加入…

骑行耳机哪个牌子好用?选购骑行耳机需要注意的五大选购陷阱!

作为一名有着多年骑行经验的专业评测师,对骑行装备已经有着超过五年的研究,骑行耳机也不例外,期间也是亲身测试了数十款骨传导耳机,可以说骑行耳机是专为骑行爱好者设计的,不需要入耳佩戴,而且佩戴舒服&…

基于云快充协议1.5-1.6版本的充电桩系统软件-充电桩系统 -新能源车充电平台源码

介绍 SpringBoot 框架,充电桩平台充电桩系统充电平台充电桩互联互通协议云快充协议1.5-1.6协议新能源汽车二轮车公交车二轮车充电-四轮车充电充电源代码充电平台源码Java源码 充电桩平台充电桩系统充电桩小程序充电桩管理系统充电桩项目充电桩协议充电桩微信小程序S…

鸿蒙开发入门day10-组件导航

(创作不易,感谢有你,你的支持,就是我前行的最大动力,如果看完对你有帮助,还请三连支持一波哇ヾ(@^∇^@)ノ) 目录 组件导航 (Navigation) 设置页面显示模式 设置标题栏模式 设置菜…

整数分解5.3.2

题 前面写过逆序的 最后一个数后面不要有空格 #include <stdio.h>int main() {int x;scanf("%d",&x);int d;do{dx%10;printf("%d",d);if(x>10){printf(" ");}x/10;}while(x>0);printf("\n");return 0; } 现在这个是…

Linux网络:基于OS的网络架构

Linux网络&#xff1a;OS视角下的网络架构 网络分层模型OSI 七层模型TCP/IP 五层模型 协议操作系统与网络网络相关命令ifconfigpingnetstat 本博客将基于操作系统&#xff0c;讲解计算机网络的设计理念&#xff0c;帮助大家理解操作系统与网络之间的关系。 网络分层模型 网络…

Positional Encoding | 位置编码【详解】

文章目录 1、位置编码的2种方案2、位置编码3、公式详解 &#xff1a; 绝对位置 、 相对位置4、代码4.1 代码14.2 代码2 1、位置编码的2种方案 transformer的作者刚开始说固定的位置编码和可学习的位置编码的效果是差不多的&#xff0c;后来证明可学习的位置编码没有太大的必要&…

系统工程与信息系统(上)

系统工程 概念 【系统工程】是一种组织管理技术。 【系统工程】是为了最好的实现系统的目的&#xff0c;对系统的组成要素、组织结构、信息流、控制机构进行分析研究的科学方法。 【系统工程】从整体出发、从系统观念出发&#xff0c;以求【整体最优】 【系统工程】利用计算机…

Oracle 12.2集群搭建遇到ORA-ORA-15227,ORA-15031,ORA-15018问题处理

报错&#xff1a; [FATAL] [DBT-30056] Labeling of disks failed. ORA-15227: could not perform label set/clear operation ORA-15031: disk specification /dev/asmdisk/ocr01 matches no disks [FATAL] [DBT-30002] Disk group OCR creation failed. ORA-15018: diskgrou…

(javaweb)SpringBootWeb案例(毕业设计)案例--部门管理

目录 1.准备工作 2.部门管理--查询功能 3.前后端联调 3.部门管理--新增功能 1.准备工作 mapper数据访问层相当于dao层 根据页面原型和需求分析出接口文档--前后端必须遵循这种规范 大部分情况下 接口文档由后端人员来编写 前后端进行交互基于restful风格接口 http的请求方式…

K8s部署安装

一.K8s简介 Kubernetes&#xff08;通常缩写为K8s&#xff09;是一个开源的容器编排平台&#xff0c;用于自动化容器化应用的部署、扩展和管理。它最初由Google开发&#xff0c;现在由云原生计算基金会&#xff08;CNCF&#xff09;维护。Kubernetes 的核心目标是提供一个一致…

奇迹世界2单机版安装教程+GM工具+无虚拟机

今天给大家带来一款单机游戏的架设&#xff1a;奇迹世界2单机版。 另外&#xff1a;本人承接各种游戏架设&#xff08;单机联网&#xff09; 本人为了学习和研究软件内含的设计思想和原理&#xff0c;带了架设教程仅供娱乐。 教程是本人亲自搭建成功的&#xff0c;绝对是完整…

中职物联网实训室

一、中职物联网实训室建设背景 在当今科技日新月异的浪潮中&#xff0c;物联网技术以其迅猛的发展势头&#xff0c;成为了撬动数字化转型的关键杠杆&#xff0c;深刻地重塑着经济社会的面貌。面对这一变革&#xff0c;社会对精通物联网技术的应用型人才需求激增。鉴于此&#x…

Linux-DNS域名解析服务

系列文章目录 提示&#xff1a;仅用于个人学习&#xff0c;进行查漏补缺使用。 1.Linux网络设置 2.LinuxDHCP服务 提示&#xff1a;写完文章后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 系列文章目录前言提示&#xff1a;以下是本篇文章…

职业教育嵌入式实验室|嵌入式系统实验室|嵌入式实训室建设方案

一、建设背景 在数字化浪潮的推动下&#xff0c;我们已迈入一个以信息技术为主导的崭新时代。在这个时代&#xff0c;嵌入式系统不仅是智能设备和应用的核心&#xff0c;更是推动各行各业创新和变革的关键力量。无论是智能家居的便捷生活体验&#xff0c;工业控制的精确操作&a…

Kafka运行机制(一):Kafka集群启动,controller选举,生产消费流程

前置知识 Kafka基本概念https://blog.csdn.net/dxh9231028/article/details/141270920?spm1001.2014.3001.5501 1. Kafka集群启动 Kafka在启动集群中的各个broker时&#xff0c;broker会向controller注册自己&#xff0c;并且从controller节点同步集群元数据。 broker是Kaf…

《深入浅出多模态》(九)多模态经典模型:MiniGPT-v2、MiniGPT5

🎉AI学习星球推荐: GoAI的学习社区 知识星球是一个致力于提供《机器学习 | 深度学习 | CV | NLP | 大模型 | 多模态 | AIGC 》各个最新AI方向综述、论文等成体系的学习资料,配有全面而有深度的专栏内容,包括不限于 前沿论文解读、资料共享、行业最新动态以、实践教程、求职…

数字化转型对金融服务业的影响

数字化转型正在塑造每个行业&#xff0c;从快速消费品到金融&#xff0c;每个行业都受到新兴技术的影响。 那么&#xff0c;数字化转型在金融服务中扮演什么角色&#xff1f;这对招聘前景有何影响&#xff1f; 我们探讨了数字化转型对该行业的影响、其对招聘策略的影响、数据…

Nios II的BSP Editor

1.菜单打开BSP Editor &#xff08;1&#xff09; &#xff08;2&#xff09; &#xff08;3&#xff09; 项目文件夹 -> software文件夹 -> ... _bsp文件夹 -> settings.bsp文件 2.文件打开BSP Editor 选中项目文件&#xff0c;右键&#xff0c;Nios II -> …