作者 | 刀刀宁 编辑 | 汽车人
原文链接:https://zhuanlan.zhihu.com/p/619797754
点击下方卡片,关注“自动驾驶之心”公众号
ADAS巨卷干货,即可获取
点击进入→自动驾驶之心【AIGC】技术交流群
大模型时代,是危机时代。
但危机,
既有危险,又有机遇。
这一波危机不仅仅是说 ChatGPT 像付款二维码一样代替了银行柜员和超市收银员,也不仅是说目前肉眼可见即将的代替了插画师和一般文案员,而是它甚至有可能从抢掉——那些原本准备通过自己掌握的引以为傲的高科技算法去替代别人工作的——算法工程师的饭碗。因为模型可能不用自己训练了,大模型都训练好了,算法逻辑不需要自己写了,大模型都帮你把 pipeline 搞完了。
这是危。
五年前互联网上,如今天一样喧嚣甚上出租车司机卡车司机被替代掉了的声音,但是在五年后替代性的自动驾驶并没有如约而至,甚至还早得很。不过, L2 级别驾驶辅助系统在新车出厂前的加装比例,是肉眼可见的。这五年,自动驾驶也在各种试错中得到了足够的验证,研发流程和迭代路径也是清晰的,只需静待花开。并且,自动驾驶算法工程师也还有工作,该成长的还是成长了。这说明,在如此复杂的世界中,科技的进步也是遵守着客观规律的,人类也会逐步适应客观规律找到应对之道,甚至借势形成突破。
这是机。
大模型时代的算法演化特点
先看一下大模型出现前深度学习人工智能算法的发展基础,也就是我们常说的三驾马车:算法、数据、算力。从本质上说,我认为大模型的发展完全没有偏离这三驾马车。
那么,推动大模型发展的本质又是什么呢?简单说就是大。
一只蚂蚁啃到死也啃不完一根鸡腿,但是有成千上万只的一窝蚂蚁啃上一天可能就能啃完啃干净了,事实上这里每一只蚂蚁和原来啃不完的那一只蚂蚁并没有任何区别。但是大规模的个体组合就完成了单一个体无法完成的工作。
这在科学上被称为涌现。
大模型现在就是通过更强的算法(Transformer + RLHF + prompt 等,还有更大的模型参数量)、更海量的数据(以及更加均匀的数据分布和难样本的覆盖度)、更强大的硬件算力(数据中心都不够),在极大的规模效应下,实现了这波人们肉身可以直接感知到的技术涌现—— ChatGPT 。
赤裸裸的现实是,普通人唯一能学的可能只能是算法,甚至可能还变简单了,因为都被开源出来了。当然底层的积累和经验,该学不来的一样还是很难学得来。
而且,对于数据和算力,如果我们是一只蚂蚁,全球性海量的数据就如同摆在我们面前的火鸡腿、大象腿、恐龙腿,数据中心规模的算力更加是一个烧钱不见眨眼的存在。
甚至,大模型所需要的数据规模,到上限了吗?肯定还是没有的,人们还可以继续堆更多数据和显卡。
所以,非国家层面(包括巨型商业公司和投资机构等等)的大模型训练暂时就不用想了。
但是,不训练同等规模的模型也有很多新玩法。
大模型当前的短板
目前大模型的核心能力还是聚焦在 AIGC 的生成范式上,关键词是生成,也就是从无到有产生一些新的内容,生成并不是什么新鲜事,之前的模型也能生成。这一轮的本质区别在于生成内容的上下文信息更加充分、记忆力更好、逻辑链更长,推理逻辑更合理,简单说就是看起来更像个人。
但是其计算带有模糊性,能力不可控(主要是说有的时候比较差),任务目标能力不聚焦等明显短板。原因是因为之前大部分任务都是有明确问题定义的判别式任务,而生成式任务没有明确的定义。
而现在很多人工智能应用还是明确定义的,比如人脸识别、比如检测报警等等,因此生成式人工智能方法暂时还并不能直接应用到所有应用中来。目前有钱有人有积累的机构还是在做各种尝试,其方法会套用 AIGC 的基本方法,在相关的确定性领域形成新的突破。比如 meta(Facebook)今天发布的 Segment Anything SAM 这样的应用,就是在 CV 机器视觉领域的基础问题上发力。通过 prompt 的交互机制,在引导步骤之中把整体不确定的生成式模型转变成了局部确定性问题,也就是说,一开始模型说我什么都能干但是我不会什么都给你不过我会根据你想要什么确定最终的输出。
因此接下来,很多更好的工作都将逐步出现,更加精准的语义文本生成,更加好看的模糊抽象概念图像生成,以及当前暂时还无法覆盖到的,如其他更加精准的图像任务、3D 结构化图像任务,以及基于精准行为的强化学习任务,都会逐渐在学术界和工业界被更多的研发并且开源出来,逐步克服当前的短板,并形成新的能力和应用。
未来一段时间,还将更加精彩纷呈。
可能的机会路径
机会是很多的,今天先列在这里,暂时先不展开说了。本文还是想先讨论当前已经发展的比较成熟的算法研发岗位在大模型时代的范式变化。
基础性科学研究(没有数据和算力也玩不动)
开放条件下在各个垂直应用领域用好别人开放出来的 API ,也就是做好 wrapper
非开放条件下做好没那么大规模的专用模型的平替
算力和基础设施优化
不管哪个路径下,算法工程师的工作范式都要发生变化
或多或少。
算法工程师原有范式大部分是这样的:self owned dataset + self owned models ,以后我们会越来越离不开大模型,范式可能变成:large foundation model + smaller self owned dataset + smaller pretrain models + prompt 。
本质上,大模型作为地基提供了一只蚂蚁所不能获取的海量数据和算力的一种抽象,也就是你身边多了一个什么都见过什么都懂的军师,你可以随时咨询它问题,通过手工的或者自动化的 prompt,汲取它已经消化吸收过的知识。落到技术层面,除了 prompt 之外还有传统的 finetuning、distill 等等来完成,我们都将获取比自己训练更加有泛化能力的模型。
当你有了这个军师辅助之后,你可以将精力更多聚焦在你的应用层面,更好研究客户和行业的需求,创造新的可能性。
如果继续用蚂蚁来打比方,这就好比我们以后都是蚁后了,大模型就像工蚁一样天天外出觅食消化之后存在身体里,我们饿的时候就找他们来喂我们。而我们就不用自己去觅食了,而是通过信息素控制好工蚁别造反,同时做好我们自己的事情——生产更多工蚁。这看起来很像一种#另类蚁群算法#。
什么东西变了?
研发流程会发生变化,身处其中的算法工程师的位置大致也会发生变化。
场景一:可能你辛辛苦苦几天几夜调参获取的模型发现还不如开源模型做的好。
所以,要么你得更懂怎么利用别人的大模型,抽取你的模型需要的知识;要么你得更懂数据,用更多更牛逼的工具获取、清洗、标注、修正、评价你的数据;要么你得更懂产品,结合上下游需求给出更好的解决方案;当然,可能有一些论文的工作,就彻底没有了价值。
场景二:可能你发现你熟练掌握的 SSD/YoloV-n 等等检测方法,某一天突然被一个道理上更难的任务,比如 segmentation 大模型下的分割任务(分割结果的最小外接 bbox 就是检测结果)给降维打击了。
所以,跟紧 github 上最新的项目,可能变成了当务之急;工具都给你摆在面前了,能不能用好也是一种能力;并且你还会发现新工具除了好用之外,还会变得越来越有趣;
场景三:可能你发现如何和大模型对话交流,增加 prompt 提示交互的能力,更加重要了。
所以,技能树好像要换个方向去点,如何训练巴浦洛夫的狗或者小朋友学数学题的技能可以派上用场了(当然我们可能会觉得这个技能呢,好像更难);再比如说我们发现大模型明显存在一些问题的短板,比如某些版本的大模型可能就是回答不出来一些具体的强逻辑性问题,那么遇到这些问题可能就不要寻求大模型来帮忙了,老技能又能派上用场了;
所以,会出现的新的工作岗位有:
使用大模型来生产数据的数据工程师
使用大模型来 prompt/finetuning 平替模型的迁移算法工程师
如何加速大模型的基础架构和偏底层加速的工程师
对新范式更加适应的算法研发与产品管理经理与 team leader
举个栗子:
今天伴随 SAM 发布的评论就是:图片平均尺寸 3300x4950,平均每张图片 100 个 masks,masks 数量是其他数据集的 400 倍,如果按照传统的标注方法,一个 mask 1 毛钱,标注成本 1 亿。以后就是数据为中心的时代,算法工程师的主要内容“获取高质量数据,高效标注数据”。
而我这些天一直在思考的如何通过大模型来替换掉实际中的人工标注图片的这件事情,就可以用 SAM 这样的大模型来帮忙。我们都知道,具体垂直场景下,大模型终究还是存在不足,原来的人工标注范式也还是一定会有它的意义。所以,既然不能全部替代掉,两者结合的工作其实就可以迅速展开起来了。不过有个方向却是确定的:要么将会用更少的人做一样的事情,要么就是用现有的人去做更多的事情。
通过 prompt ,数据工程师逐步引导大模型进入一种和场景预期一样的输出范式中,在特殊情况下通过 prompt 告知模型它前续任务的错误,让它自己修正,逐步规范出来一个完全可用的标注方法,就可以进入批量标注模式了。人工再负责最后的品控即可。如果以上方式产生的问题太多,精度依旧不高的话,还可以通过 finetuning 的方式再修正我们自己手头的平替模型。再逐步迭代。
这还是标注已有数据的问题,如果还想继续做正态分布到平均分布的数据筛选工作,甚至做数据生产和数据采集工作,就又要换一个思路了,这里先按下不表,不过大模型依旧可以发挥很大的作用。
以上整个流程,还是需要重新设计和开发的。担心还是有的,因为是有点不敢做确定性的设计,生怕哪天哪家大厂就发布了什么新的牛逼的工具。
什么东西没变?
当前趋势的本质是人们在社会分工中成功的拆解掉了一部分算法工作,形成了一个新的工种只不过这个工种是机器人,或者理解为又有一部分工作上云了。这种社会分工最终会成为一种新的稳定生态,人和机器各得其所。
但是,算法研发依旧是一个逻辑链条和流程都比较长的工作, 大模型依旧是工具,工具不可能把 end2end 的全流程都给你替换掉,首先一头一尾,就比方说定义问题和产品交付还都是独立的问题。并且,研发范式中增加大模型之后,逻辑链条还会变得更长,可能性会变的更多。
所以,对一个人解决实际问题能力的要求没有变,如何将实际复杂问题建模并拆解成适合难度子问题逐个解决的能力不变,如何应对新出现问题的能力;对有基础扎实、思路清晰、有系统做事方法论、有很强的工程能力和学习能力的人需求反而会更加强烈。
同时,应用没变。
人工智能应用的需求方对智能产品的应用需求,没有发生太多变化。因为现状是,人们对人工智能产品的很高期望,和算法研发无法达成之间的矛盾。所以你会发现,其实更强的大模型出现是好事,因为我们现在底层的工具变的更强了,就看谁能把这些工具用的更好了,所以应用落地的速度会提速。
还有,就是只能倔强的说,拥抱变化的态度是不变的。
(一)视频课程来了!
自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频,欢迎大家自取(扫码进入学习)
(扫码学习最新视频)
视频官网:www.zdjszx.com
(二)国内首个自动驾驶学习社区
近1000人的交流社区,和20+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!
(三)【自动驾驶之心】全栈技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向;
添加汽车人助理微信邀请入群
备注:学校/公司+方向+昵称