从自动化时代到智能化时代,人工智能潜在的价值规模迅速扩张。如何将潜在的应用价值落到现实场景是摆在一众AI企业面前亟待破解的难题。
数据资源场景单一且有限、算力资源存在上限且成本高企、高端人才稀缺等问题无一不在阻碍AI产业的规模化商业落地。
而伴随着以ChatGPT为代表的大模型应用热潮的兴起,预训练大模型为解决上述问题提供了一条现实可行的技术路径,成为一张AI企业都想抓在手中的奔向“新世界”的船票。
相较于过往技术路径,预训练大模型可以大幅降低企业使用AI技术的门槛与成本,使应用场景从“单点专用”拓展到“点线面协同”,从而挖掘数据在行业应用中潜在的巨大价值。
从NLP到CV
提及大模型,就绕不开当前火热的ChatGPT。这款去年11月30日正式上线的应用迅速掀起新一轮AI应用热潮,其背后采用的Transformer模型更是成为学术界与产业界关注的焦点。
据悉,GPT采用的为主流Transformer模型,该模型使用自注意力机制,在NLP上表现优于RNN(循环神经网络)。在NLP方面,Transformer模型的自注意力机制可以为输入序列中的任意位置提供上下文,模型因此可以一次性处理所有输入数据。相较于RNN一次只能处理一个单词的情况,Transformer模型处理速度更快,可以大幅减少训练时间,并能够在更大规模的数据集上进行训练。目前,基于Transformer的预训练语言模型已成为NLP领域的主流。
事实上,大模型除了在NLP领域大放异彩外,其还可以应用在CV计算机视觉领域。计算机视觉常见的各类场景诸如图像识别、目标检测、语义分割、三维视觉等,也可以应用注意力机制,CV大模型(也称“大规模预训练计算机视觉模型”)应运而生,比较著名的是谷歌大脑在2020年推出的视觉Transformer(ViT)。
目前CV大模型主要应用领域包括图像识别、图像处理、视觉理解、视觉感知等多个方向,具体应用案例诸如利用2D图像序列生成3D场景,并在点云中检测目标等等。不过相较于NLP领域,CV大模型目前尚处于初步探索阶段。
基于预训练大模型的AI自动标注
自动驾驶主要以计算机视觉场景为主,其最大特点是场景复杂多变,这催生了应对海量数据处理与Corner Case问题的迫切需求,同时也推动了算法从专用小模型向通用大模型的快速演进。
算法开发需要面对海量数据以使自动驾驶系统更加安全可靠,这样的需求下,相较于传统小模型,大模型可以更好地处理大规模数据与高复杂度的任务。
作为行业领先的自动驾驶数据标注服务企业,曼孚科技始终关注前沿科技发展趋势,在大模型研发方面已持续投入多年,并成功应用在AI自动标注等领域。
相较于市面上存在的其他AI标注算法,曼孚科技AI预标注算法应用预训练大模型,具备较好的知识完备性,精度高,泛化能力强。
具体优势体现在:
1、大模型可以高效应对AI领域的任务Domain之间切换,在海量数据集上进行训练和优化,具有较好的知识完备性,精度高,泛化能力强;
2、大模型可以通过蒸馏、知识迁移等方法迅速提升下游任务小模型的能力,一般在下游任务中基于少量数据进行微调就可以获得较好的效果;
3、大模型可以通过自动标注等方法为小模型生产出更具有针对性的数据,供小模型学习,减少对下游任务数据标注成本的要求,减少开发和迭代成本;
4、大模型的Backbone(基础网络部分)一般可以使用无监督/自监督的方式在大规模的数据集上进行预训练;
5、大模型可融合多模态数据,能有效集成NLP、视觉、语音等源数据,实现1+ 1>2的效果,进一步提升AI模型的知识完备性。
当然,应用大模型也存在一些挑战:
1、大模型训练对于算力硬件的要求较高,对于AI框架的优化和高度并行计算能力有很大要求;
2、大模型的训练技术要求较高,例如如何设计训练策略、初始化参数、模型收敛等;
3、大模型一旦确定技术路线,后续切换模型成本较高等。
目前,曼孚科技预训练大模型在持续投入研发多年以后,已广泛应用于自动驾驶AI自动标注算法中,包括但不限于2D图像、3D点云等具体标注场景。
1、2D图像与视频交互式分割(通用场景):
2、2/3D融合自动标注
给定3D驾驶场景点云(连续帧序列)和对应的多视角Camera图像,对点云/Camera中的车辆、行人、道路标识等进行检测给出检测框,并针对运动物体给出运动信息预测:
上述基于预训练大模型的AI自动标注算法已应用于数个项目中。经过实际测算显示,相较于人工标注,AI自动标注可提效数倍至数十倍,同时大幅降低数据生产成本,满足自动驾驶落地应用对于海量高质数据的急迫需求。
未来,曼孚科技将继续专注于产品技术研发,持续完善基于预训练大模型的AI自动标注算法,提升场景适配度与精准度。在边标边训等更多技术辅助下,实现覆盖自动驾驶各细分标注场景,助力自动驾驶早日规模商用落地。