最近理想总裁李想在AI Talk接受采访时,说到智驾端对端解决的是L3级别问题,想要实现L4级别驾驶就需要借助VLM/VLA来实现,结合前面阐述的智驾视觉大模型推文,下面好好说说VLM和VLA。
1. VLM(Vision-Language Models)
VLM(Vision-Language Models)是结合视觉和语言信息的模型,旨在处理和理解图像和文本之间的关系。与传统的计算机视觉或自然语言处理(NLP)模型不同,VLM能够通过联合训练来处理多模态输入,通常应用于跨模态的任务,如图像描述生成、视觉问答、图像-文本匹配等。构建 VLM 涉及预训练基础模型(foundation models)和零样本学习(zero-shot learning),迁移学习技术(Transfer learning)(例如知识提炼)可用于微调模型以完成更具体的下游任务。目前 VLM 主流模型架构有 CLIP、Flamingo 和 VisualBert 等。
- 特点:
- 多模态输入:同时处理图像和文本输入,模型能够学习到它们之间的联合表示。
- 跨模态任务:常见任务包括图像描述生成、视觉问答(VQA)、图像-文本检索等。
- 融合策略:使用卷积神经网络&#x