03

机器人3D视觉应用案例

1.波士顿动力Atlas

Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云，点云是测距的大规模集合。Atlas 的感知软件使用一种名为多平面分割的算法从点云中提取平面。多平面分割算法的输入馈入到一个映射系统中，该系统为 Atlas 通过相机看到的各种不同对象构建模型。

下图显示了 Atlas 的视觉以及如何使用这种视觉感知来规划行为。左上角是深度相机拍摄的红外图像。主图像中的白点形成点云。橙色轮廓标记了检测到的跑酷障碍物的矩形面，随着时间的推移从传感器观察结果中对其进行跟踪。然后将这些检测到的对象用于规划特定行为。例如，绿色的脚步代表下一步要跳到哪里。

图：TOF视觉的深度感知与决策

2.特斯拉OPTIMUS

由于在电动车FSD积累的成熟的视觉感知技术，特斯拉机器人的 3D传感模块以多目视觉为主，使用三颗Autopilot摄像头作为感知系统，在采集信息后，通过强大的神经网络处理和识别不同任务，依靠其胸腔内部搭载的 FSD 全套计算机完成。

图：特斯拉的三颗Autopilot摄像头画面

3.小米CyberOne

CyberOne搭载的Mi-Sense深度视觉模组是由小米设计，欧菲光协同开发完成。由于Mi-Sense深度视觉模组的相关资料不多，所以可以从欧菲光自研的机器视觉深度相机模块进行观察。该模块主要由iToF模组、RGB模组、可选的IMU模块组成，产品在测量范围内精度高达1%，应用场景十分广泛，可通过第三方实验室IEC 60825-1认证，满足激光安全Class1标准。

图：CyberOne传感器模块

4.优必选WALKER X

优必选WALKER X采用基于多目视觉传感器的三维立体视觉定位，采用Coarse-to-fine的多层规划算法，第一视角实景AR导航交互及2.5D立体避障技术，实现动态场景下全局最优路径自主导航。WALKER应用视觉SLAM算法，视觉定位技术已经达到商用水平。

图：优必选WALKER的视觉应用

04

多模态GPT+机器人视觉，开启无限可能

在ChatGPT和GPT-4发布后，全球对于OpenAI的关注度持续提升。

GPT-4具备强大的文本和图像处理功能，而未来的GPT-5将在多模态理解方面表现更加出色，甚至能加入音频和视频的处理服务。未来多模态有望在机器人视觉领域得到广泛应用，输入输出将包括3D模型，有望赋能机器人感知、规控和仿真能力，也有望提高3D模型生产效率，助力游戏内容与元宇宙构造。

多模态AI模型有望具备与真实世界所有输入交互的能力，极大提升人形机器人的能力，加速人形机器人加速普及。

目前，虽然多模态GPT还未完全研发和应用，但类似的多模态大模型已经初显威力，吹响了多模态GPT的号角。

1.Meta SAM

Meta发布AI图像分割模型Segment Anything Model，该模型将自然语言处理领域的prompt范式引入计算机视觉领域，可以通过点击、框选和自动识别三种交互方式，实现精准的图像分割，突破性地提升了图像分割的效率。

英伟达人工智能科学家 Jim Fan 表示：「对于 Meta 的这项研究，我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念，即使对于未知对象、不熟悉的场景（例如水下图像）和模棱两可的情况下也能进行很好的图像分割。最重要的是，模型和数据都是开源的。恕我直言，Segment-Anything 已经把所有事情（分割）都做的很好了。」

所以，SAM证明了多模态技术及其泛化能力，也为未来GPT向多模态方向发展提供指引。

图：SAM的图形切割

2.微软 KOSMOS-1

微软推出多模态大语言模型 KOSMOS-1，印证大语言模型能力可延伸至 NLP 外领域。

该模型采用多模态数据训练，可感知图片、文字等不同模态输入，并学习上下文，根据给出的指令生成回答的能力。

经过测试比较，KOSMOS 在语言理解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。

专家测试了 KOSMOS-1 的不同能力，并分别与其他 AI 模型进行了对比，包括：

语言任务：语言理解、语言生成、无 OCR 文本分类（不依赖光学字符识别直接理解图中文本）
跨模态迁移：常识推理（如提问物体的颜色，问两个物体比大小，将 KOSMOS-1 和单模态的大语言模型比较，发现 KOSMOS-1 受益于视觉知识能完成更准确推理）
非语言推理：IQ 测试(如图中的图形推理)
感知-语言任务：图像描述生成、图像问答、网页问答
视觉任务：零样本图像分类、带描述的零样本图像分类(如图中的鸟类识别问题)