机器人视觉梳理(下)

原创 | 文 BFT机器人 

03 

机器人3D视觉应用案例

1.波士顿动力Atlas

Atlas 使用 TOF 深度相机以每秒 15 帧的速度生成环境的点云,点云是测距的大规模集合。Atlas 的感知软件使用一种名为多平面分割的算法从点云中提取平面。多平面分割算法的输入馈入到一个映射系统中,该系统为 Atlas 通过相机看到的各种不同对象构建模型。

下图显示了 Atlas 的视觉以及如何使用这种视觉感知来规划行为。左上角是深度相机拍摄的红外图像。主图像中的白点形成点云。橙色轮廓标记了检测到的跑酷障碍物的矩形面,随着时间的推移从传感器观察结果中对其进行跟踪。然后将这些检测到的对象用于规划特定行为。例如,绿色的脚步代表下一步要跳到哪里。

图:TOF视觉的深度感知与决策

2.特斯拉OPTIMUS

由于在电动车FSD积累的成熟的视觉感知技术,特斯拉机器人的 3D传感模块以多目视觉为主,使用三颗Autopilot摄像头作为感知系统,在采集信息后,通过强大的神经网络处理和识别不同任务,依靠其胸腔内部搭载的 FSD 全套计算机完成。

图:特斯拉的三颗Autopilot摄像头画面

3.小米CyberOne

CyberOne搭载的Mi-Sense深度视觉模组是由小米设计,欧菲光协同开发完成。由于Mi-Sense深度视觉模组的相关资料不多,所以可以从欧菲光自研的机器视觉深度相机模块进行观察。该模块主要由iToF模组、RGB模组、可选的IMU模块组成,产品在测量范围内精度高达1%,应用场景十分广泛,可通过第三方实验室IEC 60825-1认证,满足激光安全Class1标准。

图:CyberOne传感器模块

4.优必选WALKER X

优必选WALKER X采用基于多目视觉传感器的三维立体视觉定位,采用Coarse-to-fine的多层规划算法,第一视角实景AR导航交互及2.5D立体避障技术,实现动态场景下全局最优路径自主导航。WALKER应用视觉SLAM算法,视觉定位技术已经达到商用水平。

图:优必选WALKER的视觉应用

04

 多模态GPT+机器人视觉,开启无限可能

在ChatGPT和GPT-4发布后,全球对于OpenAI的关注度持续提升。

GPT-4具备强大的文本和图像处理功能,而未来的GPT-5将在多模态理解方面表现更加出色,甚至能加入音频和视频的处理服务。未来多模态有望在机器人视觉领域得到广泛应用,输入输出将包括3D模型,有望赋能机器人感知、规控和仿真能力,也有望提高3D模型生产效率,助力游戏内容与元宇宙构造。

多模态AI模型有望具备与真实世界所有输入交互的能力,极大提升人形机器人的能力,加速人形机器人加速普及。

目前,虽然多模态GPT还未完全研发和应用,但类似的多模态大模型已经初显威力,吹响了多模态GPT的号角。

1.Meta SAM

Meta发布AI图像分割模型Segment Anything Model,该模型将自然语言处理领域的prompt范式引入计算机视觉领域,可以通过点击、框选和自动识别三种交互方式,实现精准的图像分割,突破性地提升了图像分割的效率。

英伟达人工智能科学家 Jim Fan 表示:「对于 Meta 的这项研究,我认为是计算机视觉领域的 GPT-3 时刻之一。它已经了解了物体的一般概念,即使对于未知对象、不熟悉的场景(例如水下图像)和模棱两可的情况下也能进行很好的图像分割。最重要的是,模型和数据都是开源的。恕我直言,Segment-Anything 已经把所有事情(分割)都做的很好了。」

所以,SAM证明了多模态技术及其泛化能力,也为未来GPT向多模态方向发展提供指引。

图:SAM的图形切割

2.微软 KOSMOS-1

微软推出多模态大语言模型 KOSMOS-1,印证大语言模型能力可延伸至 NLP 外领域。

该模型采用多模态数据训练,可感知图片、文字等不同模态输入,并学习上下文,根据给出的指令生成回答的能力。

经过测试比较,KOSMOS 在语言理解、语言生成、无 OCR 文本分类、常识推理、IQ 测试、图像描述、零样本图像分类等任务上都取得了相比之前其他单模态模型更好的效果。

专家测试了 KOSMOS-1 的不同能力,并分别与其他 AI 模型进行了对比,包括:

  • 语言任务:语言理解、语言生成、无 OCR 文本分类(不依赖光学字符识别直接理解图中文本)

  • 跨模态迁移:常识推理(如提问物体的颜色,问两个物体比大小,将 KOSMOS-1 和单模态的大语言模型比较,发现 KOSMOS-1 受益于视觉知识能完成更准确推理)

  • 非语言推理:IQ 测试(如图中的图形推理)

  • 感知-语言任务:图像描述生成、图像问答、网页问答

  • 视觉任务:零样本图像分类、带描述的零样本图像分类(如图中的鸟类识别问题)

图:KOSMOS-1 的多种能力展示,包括:(1-2)视觉解释(3-4)视觉问答(5)网页问题解答(6)简单数学方程(7-8)数字识别

05 

机器人视觉与多模态GPT之间的交互关系

1.机器人视觉为多模态GPT提供大量训练样本

由于GPT是大规模模型,模型的训练需要很大数量的样本,而四处活动的机器人可以获取大量图片、视频等信息,可以作为GPT的训练样本。

特斯拉的Optimus机器人在训练视觉算法时,采用的数据集来自于特斯拉自动驾驶电动车采集的大量图像信息,这些自动驾驶带来的样本量远大于人工采集的样本量。同理,训练GPT模型时,可以使用高度自动化的机器人采集的各种情形下的图像信息作为训练样本,满足GPT模型对大规模数据量的需求。

2.GPT为机器人提供与人类交互的能力,间接带动机器人视觉产品的起量

GPT为机器人带来的最核心的进化是对话理解能力,具备多模态思维链能力的GPT-4模型具有一定逻辑分析能力,已不再是传统意义上的词汇概率逼近模型。

机器人接入GPT的可以粗略分为L0~L2三个级别:

  • L0是仅接入大模型官方API,几乎没有做二次开发,难度系数较低;

  • L1是在接入大模型的基础上,结合场景理解满足需求做产品开发,这才达到及格线;

  • L2则是接入大模型的机器人企业基于本地知识做二次开发,甚至得到自己的(半)自研大模型(平民化大模型),解决场景问题,产品能做出来、卖出去,这才达到优秀线。

图:接入GPT的Ameca机器人的情绪表达

用好GPT只是技术的一部分,更大的难度在于机器人本身。

如果机器人本身的传感器不能获取最准确的语音、图片、视频等信息,接入的GPT模型就很难达到期望的效果。虽然接入GPT应用的接口只是一瞬间的事,但打好机器人“身体底子”、进一步叠技能却仍是一件难度较高的事,不是人人都具备“入场券”,能推出最先进的机器人视觉产品的厂商将在新机器人市场取得主动权。

文章参考:热点投研

编辑:BFT机器人

更多精彩内容请关注公众号:BFT机器人
本文为原创文章,版权归BFT机器人所有,如需转载请与我们联系。若您对该文章内容有任何疑问,请与我们联系,将及时回应。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/57864.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FinTech普惠中国,技术创新智慧杭州

2017中国FinTech大会暨中国FinTech领军企业颁奖盛典 9月10日,“2017中国FinTech大会暨中国FinTech领军企业颁奖盛典”在杭州海外海皇冠大酒店隆重举办。本次大会由科技部现代服务产业联盟、中国FinTech百人会、中国首席技术官联盟联合主办,CCTV证券资讯…

2021第一季度云智能生态技术服务能力盘点

简介:为更好的让大家了解阿里云技术服务人才的能力,阿里云从技术服务培训认证的视角,持续就阿里云生态技术服务能力进行总结和盘点,便于各生态伙伴、云计算技术服务者、开发者了解。2021年第一季度,我们推出特别篇——…

移动互联智慧杭州、技术精英引领中国

2017中国(杭州)移动互联网大会暨中国首席技术官大会正式闭幕。 9月22日,“2017中国(杭州)移动互联网大会暨中国首席技术官大会”在杭州国际博览中心,即G20会场隆重举办。本次大会由中国首席技术官联盟、科…

无人驾驶时代的室外组网技术研究

无人驾驶时代的室外组网技术研究 车载自组网车载自组网简介车载自组网特点车载自组网组成及建构 主流自组网通信方式ZigBeeWIFIBlue ToothWiMAXDSRC4G/5G 参考文献 车载自组网 车辆通信网络就是在汽车上装载移动通信设备,为高速行驶中的车辆提供一种高速率的宽带无…

前加绩中国、信雅达高级全栈工程师:吴劲松

他是一名不甘平凡的开发者,通过自考上了中国科学技术大学的软件工程专业。曾就职过科大讯飞、信雅达、加绩中国等等知名开发公司,精益求精是他的开发理念,刻苦钻研是他的开发精神,坚持学习是他成长的轨迹,他就是本期程…

chatgpt赋能python:如何将Python改成中文

如何将Python改成中文 Python是一种广泛使用的编程语言,但默认情况下是英文界面。对于非英语母语国家的程序员来说,使用Python的过程中可能会遇到许多不方便之处,因此将Python改成中文是很有必要的。本文将介绍如何将Python改成中文&#xf…

chatgpt赋能python:Python创建对话框的完整指南

Python创建对话框的完整指南 Python是一种著名的高级编程语言,它拥有丰富的库和模块。在Python中,我们可以使用GUI(图形用户界面)编写应用程序并与用户交互。在这篇文章中,我们将介绍如何在Python中创建对话框&#x…

Taro 项目实现更改微信头像,使用七牛上传图片

一、效果图 二、taro 提供了选择图片的接口 https://taro-docs.jd.com/taro/docs/apis/media/image/chooseImage // 文档提供的示例 Taro.chooseImage({count: 1, // 默认9sizeType: [original, compressed], // 可以指定是原图还是压缩图,默认二者都有sourceType…

微信8.0内测更新!!!(附内测体验资格)

微信IOS版刚刚正式发布了8.0 在苹果AppStore里面即可下载 微信的大版本更新一直比较看心情 上次7.0版本的更新 还是2018年12月21日 这一次8.0的大更新会有什么功能?! 一起来看看这次更新了哪些新鲜玩意 ???? 01 / 新的开屏动画 02 / 常用表情更新 调…

chatgpt赋能python:Python自动化办公从入门到精通

Python自动化办公从入门到精通 随着科技进步和信息化程度日益提高,自动化办公已经越来越广泛地利用在各行各业中。Python作为一种非常高效和灵活的编程工具,在自动化办公领域也得到了广泛的应用。本文就介绍如何使用Python进行自动化办公,从…

chatgpt赋能python:Python生成图像:从入门到精通

Python生成图像:从入门到精通 Python是一种广泛使用的编程语言,尤其在数据科学和机器学习领域中得到了广泛地应用。该语言的一个强大功能就是能够生成高质量的图像。在这篇文章中,我们将深入探讨Python生成图像的方法。 Matplotlib简介 Ma…

chatgpt赋能python:Python快速上手指南:从入门到精通

Python 快速上手指南:从入门到精通 什么是Python? Python是一种高级编程语言,由Guido van Rossum于1991年开发。它被广泛用于数据科学、人工智能、网络开发、机器学习等领域,因为它易于学习、易于使用、易于阅读和易于维护。Pyt…

chatgpt赋能python:Python游戏开发教程:从入门到精通

Python游戏开发教程:从入门到精通 Python作为一门简单易学且功能强大的编程语言,越来越被广泛应用于游戏开发领域。Python游戏开发不仅可以让你创造有趣的游戏,还可以提高你的编程技能。本文将介绍Python游戏开发的基础知识、工具和技巧&…

chatgpt赋能python:手把手教Python:从入门到精通

手把手教Python:从入门到精通 Python是一种流行的编程语言,它简单易学且有着广泛的应用领域。从自动化脚本编写到数据科学和机器学习,Python都有着无数的应用场景。而在这篇文章中,我们将会从入门到精通手把手教您如何学习Python…

chatgpt赋能python:Python扩展开发:从入门到精通

Python扩展开发:从入门到精通 Python是一门高效、可扩展、易学易用的编程语言。Python的优秀性能在科学计算、数据处理、web开发等领域表现突出。然而,Python在特定的应用场景中,如图像处理和机器学习等领域,需要更高效的代码执行…

chatgpt赋能python:Python构建模型:从入门到精通

Python构建模型:从入门到精通 在数十年的软件开发中,Python一直是最受欢迎的编程语言之一。Python不仅易于入门,而且能够对各种数据科学应用进行建模和分析。在这篇文章中,我们将介绍Python几种常见的构建模型的方法和应用。 为…

python爬取微博热搜数据并保存!

主要用到requests和bf4两个库将获得的信息保存在d://hotsearch.txt下importrequests;importbs4mylist[]rrequests.get(ur… 很多人学习python,不知道从何学起。 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手。 很多已经做案…

文字转语音软件哪个比较好?快来收藏这几个宝藏软件

大家都知道配音是干什么的吧。简单来说,我们今天的有声读物、教学视频、广播促销等都是通过由配音来完成的。当然配音也分人工和软件配音。如果我们觉得自己的声音条件优越,可以选择自己配音。不过如果你们是因为紧张而无法配音的话,就可以使…

如何将文字转语音?这4个文字转语音方法简直宝藏

近年来,文字转语音技术的发展,让我们的生活更加便利,特别是在语音技术不断普及的今天,文字转语音技术更是被广泛应用于各种场合。那你知道如何将文字转语音吗? 本文将介绍四款文字转语音软件:迅捷文字转语音…

免费使用微软Azure进行文字转语音的三种方法!最自然接近人声的机器配音技术。

微软的TTS语音合成技术目前已经做到了非常自然,接近真人音色,在不了解前提下有时候真的很难分辨出这是机器合成的声音。 目前微软的文字转语音已经支持21个中文简体的声音,并且支持多种声音风格的选择和语速、音调的调整。 免费使用微软Azu…