为机器人装“大脑” 谷歌发布RT-2大模型

大语言模型不仅能让应用变得更智能,还将让机器人学会举一反三。在谷歌发布RT-1大模型仅半年后,专用于机器人的RT-2大模型于近期面世,它能让机器人学习互联网上的文本和图像,并具备逻辑推理能力。

该模型为机器人智能带来显著升级——即便在机器人没有经历过的场景下,RT-2也通过学习让它根据指令完成任务。

谷歌DeepMind机器人技术主管Vincent举例称,如果让以前的机器人丢垃圾,必须要专门训练它理解什么是垃圾、如何捡起和扔到哪去。现在RT-2能够从网络数据上学习识别和处理垃圾的方法,不必逐一特训不同的场景了。

AI的发展让机器人的“大脑”实现了物种进化般的迭代,另一面是,机器人失控的风险也随之增加。

RT-2大模型实现机器人自主学习

ChatGPT的火爆,让世界见识了大语言模型的强大力量。人们对大模型不再陌生,开始使用基于大模型的应用绘画、作图、搜索资料、设计剧情等,而妙用不止于此。谷歌脑洞大开,专门给机器人造了个大模型,让机器人拥有了自主学习能力。

不久前,谷歌旗下DeepMind发布了一款名为Robotics Transformer 2(简称RT-2)的新型视觉-语言-动作(VLA)模型,该模型相当于机器人的专用大脑,能够指导机器人识别视觉和语言,让其理解指令并做出正确的操作。

谷歌介绍,RT-2基于Transformer模型开发,根据互联网上的文本和图像进行训练,直接指示机器人执行动作。就像用文本训练大语言模型学习人类知识一样,RT-2可以将网络数据喂给机器人,指导机器人的行为。

为了展示RT-2的能力,谷歌发布了一个演示视频,让搭载RT-2的机器人完成一些它此前从未经过训练的项目。

视频中,面对一堆随意放在桌上的物品,搭载了RT-2模型的机械臂能够听懂人类语言并做出相应的反应。

比如,命令它“捡起已灭绝的动物”,机械臂就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确选择恐龙;如果命令它将香蕉放到2+1的总和的位置,机械臂直接把香蕉放在了数字3的位置;再让它把草莓放入碗里,机器人也能够无视苹果、橘子等水果,选对草莓。

不过,在演示过程中,机器人也出现了错误,它不能准确地识别汽水口味,这让它看起来还有不小的优化空间。

 搭载RT-2的机器人能按人类指令行事

即便还不够完美,但机器人能够自主理解、推理和执行任务,已经是一个长足的进步。

DeepMind机器人技术主管 Vincent 以“扔垃圾”这个看似简单的操作举例,如果想要以前的系统执行丢弃垃圾的行为,必须明确训练它识别和处理垃圾,而RT-2可以从大量网络数据中学习并理解什么是垃圾,并在未经特定训练的情况下进行识别。尽管未曾接受过相关动作训练,但它能掌握如何丢弃垃圾的方法。“考虑到垃圾的抽象性,比如各种薯片包或香蕉皮在你食用后就成为了垃圾,RT-2 能通过其视觉语言培训数据理解这个概念,并完成任务。

RT-2就给机器人输入了认知能力,让它能够在互联网上学习和进步,甚至还能进行一般推理。这对于机器人产业来说,不亚于一次物种进化。

机器人加速进化再触AI安全底线

事实上,给机器人装上大脑这件事,谷歌并不是第一次尝试了。就在去年12月,谷歌发布了RT-1大模型,它可以标记机器人输入和输出的动作,在运行时实现高效推理,并使实时控制成为可能。

RT-1模型是在一个包含130k个“情景”的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,由13台机器人在17个月内收集而成。也就是说,RT-1大模型可以让单一机器人,学习其他机器人在过去积攒的经验,从而具备相应的能力。

 RT-1大模型论文

当时,谷歌让搭载RT-1的机器人进行一系列复杂操作,包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、敲倒物体、拉出餐巾纸和打开罐子。据团队称,RT-1 以 97% 的成功率执行了 700 多个训练指令,并且可以泛化到新的任务。

但对于没有具体学习过的场景,RT-1还是很难自主依据推理完成任务。根据测试,它在不熟悉的场景下,操作的准确率只有32%。

如果说当时的RT-1还是个“教什么学什么”的小学生,RT-2则进步成了能够举一反三的初高中生。在没见过的新场景中,RT-2 的性能表现几乎翻了一番,从RT-1的32%提高到了62%,而此时距离RT-1的发布时间仅仅过去了半年多。

谷歌 DeepMind机器人技术主管Vincent 解释,RT-2 建立在 RT-1 模型的基础上,消除了一些复杂性;使单个模型不仅能够执行基础模型中看到的复杂推理,而且还可以输出机器人动作。最重要的是,它表明在少量的机器人训练数据下,该系统就能够将其语言和视觉训练数据中嵌入的概念转变为指导机器人行为,即使是从未接受过训练的任务。“简而言之,RT-2 的能力在于将信息转化为行动,这显示了其快速适应新环境和情况的潜力。”

得益于大模型的快速进步,机器人产业迎来了质变,按照谷歌的迭代速度,或许明年就能看到更强大的RT-3。

研究机器人的不止谷歌,特斯拉也对机器人兴趣浓厚。今年5月,特斯拉发布了一个视频,5个人形机器人在工厂中直立行走,它们装备了很多传感器,能够探测周围环境,执行分拣物品等任务。特斯拉的机器人也在走AI路线,这家电动汽车厂商的CEO马斯克称,特斯拉正在尝试打通电动汽车的辅助驾驶软件(FSD)系统和人形机器人的底层模块,让机器人智商在线。

而倘若后续特斯拉机器人能够接入RT-2甚至更高级的大模型,机器人的能力预计又将大幅进步。

但越来越聪明的机器人,也加剧了人们对AI失控的担忧。大模型的软件应用可能会在网络学习中操控人类的思想、舆论,金属外壳的人形机器人直接具备了物理杀伤力。

有人在社交媒体发问,“人类是否亲手打开了一个潘多拉魔盒?”

如何规训机器人,仍然回到了大模型安全性这一老问题上,但这个问题至今还未在全球的研究与应用领域达成共识。

技术另一面的未知危机仍未解除,装上AI大脑的机器人出现了,你会期待还是警惕?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/74751.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

静态路由下一跳地址怎么确定(静态路由配置及讲解)

一、用到的所有命令及功能 ①ip route-static 到达网络地址 子网掩码 下一跳 // 配置静态路由下一跳指的是和当前网络直接连接的路由器的接口地址非直连网段必须全部做路由路径是手工指定的,在大规模网络上不能用,效率低,路径是固定的稳定的…

C++ 左值和右值

C 左值和右值 左值、右值左值引用、右值引用std::move()std::move()的实现引用折叠 完美转发forward()的实现函数返回值是左值还是右值如何判断一个值是左值还是右值 左值、右值 在C11中所有的值必属于左值、右值两者之一,右值又可以细分为纯右值、将亡值。在C11中…

RabbitMQ 教程 | 第5章 RabbitMQ 管理

👨🏻‍💻 热爱摄影的程序员 👨🏻‍🎨 喜欢编码的设计师 🧕🏻 擅长设计的剪辑师 🧑🏻‍🏫 一位高冷无情的编码爱好者 大家好,我是 DevO…

python解析帆软cpt及frm文件(xml)获取源数据表及下游依赖表

#!/user/bin/evn python import os,re,openpyxl 输入:帆软脚本文件路径输出:帆软文件检查结果Excel#获取来源表 def table_scan(sql_str):# remove the /* */ commentsq re.sub(r"/\*[^*]*\*(?:[^*/][^*]*\*)*/", "", sql_str)# r…

基于Java+Swing实现超级玛丽游戏

基于JavaSwing实现超级玛丽游戏 一、系统介绍二、功能展示三、其他系统 一、系统介绍 超级玛丽小游戏的JAVA程序,进入游戏后首先按空格键开始,利用方向键来控制的马里奥的移动,同时检测马里奥与场景中的障碍物和敌人的碰撞,并判断…

2023年电赛E题报告模板(K210版)--可直接使用

任务 图1 任务内容 要求 图2 基本要求内容 图3 发挥部分内容 说明 图4 说明内容 评分标准 图5 评分内容 正文 (部分) 摘要 本文使用K210芯片设计了一个运动目标控制与自动追踪系统。系统包括使用深度学习进行识别激光位置,其中红色激…

论文代码学习—HiFi-GAN(4)——模型训练函数train文件具体解析

文章目录 引言正文模型训练代码整体训练过程具体训练细节具体运行流程 多GPU编程main函数(通用代码)完整代码 总结引用 引言 这里翻译了HiFi-GAN这篇论文的具体内容,具体链接。这篇文章还是学到了很多东西,从整体上说&#xff0c…

数据分析基础-Excel图表的美化操作(按照教程一步步操作)

一、原始数据 包含月份和对应的销量和产量。 时间销量产量1月60722月38673月28344月58685月67596月72357月61428月24319月556710月243511月122112月2645 二、原始的图表设计-采用Excel自带模板 三、优化思路 1、删除多余元素 2、弱化次要元素 对于可以弱化的元素&#xff0c…

VMware vSphere整体解决方案及实验拓扑

VMware vSphere整体解决方案及实验拓扑 VMware vSphere完整的解决方案 VMware vSphere有两个核心组件:ESXI,vCenter。ESXI实现的是单机虚拟化,而vCenter实现集群虚拟化,把所有的ESXI统一进行管理。当然了,要想是实现…

构建vue项目配置和环境配置

目录 1、环境变量process.env配置2、vue package.json多环境配置vue-cli-service serve其他用法vue-cli-service build其他用法vue-cli-service inspect其他用法3、vue导出webpack配置4、配置打包压缩图片文件5、打包去掉多余css(由于依赖问题暂时未实现)6、打包去除console.…

SW - 装配图用的组合零件的制作步骤

文章目录 SW - 装配图用的组合零件的制作步骤概述笔记END SW - 装配图用的组合零件的制作步骤 概述 一套相关零件做好后, 需要做装配体, 将零件都装上, 看看是否有纰漏. 如果不做总装图, 真不放心. 万一废了, 耽误的时间大把的. 做总装图的时间比做零件的2个星期比起来, 代价…

打印Winform控件实现简陋版的分页打印(C#)

本文的代码可以从这里获取:winformDemo.rar 张祥裕/分享的资源名称 - Gitee.com 作者的水平有限,如有错误,望指正。 为了简单起见,纸张大小,打印机等信息按照默认的来,本文的实现方案是:打印Pa…

使用正则表达式 移除 HTML 标签后得到字符串

需求分析 后台返回的数据是 这样式的 需要讲html 标签替换 high_light_text: "<span stylecolor:red>OPPO</span> <span stylecolor:red>OPPO</span> 白色 01"使用正则表达式 function stripHTMLTags(htmlString) {return htmlString.rep…

vue中各种混淆用法汇总

✨在生成、导出、导入、使用 Vue 组件的时候&#xff0c;像我这种新手就会常常被位于不同文件的 new Vue() 、 export default{} 搞得晕头转向。本文对常见用法汇总区分 new Vue() &#x1f4a6;Vue()就是一个构造函数&#xff0c;new Vue()是创建一个 vue 实例。该实例是一个…

阿里云ssl免费数字证书快过期 如何更换

1.登陆阿里云 找到ssl 查看快过期的证书 数字证书管理服务-ssl证书 2.创建免费的证书&#xff0c;对应过期证书的域名 3.下载新证书 pem key放在本地 此处记录本地的下载路径 /Users/dorsey/Downloads/10791167_lzzabc.cn_nginx/lzzabc.cn.pem /Users/dorsey/Downloads/1…

初阶数据结构——二叉树题目

文章目录 一、单值二叉树二、检查两颗树是否相同三、另一棵树的子树四、二叉树的前序遍历五、对称二叉树 一、单值二叉树 单值二叉树 如果二叉树每个节点都具有相同的值&#xff0c;那么该二叉树就是单值二叉树。只有给定的树是单值二叉树时&#xff0c;才返回 true&#xff…

Mapping温度分布验证选择数据记录仪时需要考虑的13件事

01 什么是温度分布验证&#xff1f; 温度分布验证是通过在规定的研究时间内测量定义区域内的多个点来确定特定温度控制环境或过程&#xff08;如冷冻柜、冰箱、培养箱、稳定室、仓库或高压灭菌器&#xff09;的温度分布的过程。温度分布验证的目标是确定每个测量点之间的差异&…

1.netty介绍

1.介绍 是JBOSS通过的java开源框架是异步的,基于事件驱动(点击一个按钮调用某个函数)的网络应用框架,高性能高可靠的网络IO程序基于TCP,面向客户端高并发应用/点对点大量数据持续传输的应用是NIO框架 (IO的一层层封装) TCP/IP->javaIO和网络编程–>NIO—>Netty 2.应用…

FFmepg视频解码

1 前言 上一篇文章<FFmpeg下载安装及Windows开发环境设置>介绍了FFmpeg的下载安装及环境配置&#xff0c;本文介绍最简单的FFmpeg视频解码示例。 2 视频解码过程 本文只讨论视频解码。 FFmpeg视频解码的过程比较简单&#xff0c;实际就4步&#xff1a; 打开媒体流获取…

Redis-1

Redis 理论部分 redis 速度快的原因 1、纯内存操作 2、单线程操作&#xff0c;避免了频繁的上下文切换和资源争用问题&#xff0c;多线程需要占用更多的 CPU 资源 3、采用了非阻塞 I/O 多路复用机制 4、提供了非常高效的数据结构&#xff0c;例如双向链表、压缩页表和跳跃…