用ChatGPT操控机器人,微软开启居家机器人新纪元!

57c2016d737aa9ed7fc257643970a425.jpeg

编|LRS 

源|新智元

ChatGPT不止会动嘴,还能帮你操控无人机!

虽然ChatGPT已经被调教为符合人类的偏好,但在各种反向操作下,还是能够逼问出一些「不道德的内容」,比如ChatGPT可以给你列一份详细的毁灭世界计划列表,具体到每一步。
d85dbeac0f57bc2976943144105633ef.png
不过,现在的ChatGPT只会动动嘴皮子,并没有任何接触现实物理世界的能力,顶多也就是当个科幻小说看看。
但要是ChatGPT真的可以操控机器人呢?
最近,微软发表了一篇论文,公布了他们正在把ChatGPT应用于机器人上的研究成果。
83822dd091ca73e795778baee31bbaac.png

论文链接:

https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf

不过微软的目标并非是「毁灭世界」,而是加快机器人的开发速度。

addc076fa1d8b1cfb587acad9339973f.png

实际上在现代的生活和生产流程中,处处都离不开机器人,从工厂里制造产品的机械臂,到家庭里用的吸尘器,都可以算作是机器人(robot)。

每次想开发一个新产品,或者让现有的机器执行一个新功能,都需要一个高级工程师编写代码,同时尽可能编写测试覆盖所有场景。

微软在论文中提出了一套新的设计原则,通过ChatGPT这样的大型语言模型来给机器人提供指令。

ChatGPT:机器人控制器

ChatGPT之所以爆火,其根本原因就在于:AI终于在一定程度上能「听懂人话」了,而非只是按照语法胡乱生成内容;而且它的功能也很强大,问答、写论文、写诗、写代码,只要prompt写得够好,ChatGPT的表现也会更惊人。

要是把这种能力迁移到机器人身上,假设几十年以后,各家各户都有机器人,只要说一声「给我热一下午餐」,它就能自己找到微波炉,再把菜端回来,人机交互直接迈入新时代。

虽然「自然语言」很简洁,但现有的机器人开发还是依赖于「编程语言」。

be39912278bdbeb127d9ad67b5980109.png

ChatGPT 是一个基于大量文本和人类反馈训练得到的语言模型,能够针对各种各样的提示和问题产生连贯且语法正确的回应。
这项研究的目的是观察 ChatGPT 是否能够在文本之外的领域进行思考,并推理出物理世界来帮助机器人完成任务。

研究人员预期ChatGPT能够帮助用户更容易地与机器人交互,而不需要学习复杂的编程语言或机器人系统的细节,其中的关键难题就是教 ChatGPT 如何使用物理定律、操作环境的背景以及了解机器人的物理行为如何改变世界状态,并以此来解决指定的任务。

286d9c96ea5c1a56edea3cfe94422215.png

实验证明,ChatGPT 可以独立完成很多工作,但是它仍然需要一些辅助,论文中描述了一系列的设计原则,可以用来指导语言模型解决机器人任务,包括但不限于特殊的提示结构、高级 API 和基于文本的人类反馈等,一场机器人系统的开发革命即将到来。

全新的代码设计流程

给大型语言模型写prompt是一门高度经验主义的科学,通过反复试验,研究人员建立了一套方法论和设计原则,专门用于为机器人任务撰写提示:

263fa24e2164a6f55bad1b6866679b85.png

1. 定义了一组高级机器人 API 或函数库。

这个库可根据特定的机器人类型进行设计,并且应该从机器人的控制栈或感知库映射到现有的低层次具体实现。
对高级 API 使用的描述性名称非常重要,可以帮助 ChatGPT推断函数的功能。

2. 为 ChatGPT 编写一个文本提示,用来描述任务目标,同时显式说明高级库中的哪些函数是可用的。

提示中还可以包含有关任务约束的信息, 或者 ChatGPT 应该如何组织它的答案,包括使用特定的编程语言,使用辅助解析组件等 ;

3. 用户在循环中评估 ChatGPT 的代码输出,可以直接执行代码以检查正确性,也可以使用模拟器。

如果有需要的话,用户可以使用自然语言向 ChatGPT 提供有关答案质量和安全性的反馈。

41bae859a3f41b4ce9126f09b5a418a6.png

当用户对解决方案感到满意时,就可以将最终的代码部署到机器人上。

ChatGPT+机器人能做什么?

下面是几个例子,更完整的ChatGPT能力列表参见代码仓库。

155be63132b8d8ac14fea164eff85d3e.png

代码链接:

https://github.com/microsoft/PromptCraft-Robotics

Zero-shot任务规划

当ChatGPT遇上无人机,研究人员首先让 ChatGPT 能够控制一台真正的无人机的全部功能,然后按照下面视频中进行的对话,实验结果证明,一个完全不懂技术的用户,只需要通过对话就能实现控制无人机,「自然语言」是一个非常直观、高效的用户接口。

当用户的指令含糊不清时,ChatGPT 会要求用户进一步说明问题,并为无人机编写复杂的代码结构,例如飞行之字(zig-zag)图案,以便可视化地检查货架;甚至还能给用户来一张自拍。
研究人员还在 MicrosoftAirSim 模拟器中对工业检查场景中使用ChatGPT进行模拟,结果显示该模型能够有效地解析用户的高级意图和几何线索,以准确地控制无人机。

复杂的任务需要用户参与反馈

当把ChatGPT用于机械臂的操作场景时,研究人员使用「会话反馈」(conversational feedback)来教模型如何将最初提供的 API 组合成更复杂的高级函数,即ChatGPT自己内部编码的函数。

使用以课程为基础(curriculum-based)的策略,ChatGPT能够将这些学到的技能有逻辑地链接在一起,以执行诸如堆叠块之类的操作。

此外,还有一个例子能展现出ChatGPT的强大能力,研究人员要求模型用木块构建微软标志,即需要将文本域和物理域连接起来。

02cbc9e37fb0f6524c6918caa23d01e3.png

ChatGPT不仅能够从内部知识库中回忆出微软的logo,还能够用SVG的代码「绘制」出这个标志 ,然后利用上面学到的技能来确定现有的机器人动作可以组成它的物理形式。

还有一个例子,研究人员让 ChatGPT 编写一个算法,让无人机在不撞上障碍物的情况下,在空中达到目标。

只需要告诉模型,它操控的这架无人机有一个前向距离传感器,ChatGPT 立即能够为算法编码了大部分关键构件,这个任务需要与人类进行一些对话,ChatGPT 仅通过自然语言反馈就能进行局部代码修改。

在行动之前感知世界

在算法决定做某事(action)之前能够感知世界(perception)是打造一个机器人系统的基础。

为了测试 ChatGPT 对指定概念的理解,研究人员设计了一个框架,要求ChatGPT不断探索环境,让模型访问诸如目标检测和目标距离 API 之类的函数,直到找到用户指定的对象,整个过程称为感知-行动循环(Perception-action loops)。
在实验环节,研究人员进行了额外的实验来评估 ChatGPT 是否能够根据传感器的实时反馈来决定机器人应该去哪里,而不是让 ChatGPT 生成一个代码循环来做出这些决定。
实验结果验证了用户可以在聊天的每一步输入一个相机图像的文本描述,并且模型能够找出如何控制机器人,并驱使机器人到达一个特定的对象。

开源PromptCraft:收集有价值的prompt

「良好的prompting工程」对于ChatGPT等大型语言模型成功执行机器人任务来说至关重要。

但prompting完全是一门经验主义的科学、缺乏全面的总结,并且相关资源也很少,没有数据集来帮助该领域的研究人员和爱好者判断什么是一个好的prompt为了弥补这一劣势,研究人员开源了一个平台 PromptCraft,任何用户都可以在其上分享不同机器人类别的提示策略示例。

这次研究项目的所有提示和对话都已经放在了仓库中,感兴趣的读者可以继续参与贡献!

008edd0689720f45b9a0b9019de494ae.png

除了快速设计之外,研究人员还计划未来开发多个机器人模拟器和接口,以允许用户测试ChatGPT生成的算法性能,目前已经发布了一个集成ChatGPT的AirSim环境。

把机器人带出实验室,走向世界

微软发布这些技术的目的是将机器人技术推广到更广泛的受众,研究人员认为,基于语言的机器人控制系统是把机器人从科学实验室带到日常用户手中的基础。
也就是说,ChatGPT 的输出不应该在没有仔细分析的情况下直接部署在机器人上。
通过在模拟环境中获得实验结果,能够在未来现实部署之前对算法进行评估,并采取必要的安全预防措施。

2df529c4a0d22947670ab5475579d35c.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

 73819ff379ad52781ddf530261d55a20.png

[1]https://www.microsoft.com/en-us/research/group/autonomous-systems-group-robotics/articles/chatgpt-for-robotics/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/5877.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ChatGPT:微软人工智能Office和电邮即将登场...

PS:欢迎大家关注我的Twitter:Alphatu4 (深夜写稿不易,会有很多独家内容) 欢迎点击在看、转发~谢谢大家!🐇 *转载请扫码添加后台微信二维码,转载请注明来源,且附上本文的…

联网、多模态版ChatGPT?微软BingChat评测,New Bing竟然是个大美女?

微软开放了New Bing,大家都可以注册使用了,详细见我的文章 北方的郎:微软放大招,所有人都能用New Bing了 今天把它的功能简单评测一下,首先如果想要体验多模态,要选择更有创造力选项。 首先让它画一张小猫…

ChatGPT淘汰程序员?不可能的!看代码生成机器人如何让我更强。

AIGC让程序员失业?不存在的!聆思开发聊天助手Chaty让你更高效地开发CSK芯片代码、更自在地摸鱼! 当遇上十万火急,产品提完需求马上要怎么办? 且看Chaty如何破局 以往流程: Chaty加持: Chat…

周鸿祎称搭不上ChatGPT企业会被淘汰;马斯克会议现场解雇推特高级工程师;同时应聘十几个工作靠裁员补偿年入千万 | EA周报...

EA周报 2023年2月10日 每个星期1分钟,元宝带你喝一杯IT人的浓缩咖啡,了解天下事、掌握IT核心技术。 周报看点 1、周鸿祎谈 ChatGPT:搭不上这班车的企业会被淘汰 2、马斯克被爆当场解雇推特工程师 原因竟是人气下降 3、苏宁张康阳遭建行全球追…

uni-app 聊天对话滚动到最底部

uni-app 之 聊天室滚到最底部 请注意 !: 知识点为uni-app 与 vue 结合 这次写到聊天室,碰到一个emmmmm问题比较严重的事情,聊天嘛,咱们想实现的就无非是微信,QQ那种聊天的效果嘛,我们研究了&am…

用uniapp跨平台开发一款商用的ai绘图ai作画软件的全过程

随着科技的发展,人工智能将会是以后的主流方向,ai绘图、chatgpt高科技先后出台,都获得了火爆的发展,因此想借着势头开发一款主打ai绘图的app小程序 一、前期准备 1、选定技术框架 因为后面需要多平台发布,而尽可能减…

对话风变科技 CTO|从线上教育服务商到教育资源供给平台,风变背后的第二增长曲线思维

Authing 是用户中心团队,我们是业务系统,大家冲刺一个目标、再做合并,然后让基于多租户的 B 端产品成功上线。那个阶段刚好有个客户卡在当时的时间点,一定要赶着上线,最后 Authing 的协作让我们赢得了客户信任&#xf…

盘古石晋级赛复盘

这篇复盘是这次暑假对上次取证的一次复盘,复盘中参考了部分大佬的博客。后面软路由和服务器暂时还没有整完,还会继续更新。 Android分析 1.涉案应用刷刷樂的签名序列号是(答案格式:123ca12a) 11fcf899 通过雷电一跑就出来了 2.涉案应用刷…

基于android音乐播放器的设计

本科毕业论文(设计)诚信声明 本人郑重声明:所呈交的毕业论文(设计),题目《………基于android音乐播放器的设计……………………………》是本人在指导教师的指导下,进行研究工作所取得的成果。对…

微信支付兑换今日好礼不再累积提现免费额度;ChatGPT 上线最强应用「代码解释器」;GCC 10.5 发布|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

扫个二维码微信就崩溃的原因找到了|附源码分析

出品 | OSC开源社区(ID:oschina2013) 建议别尝试:转发这个二维码到群里,3秒后你会回来骂我(抖m求骂) 近日,网传微信识别上方二维码就会出现闪退BUG,小编也忍不住尝试了一下&#xff…

如何管理你的手机存储空间,告别微信内存过大!

开始这篇文章之前,先说说这两天我在清理电脑存储上的一个插曲。 有着良好电脑使用习惯的我,直到上一次打开 Mac 的储存空间界面,还始终保持着预留至少 50G 的空间来避免可用存储空间过少造成的「心理健康」问题,直到某天清理电脑…

在微信小程序上添加chartGPT会怎么样?

字典工具类等小程序开发 目前小程序的使用者大部分来自:广州执信中学、广州二中、华南师范大学附属中学、华南师范大学、也有昆明三中(同学在那边当老师推荐了一下,非常感谢)等基本都是来自广东。 让它为你写个代码试试&#xff…

ChatGLM本地部署应用的实战方案

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

本地部署 MiniGPT-4

本地部署 MiniGPT-4 1. 什么是 MiniGPT-42. Github 地址3. 安装 MiniGPT-44. 准备预训练的 MiniGPT-4 checkpoint5. 在本地启动演示其他 1,安装 CUDA Toolkit 11.8其他 2,安装 GCC 9 版本,并设置为默认GCC版本其他 3(成功),重新安…

MiniGPT-4本地部署的实战方案

大家好,我是herosunly。985院校硕士毕业,现担任算法研究员一职,热衷于机器学习算法研究与应用。曾获得阿里云天池比赛第一名,CCF比赛第二名,科大讯飞比赛第三名。拥有多项发明专利。对机器学习和深度学习拥有自己独到的见解。曾经辅导过若干个非计算机专业的学生进入到算法…

深度学习实战32-构建ChatT5模型,实现智能问答系统,类ChatGPT(CPU部署)

大家好,我是微学AI,今天给大家介绍一下深度学习实战32-构建ChatT5模型,实现智能问答系统,类ChatGPT(CPU部署),ChatT5使用了T5架构来处理输入文本,具有高度的并行性和扩展性,使其能够快速处理大规模数据集。与传统NLP模型不同,ChatT5采用端到端的方式进行训练,从而可以…

本地部署 gpt4free

本地部署 gpt4free 什么是 gpt4free效果演示安装 ffmpeg启动 gpt4free访问 gpt4free guiWindows 下本地部署 gpt4free(20230515追记)其他 什么是 gpt4free GPT4Free 是一个由 xtekky 创建的基于 OpenAI GPT-4 和 GPT-3.5 的 API。它可以向用户提供类似于 OpenAI GPT-3 的功能&…

【类ChatGPT】本地CPU部署中文羊驼大模型LLaMA和Alpaca

昨天在github上看到一个在本地部署中文大模型的项目,和大家分享一下。先把地址po出来。 项目名称:中文LLaMA&Alpaca大语言模型本地部署 (Chinese LLaMA & Alpaca LLMs) 项目地址:https://github.com/ymcui/Chinese-LLaMA-Alpaca 以…

国内的几款强大的智能AI语言模型

1、Tomchat :Tomchat https://www.tomchat.work 支持gpt4 -3.5 支持 midjourny绘画 可长篇写作 无使用月限额 1、国内百度研发的,文心一言: https://yiyan.baidu.com/welcome 大家如果像我的界面一样有【开始体验】就是可以使用的&…