ChatGPT +工业机器人/自动驾驶控制器的一些尝试

ChatGPT 的功能目前已扩展到机器人领域,可以用语言直观控制如机械臂、无人机、家庭辅助机器人等的多个平台。这会改变人机交互的未来形式吗?

你可曾想过用自己的话告诉机器人该做什么,就像对人说话那样?

比如说,只要告诉你的家庭助理机器人「请帮我热一下午餐」,然后它就能自己找到微波炉。很神奇,对吗?

尽管语言是人类表达意图的最直观的方式,但此前很长一段时间,人们仍然严重依赖手写代码来实现对机器人的控制。不过,当 ChatGPT 出现之后,这种情况要变一下了。

在最近的一项研究中,微软团队在探索如何使用 OpenAI 的新 AI 语言模型 ChatGPT 来使自然的人机交互成为可能。

论文链接:
https://www.microsoft.com/en-us/research/uploads/prod/2023/02/ChatGPT___Robotics.pdf

ChatGPT 是一个在大量文本和人类互动语料库上训练的语言模型,因此应对广泛的 prompt 和问题时,它可以生成连贯且语法正确的响应。这项研究的目标是看看 ChatGPT 是否可以超越文本思考,并对现实世界进行推理,以帮助机器人完成任务。研究者希望以此便利人们与机器人的互动,而不需要学习复杂的编程语言或机器人系统的细节。

研究的关键挑战在于教会 ChatGPT:如何通过考虑物理定律、操作环境以及机器人运用肢体动作改变周遭环境的方式来解决问题。

事实证明,ChatGPT 本身可以做很多事情,但它仍然需要一些帮助。团队在论文中描述了一系列可用于指导语言模型解决机器人任务的设计原则,包括(但不限于)特别 prompt 结构、高级 API 和通过人类文本反馈。研究者认为,这项工作只是开发机器人系统的转变的开始,并且希望通过这项研究激励其他研究人员加入这个有趣的研究领域。

当今机器人技术面临的挑战,以及 ChatGPT 能提供的帮助

目前机器人的操作流是从工程师或技术用户开始,需要他们将任务需求转换为系统代码。工程师会处于工作流程的回路中,他们需要不断编写新的代码和规范来纠正机器人的行为。总得来说,这个过程是缓慢的(用户需要编写低级代码)、昂贵的(需要对机器人技术有深入了解的高技能用户)且低效的(需要多次交互才能正常运转)。

但 ChatGPT 开启了一种新的机器人范式,并允许潜在的非技术型用户参与到回路之中,在监视机器人性能的同时向大型语言模型(LLM)提供高级反馈。通过遵循研究的设计原则,ChatGPT 可以为机器人场景生成代码。在没有任何微调的情况下,研究利用 LLM 的知识来控制不同的机器人形状,以完成各种任务。工作中,研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。

机器人与 ChatGPT:设计原则

Prompting LLM 是一门高度实证的科学。研究通过反复试验建立了一套为机器人任务编写 prompt 的方法和设计原则:

首先,研究定义了一组高级机器人 API 或函数库。这个库可以特定于特定的机器人,并且可以映射到机器人的控制堆栈或感知库中现有的低级实现。对高级 API 使用描述性名称非常重要,这样 ChatGPT 就可以推断它们的行为;

接下来,研究人员为 ChatGPT 编写一个文本 prompt,它描述了任务目标,同时明确说明来自高级库的哪些函数是可用的。Prompt 还可以囊括关于任务约束的信息,或者 ChatGPT 应该如何形成其答案(特定的编码语言,使用辅助解析元素);

用户在回路中评估 ChatGPT 的代码输出,要么通过直接检查,要么使用模拟器。如果需要,用户可以使用自然语言向 ChatGPT 反馈答案的质量和安全性。

用户满意解决方案的话,代码就可以最终部署到机器人上。

理论已经够多了,ChatGPT 到底能做什么?

让我们参看几个例子,你还可以在代码库中找到更多案例研究。

零样本任务计划

研究人员让 ChatGPT 控制真正的无人机,经证明,它是非技术用户和机器人之间非常直观的基于语言的接口。当用户的指令含糊不清时,ChatGPT 会提出要明晰问题,并为无人机编写复杂的代码结构以直观地检查架构,例如锯齿形模式。它甚至学会了自拍!

研究人员还使用 Microsoft AirSim 模拟器在一个模拟工业检验场景中使用 ChatGPT。该模型能够有效地解析用户的高级意图和几何线索,从而准确地控制无人机。

回路中的用户:当复杂的任务需要对话时

接下来,研究人员将 ChatGPT 用于机械臂的操作场景,并使用对话反馈来教会模型如何将最初提供的 API 组合成更复杂的高级函数:ChatGPT 自动编程。该模型能够使用课程本位策略,按照逻辑将学习到的技能链接在一起,以执行诸如堆叠块等操作。

此外,当用木块构建微软标志时,该模型展示了一个连接文本和物理域的完美示例。它不仅能够从内部知识库中回忆 logo,还能够「绘制」logo(作为 SVG 代码),然后使用上面学到的技能来找出哪些现有的机器人动作可以构成其外形。

接下来,研究人员让 ChatGPT 编写一个算法,让无人机在达到空中目标的同时不撞上障碍物。他们告诉模型,这架无人机有一个面向前方的距离传感器,ChatGPT 立即为算法编写了大部分关键构建块。这项任务需要与人进行一些对话,ChatGPT 仅使用语言反馈就能进行本地化代码改进的能力令人印象深刻。

感知 - 行动回路:机器人在行动前感知世界

在做某事(行动)之前感知世界(感知)的能力是任何机器人系统的基础。因此,研究人员决定测试 ChatGPT 对这个概念的理解,并要求它探索一个环境,直到找到用户指定的对象。研究为模型提供了对象检测和对象距离 API 等功能,并验证了它生成的代码成功实现了感知 - 行动循环。

在实验阶段,研究者进行了额外的实验,以评估 ChatGPT 是否能够根据传感器反馈实时决定机器人应该去哪里(而不是让 ChatGPT 生成一个代码回路来做出这些决定)。有趣的是,恰好验证了可以在对话的每一步中输入相机图像的文本描述,并且模型能够弄清楚如何控制机器人,直到它到达特定的对象。

PromptCraft, LLM + 机器人研究的协作开源工具

良好的 Prompt 工程对于大型语言模型的成功至关重要,例如 ChatGPT 用于机器人任务。可惜,Prompt 是一门实证科学,缺乏全面和可访问的资源,其中能为该领域的研究人员和爱好者提供帮助的例子也是良莠不齐。为了弥合这一差距,研究者引入了「PromptCraft」,这是一个协作开源平台,任何人在这里都可以分享不同机器人类别的 Prompt 策略示例,而且,研究者公布了在这项研究中使用的所有 Prompt 和对话。

除了 Prompt 设计,研究还希望包括多个机器人模拟器和界面,允许用户测试他们的 ChatGPT 生成的算法。作为开始,研究还发布了一个与 ChatGPT 集成的 AirSim 环境,任何人都可以使用它来展开这些想法。

ChatGPT-AirSim 接口

让机器人走出实验室,走向世界

发布这些技术是一件值得庆祝的事,因为这会扩大机器人技术的受众面。微软的研究人员相信,基于语言的机器人控制将会为让机器人从科学实验室走进日常用户的生活中奠定基础。

本文要强调的是,在没有仔细分析的情况下,ChatGPT 的输出并不意味着要直接部署在机器人上。研究者鼓励用户利用模拟的力量,以便在潜在的现实生活部署之前评估这些算法,并始终采取必要的安全预防措施。本文所讲述的工作只代表了在机器人领域运行的大型语言模型的交集中可能实现的一小部分,希望能为更多的研究提供灵感。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36931.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

multimodal prompting

Prompting for Multimodal Hateful Meme Classification 这篇文献探讨了针对hateful memes的分类问题,提出了一种基于提示的方法(PromptHate),该方法利用预训练的语言模型来实现分类。由于hateful memes需要复杂的推理和上下文背…

基于各种机器学习和深度学习的中文微博情感分析

来源:机器学习AI算法工程 本文约600字,建议阅读5分钟 本文中,我们介绍了中文微博情感分析的情况。 中文微博情感分类语料库 "情感分析"是我本科的毕业设计,也是我入门并爱上NLP的项目hhh,当时网上相关语料库…

主管发话:一周搞不定用友U8 ERP跨业务数据分析,明天就可以“毕业”了

随着月末来临,又到了汇报总结的时刻。 (图片来自网络) 到了这个特殊时期,你的老板就一定想要查看企业整体的运转情况、销售业绩、客户实况分析、客户活跃度、Top10 sales、 产品情况、订单处理情况等信息。 对业务有一定了解的同…

开源 ERP 系统 GoodERP

如果你有一个苹果,我也有一个苹果,彼此交换后,你我还是一人一个苹果,但是如果你有一个想法,我有一个想法,彼此交换后,你我就都有两个想法,三个人呢?一百个人呢&#xff1…

shopee虾扑erp软件,两大功能帮你详细解析

很多跨境小伙伴目前也已经用到了我们的虾扑erp数据分析软件,功能之前也有详细解读,shopee虾扑erp软件对于我们的店铺是有非常大的帮助的,可以大大减少我们卖家需要前期铺货所付出的长时间和精力,下面就来解析一下这两大功能是如何…

再有人问ERP是什么,有什么用,就这么回答他吧

ERP系统是什么? 百度一搜,ERP的含义为下: ERP是英文 Enterprise Resource Planning的首字母简写,是指企业资源计划系统。ERP是一个实现信息集成的管理系统,是企业内部的所有业务部门直接或者企业与外部合作伙伴之间交换…

一起来聊聊ERP

聊聊ERP 哈喽,哈喽,大家好!今天开始,我们就来讲ERP了。 什么是ERP ERP是Enterprise Resource Planning 的缩写,中文含义是企业资源计划。它代表了当前在全球范围内应用最广泛、最有效的一种企业管理方法,…

正在开发云ERP,业务功能与天心CS ERP一模一样, 欢迎大家指正

正在开发云ERP,业务功能与天心CS ERP一模一样, 欢迎大家指正 正在开发云ERP,欢迎大家指正 天心ERP全部PDK源代码到了我手上的后果 - 超越天心之WEB天云 详情>> 详情>> 详情>> 天心天字辈ERP全部PDK源代码到了我手上的…

当我问ChatGPT如何学习SAP……

文字版: How to study SAP ? Here are some steps to help you study SAP: Familiarize yourself with the SAP system: Before you begin to study SAP, its important to understand what the SAP system is and how it works. You can read introductory arti…

担心被ChatGPT取代?LMFlow让你打不过就加入!

作为一名金融领域的 NLP 从业者,自从 ChatGPT 出来以后,整个人都是处于担心下岗的状态。未来我还能做什么?整个自然语言处理行业会不会消失? 我也想在业务中利用 ChatGPT 的优势,然而整个 ChatGPT 是黑盒的&#xff0c…

测试工程师会被ChatGPT取代吗?没有那么简单

2022年底,ChatGPT横空出世,如今已火爆全球。ChatGPT不仅在科技圈引发了地震,更是引起了全社会的广泛关注,也让很多行业的从业者产生了担忧。 ChatGPT会取代教师吗?ChatGPT会让媒体工作者失业吗?ChatGPT会改…

领导说培养我,怎么看出来他是真培养,还是PUA我?

当你的领导说要培养你的时候,如何分辨他的真实意图? 一位网友问: 领导说培养我,怎么看出来他是真培养,还是PUA? 来看看这位网友的支招: 如果领导做到以下几点,那就是真的培养你。 1.…

遇到一个满嘴骚话的HR。。。

昨天看到一个非常扯蛋离大谱刷新三观的事情,有些小伙伴可能也看过了,看完之后确实感觉有够扯的。 有程序员因为能力很强,公司非常满意,结果派了一位 HR 与其谈薪资。但是这家公司给的薪资并不能让人满意,于是这位程序…

研究生被导师嫌弃是种怎样的体验?写的太真实了...

点击上方“3D视觉工坊”,选择“星标” 干货第一时间送达 本文来源:羊村传播(ID:yangcunmedia) Q & A:研究生被导师嫌弃是种怎样的体验? 当你和你导对话时,感觉被导嫌弃了会是怎样…

学生的致谢笑死!导师:致谢别矫情,没屁在那硬编!

本文来源:鲍海飞科学网博客及网络 最近看到一则毕业论文致谢的截图,差点把我笑傻~ 全文如下: 在论文付梓之际,我要万分感谢我的指导老师——**老师。她严谨细致、一丝不苟的作风将会是我往后工作、学习中的榜样;她天使…

这回导师们颤抖了,这个网站能匿名评价其“人品”,已有大量“不良”导师被爆...

点击上方“AI遇见机器学习”,选择“星标”公众号 重磅干货,第一时间送达 来自:研究生v 研究生导师如此良莠不齐, 如何得知导师的好坏? 今天推荐给大家这个网站, 导师评价网: https://www.mysupe…

考研生对导师“嚣张发言”引热议:希望您今年招个女同学,不然我换导师

转自 | 募格学术 参考资料 | 知乎、科学网博客、微博、抖音等 最近正值考研时节,不少考生都开始了联系导师的“求学之路”。 在抖音上,有这么一则考研生对导师说的“嚣张发言”引起大家热议。不少网友都表示:这么嚣张的考生实属少见 。 据截图…

一句代码搞定 Android 底部弹框

BottomDialog BottomDialog 一个自定义的从底部弹出的dialog&#xff0c;仿照微博的分享弹框 效果图 导入 compile top.zibin:BottomDialog:1.0.1使用 BottomDialog 只需要一句代码即可轻松显示底部弹框 创建Menu <?xml version"1.0" encoding"utf-8&…

Luban压缩源码学习

1.Android图片显示遇到的问题 在Android应用中加载图片&#xff0c;是一个需要消耗内存的一个动作。也是Android开发者在项目优化中比较头疼的一个问题。 先了解下加载图片如何消耗内存的 图片质量1px所占空间&#xff08;1byte8位&#xff09;1024*1024图片大小ALPHA_8只有…

Luban(鲁班)--图片压缩使用以及源码解析

###1.Android图片显示遇到的问题 在Android应用中加载图片&#xff0c;是一个需要消耗内存的一个动作。也是Android开发者在项目优化中比较头疼的一个问题。 先了解下加载图片如何消耗内存的 图片质量1px所占空间&#xff08;1byte8位&#xff09;1024*1024图片大小ALPHA_8只…