在「机器人领域」使用ChatGPT提高生产力

最近几个月,ChatGPT 大火,它是OpenAI于去年11月底推出的人工智能聊天机器人程序,已经成为了历史上增长最快的消费者应用程序 [1]。毫无疑问,ChatGPT受到了各个行业的广泛关注。

其中在机器人领域,微软于今年2月20日发布了"ChatGPT for Robotics"的技术报告 [2],为如何将ChatGPT 融入机器人领域提供了一种可能的视角。与纯文本的应用不同,机器人系统需要对现实世界的物理、环境背景和物理动作的执行能力有深入的了解。而且所生成机器人模型需要具备相当的常识性知识和符合实际的物理模型,以及与用户交互以解释和执行实际现实中可行的命令。下面笔者将根据这份报告,解读怎样在机器人领域使用ChatGPT 来提升生产力。

一、Pipeline设计流程

1. 整体流程

ChatGPT 本质上是一个语言模型,采用对话的形式,根据用户的指令做出相应的回应。从最基本的语言回应,到代码生成与debug,再到情景角色扮演,这些应用的一个核心关键就是用户提示词的撰写(prompt),用户需要通过准确详细的提示词告诉ChatGPT应该做什么,然后让ChatGPT 去执行。为此,

1.首先需要手工设计一系列的机器人功能库函数来实现底层执行器的命令,如,移动,停止,获得目标的位置信息等等。

2.第二步是给ChatGPT 写一个提示词,用来描述需要让ChatGPT 执行的目标。

3.第三步是使用者评估ChatGPT 生成的代码,并且给ChatGPT 提供反馈,让ChatGPT 进行下一步改进。

4.通过提供反馈,将代码进行不断迭代改进,当用户测试通过之后,就可以部署到实际的系统中了。

流程图如下:

ca5a0ac064924627537b1710400b84d5.png

图 1 利用ChatGPT 进行机器人顶层算法设计 [2]

2. 关于Prompt 的注意事项

如果想要让ChatGPT 更容易理解用户的意思,产生更准确的回应,那么用户所给出的提示词就需要清晰明了:描述中除了要包含让ChatGPT调用的底层机器人功能库函数之外,还要考虑以下几点内容:

1.具体的任务要求和约束条件:举个例子比如说想要让机器人移动物体,那么prompt 里面首先要介绍相关信息告诉ChatGPT,比如物体的位置、尺寸等等。

2.对环境的描述:提示词中需要描述清楚这个任务是在什么环境下进行的。举个例子来说,比如目标任务是在迷宫中导航,那么就需要介绍迷宫的尺寸和形状,以及里面存在的障碍物等信息。

3.目前的状态信息:需要告诉ChatGPT 机器人系统目前的它的状态信息,比如位置、朝向等等。

4.目标:比如任务是组装一个拼图,那就需要告诉ChatGPT 需要拼接的零件数目以及期望的完成时间。

5.解决方案的样例:当任务比较复杂的时候,比如需要ChatGPT 与使用者进行交互的时候,可以通过给一些例子来描述这个过程。见下图。作者向ChatGPT提供了一个机器人何时向人类询问以获取进一步指令的例子。

51cea695bc3c552a266eddf044f3a7af.png图 2 提供范例告诉ChatGPT如何以及何时与用户进行交互以寻求帮助 [2]

(点击图片查看大图)

6.提示词的设计原则:可参考:https://learningprompt.wiki,该网站指出了设计提示词的所有技巧和原则。也可以参考https://promptperfect.jina.ai/,该网站能够自动优化所使用的提示词,从而让ChatGPT提供期望的高质量结果。

二、潜在应用前景

在设计完成Pipeline 之后,就可以把目光转到ChatGPT的具体机器人应用上来:如仿真环境下无人机的任务规划和避障,现实世界的空中无人机感知和操纵部署等等。

值得注意的是,在微软的文章中 [2],除了展示ChatGPT 的强大能力之外,也强调了ChatGPT的局限性:不应忽视实际的部署安全性问题,尤其是在实际物理系统机器人部署的情况下。在 ChatGPT有可能产生意外行为的情况下,必须有人在循环中进行监控和干预。此外,在将模型部署到现实世界之前,使用模拟器进行仿真有助于更好地评估模型的性能。文中强调,将 ChatGPT 用于机器人技术并不是完全自动化的过程,而是充当增强人类能力的工具

本文中主要把应用场景分成了三类:零样本任务规划、通过人在回路的反馈交互来完成复杂任务、包含感知层的任务执行。笔者将针对这三种情况进行一一介绍。

1. 零样本任务规划

(1)在AirSim 环境下的工业巡检

在该情境下,即使是让非专业的使用者通过ChatGPT 也能够控制无人机完成工业巡检任务目标。

ChatGPT 能够理解用户的意图并且能够精准控制无人机完成任务。视频见https://www.youtube.com/watch?v=38lA3U2J43w

866c0196184d15f3e2b1f8cc7040f5ac.jpeg图 3 AirSim 环境下的工业巡检 [2]

(2)通过人与机器人的语言交互达成现实世界中无人机的飞行任务

ChatGPT 在用户和机器人之间提供了极其直观的自然语言交互界面,仅仅根据一些模棱两可和定义不明确的指令就可以编写机器人代码,并在必要时请求问题的进一步阐释。这种交互模式能够为无人机导航的任务编写复杂的代码结构。视频链接见https://youtu.be/i5wZJFb4dyA

2. 使用者在回路:通过与ChatGPT交互式对话实现复杂任务

这一部分专注于让ChatGPT 执行复杂任务。这种交互方式允许复杂的结构,例如课程学习(curriculum learning)。在这种情况下,会教授给ChatGPT较小规模的技能,这些技能可以结合起来用于更大、更复杂的任务。此外,ChatGPT 能够获取有关生成的代码的文本反馈,并修改其代码,从而使非专业使用者能够轻松地与之交互。

(1)利用Curriculum learning 实现对物体的操纵摆放

第一个例子是使用机械臂设置了一个块排列任务,为此设计了一个课程。ChatGPT 被要求学习更简单的拾取对象然后放置它们的技能。随后,当被要求使用这些技能来执行更复杂的块排列任务时,ChatGPT将这些学到的技能能够组合在一起。此外,当任务是用五块构建微软徽标时,该模型展示了一个典型的通用性示例,它可以桥接文本域和物理域:因为此任务需要记住公司徽标的外观,包括其颜色,然后将徽标抽象为可由现有机器人动作构建的物理部分。

df71533b391604d1065923369790c5b7.png图4 用机械臂实现物块摆放 [2]

视频链接见https://youtu.be/wLOChUtdqoA

(2)在AirSim 环境下实现无人机避障

ChatGPT 可以为配备前向距离传感器的无人机编写具有避障功能的目标到达算法。ChatGPT 构建了避障算法的大部分关键模块,但仍需要一些人工反馈以进行矫正。尽管人工反馈以高级文本形式提供,但ChatGPT 能够理解人的指令要求并对代码进行相应的修改。

7f741e5d7e764e2f3e4f9d604652f6e7.png图5 AirSim 环境下实现无人机避障 [2]

视频链接见https://youtu.be/Vn6NapLlHPE

3. 具备感知功能后进行行动

文章还评估了 ChatGPT 进行感知-动作循环的能力。首先,模型能够利用 API 库在其输出代码中构建感知-动作循环的能力。它能够正确地利用图像采集和目标检测等感知功能来提取机器人导航和控制的相关信息。然后进一步的,使用者可以通过文本对话不断向模型提供感知信息,用户在对话期间可以将观察结果(转换为文本格式)输入 ChatGPT。ChatGPT 能够解析此观察流并输出相应的操作。

具身智能:目标导航

该任务中ChatGPT 拥有了对计算机视觉模型的访问权限,并作为其功能库的一部分,赋予它探索未知环境并导航到用户指定对象的任务。对象检测 API(后端的 YOLOv8 [3])返回边界框,ChatGPT 生成代码来估计相对对象角度并向它们导航。当用户向 ChatGPT 提供来自深度传感器的附加信息时,它产生了一种带有像素深度掩码的改进算法。

b58aa927ab1c6c98d5b4d439ab72f81f.png图6 提供视觉接口后进行目标导航 [2]

视频链接见 https://youtu.be/p0fDH9zZm_c

三、总结

在微软的这份文档中,提出了一个将 ChatGPT 用于机器人应用程序的框架。该框架首先需要设计和实施用于机器人控制的 API 库,这些 API 可以帮助 ChatGPT 进行顶层设计。并且,该框架能够用于多种机器人应用场景中:如空中机器人、操纵和视觉导航的部署等等。同时文章也强调,不应让这些工具完全控制机器人系统,尤其是对于安全关键型系统, 因为ChatGPT具有生成错误响应的倾向。因此在实际机器人上执行代码之前,应该在人工监督下确保代码的质量和安全性

参考文献

[1] https://redian.news/wxnews/251179

[2] Vemprala, Sai, et al. "ChatGPT for Robotics: Design Principles and Model Abilities." (2023).

[3] Redmon, Joseph, et al. "You only look once: Unified, real-time object detection." Proceedings ofthe IEEE conference on computer vision and pattern recognition. 2016.

本文共2793字

由西湖大学智能无人系统实验室博士生小米原创

申请文章授权请联系后台运营人员

-END-

往期推荐

【集群控制】基于维诺图的集群控制方法

【强化学习】强化学习环境ISAAC GYM(二)-再探索(Docker + 4090)

【视觉感知】运动目标检测算法简介及其应用

【一张图讲完强化学习原理】 30分钟了解强化学习名词脉络

软件设计——SOLID原则(一)

浅析Fisher 信息

acd7819a5385bac24621dcc6a735876f.jpeg

▌知乎:空中机器人前沿

▌Bilibili:西湖大学空中机器人

▌Youtube:Aerial robotics @ Westlake University

▌实验室网站:https://shiyuzhao.westlake.edu.cn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/28110.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2020年一线城市程序员工资大调查

趋势 从趋势上看,基本上一线城市的工资都是上升的趋势。 人才需求 一线城市共发布岗位38115个,招聘120827人。 其中 beijing 22805 guangzhou 25081 shanghai 39614 shenzhen 33327 工资分布 2020年中国一线城市程序员的平均工资为16285元&#xff…

人工智能,落地为王!深圳人工智能企业百强榜超七成为应用层

中国工程院院士、香港中文大学(深圳)校长徐扬生认为,深圳具有完备的制造产业链,包括制造机器人的产业链,为设计、开发、制造人工智能系统提供了得天独厚的条件,这也不难理解为何深圳AI企业百强榜中超七成为应用层了。 人工智能作为…

致敬我在深圳大学的C++启蒙老师,跟着他学计算机编程就对了 (文末赠书5本)

致敬我的C启蒙老师,跟着他学计算机编程就对了 摘要 讲述了一个故事,介绍了一位良师,一段因C而续写的回忆,希望对各位看官有所帮助和启发。 文章目录 1 写在前面2 我的C启蒙老师3 谈谈老师给我的启发4 友情推荐5 文末福利 1 写在前…

本周杭州程序员工资大调查,高于深圳和广州

今天晚上11点,爬了某招聘网站,获取近7日内杭州的程序员工资2344条。其中,有工资的2275条。本文分别统计了工资的分布,工资和学历,工作经验和公司的性质,规模,产业的关系。 这里的程序员包括普通…

不得不说的Telegram : 币圈与链圈的微信

如果让你在「大而全的应用」和「小而美的应用」之间选一个,你会选择哪一个?你可以带着这个问题来阅读这篇软件体验报告,今天的主角是一款 IM 软件:Telegram Telegram Messenger 是一个跨平台的实时通讯软件,它的客户端…

再次来到爱丁堡

工作了几年后,作为访问学者再次来到爱丁堡。 出国访学有下面几个原因: 不太喜欢国内的科研环境。太浮躁,杂事也多。没有几个真正想搞学术的,大部分学术圈的人要么躺平,要么天天想着快速捞名利,我那个差单位…

【2020年领域新星】 赵彦鹏 爱丁堡大学

【2020年领域新星】赵彦鹏,爱丁堡大学语言、认知和计算研究所博士生,导师是Ivan Titov和Mirella Lapata教授。研究兴趣是结构预测和隐变量模型,现在主要关注语言结构和图像结构的学习,以及二者之间的联系。论文“Visually Grounde…

InstructGPT高效实践——【DeepSpeed-Chat】源码详解(2/3):Supervised Finetuning、Reward Model Finetuning

目录 前言1 phase-1: Supervised Finetuning1.1 训练数据样例1.2 训练过程1.3 关键代码详解1.3.1 基座模型结构1.3.2 LoRA结构及其正向传播1.3.3 phase1的指标评估 1.4 实例测试1.5 相关拓展1.5.1 多轮对话性能1.5.2 本阶段训练更倾向过拟合 1.6 版块相关问题 2 phase-2: Rewar…

NEWS|药物发现公司正在定制ChatGPT:方法如下

大型语言模型正在帮助科学家与人工智能交谈,甚至产生潜在的药物靶点。 近几个月来,世界大部分地区都被OpenAI的ChatGPT等文本生成引擎的出现所震惊,人工智能(AI)算法能够生成看起来像是由人类编写的文本。虽然像微软和…

ChatGPT强势加入芯片设计!不用学专业硬件描述语言了,说人话就行

西风 发自 凹非寺量子位 | 公众号 QbitAI 和ChatGPT聊聊天,就可解决CPU开发过程中的一大难题? 纽约大学(NYU)研究人员完成了一件看似不可能的事情: 无需专业的硬件描述语言(HDL),仅靠…

激素、酶、细胞因子区别;肿瘤细胞信号通路

参考: https://www.xuetangx.com/course/THU08261001403/12423502?channeli.area.learn_title 本文章主要有chatgpt生成: 1、激素、酶、细胞因子区别 概念、功能 激素、酶和细胞因子都是生物活性物质,激素、酶和细胞因子都是蛋白质&#…

雷军宣布进军ChatGPT大战!国内ChatGPT赛道一触即发!

4-14号,小米CEO雷军在微博宣布,正在研发一些“有趣的技术和产品”。 雷军称,此前曾多次被问及对于大模型和AIGC的看法。 此次,雷军正式对这些问题公开进行回应,表示“在AI领域已经耕耘多年”,对大模型“当然…

ChatGPT 提示词全网最全案例汇总

GPT地址,收藏不迷路:https://ai.cxyquan.com/ ChatGPT 提示词案例分享 充当旅游指南 我想让你做一个旅游指南。我会把我的位置写给你,你会推荐一个靠近我的位置的地方。在某些情况下,我还会告诉您我将访问的地方类型。您还会向我推…

比较了几种编程语言后,我终于get到了少儿编程的真谛

真是让人感受到人工智能有多么神奇! 看展途中,同去的朋友对我说,自己一直觉得未来人工智能是大趋势,所以正在让孩子学编程。可是,他看孩子学的编程都只是用一款叫Scratch的软件拖来拖去,做做简单的动画和游…

少儿编程简介

少儿编程一般来说,是针对4-17岁的青少年儿童开展的教育,不像众多家长了解的成人编程那样,不是单纯的敲击键盘、枯燥地编写一行行晦涩难懂的英文代码,而是以青少年可以接受的方式,比如实体积木块,图形化积木…

少儿编程值得报班学习吗?别问了,程序员懵了

今年中小学生的暑假期间,想必很多程序员收到了以下私信: 程序员你好,少儿编程值得学习吗? 1、不是一个行业,你让程序员怎么回答? 程序员从事的工作,属于互联网行业;少儿编程的培训&…

向幼儿群体提供实用的少儿编程

政策为青少年、儿童编程教育背书。首先,我国政府、教育部门发布文件明确表明支持青少年、儿童编程教育的发展。格物斯坦认为:为了应对人工智能时代发展的需要,越是进步和充满便利的时代,越需要人的思考和认识。AI时代,…

谷歌全线反击!PaLM 2部分性能已经超越GPT-4

ChatGPT横空出世,所有人都能够明确感知到AI的惊人潜力,瞬间改变了整个AI行业的节奏,不紧不慢的谷歌也开始紧张了。 ChatGPT舆论热潮仍未消退,红色警报又拉响 北京时间5月11日凌晨1点,Google I/O 2023开发者大会上发布…

ChatGPT初体验step by step:ChatGPT解决人类提出的数理逻辑问题,Python编程实践

ChatGPT初体验step by step:ChatGPT解决人类提出的数理逻辑问题,Python编程实践 如果已有有效的open ai的api key,则跳过本文(1)(2)(3)(4)&#x…

我的 ChatGPT初体验

要有一个ChatGPT帐号,这个很重要,YouTube 有很多教程,这里就不细说了, 最近家里的房子想装修,个人是小白知识匮乏,就想问下ChatGPT给一些学习思路和方法下面直接上图了。