Embodied AI 具身智能

大模型的时代的到来,现在的大模型的参数几乎是几何级数的上升。

谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型——PaLM-E:An Embodied Multimodal Language Model。通才大模型PaLM-E,什么是通才模型,就是多任务统一学习范式的成果。尤其在GPT3.5的巨大成功后,大家都不甘落后。

文章目录

  • 具身智能概述
  • 一、难点解析
  • 二、如何实现更加便利的人机交互?
    • 1. 问题
    • 2.对环境的模拟Sim2Real
  • 总结


具身智能概述

具身智能定义:智能体通过与环境产生交互后,通过自身的学习,产生对于客观世界的理解和改造能力。
具身智能假设:智能行为可以被具有对应形态的智能体,通过适应环境的方式学习到。因此,地球上所有的生物,都可以说是具身智能。
具身智能是能够提升当前的“弱人工智能”认知能力的重要方式。人工智能可以通过与环境交互的渠道,从真实的物理或虚拟的数字空间中学习和进步。同时,具身智能是产生超级人工智能的一条可能路径。
具身AI对立的词是Internet AI,指通过互联网上的数据进行学习,比如我们一直在做的CV、NLP。而Embodied AI是指从与环境的交互中学习。

Embodied AI = Embodied Intelligence = 具象AI = 具身智能Internet AI = Disembodied AI = 非具身智能


一、难点解析

如何通过互联网上丰富的多模态数据,训练一个通用模型,可以根据指令在环境中执行各种任务。
有以下两个难点:

  1. 如何提升学习效率:通过与环境交互学习有很大风险,效率也低(正向奖励太少),而通过观察(observation),利用现有数据学习效率才更高,这样也可以延续预训练-精调/Prompt的范式,把更多的知识迁移到下游。

  2. 复杂的输入输出和环境:在最复杂的情况下,模型的输入是多模态指令,输出是可以在真实环境执行的动作。其实针对Embodied AI的评估有多种任务,比如Navigation、Manipulation、Instruction following,但指令是可以描述所有任务的,需要更高维的理解。同时,输出的动作空间大小、环境是模拟的还是真实的,都会带来不同的挑战。
    一些机构的进展如下:
    在这里插入图片描述

二、如何实现更加便利的人机交互?

1. 问题

具身智能机器人:首先,要能够听懂人类语言,然后,分解任务,规划子任务,移动中识别物体,与环境交互,最终完成相应任务。
GPT等大模型的出现提供了新思路——已有不少研究者尝试将多模态的大语言模型与机器人结合起来,通过将图像、文字、具身数据联合训练,并引入多模态输入,增强模型对现实中对象的理解,帮助机器人处理具身推理任务。

谷歌、微软的AI团队走在前列,试图以大模型为机器人注入灵魂。

3月8日,谷歌和柏林工业大学的团队重磅推出了史上最大的视觉-语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。具体来说, PaLM-E-562B 集成了参数量 540B 的 PaLM 和参数量 22B 的视觉 Transformer(ViT),作为一种多模态具身视觉语言模型(VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。谷歌研究人员计划探索PaLM-E在现实世界场景中的更多应用,例如家庭自动化或工业机器人。他们希望PaLM-E能够激发更多关于多模态推理和具身AI的研究。
在这里插入图片描述
https://arxiv.org/abs/2303.03378
作为一种多模态具身视觉语言模型 (VLM),PaLM-E不仅可以理解图像,还能理解、生成语言,而且竟然还能将两者结合起来,处理复杂的机器人指令。此外,通过PaLM-540B语言模型与ViT-22B视觉Transformer模型相结合,PaLM-E最终的参数量高达5620亿。
PaLM-E,全称Pathways Language Model with Embodied,是一种具身视觉语言模型。它的强大之处在于,能够利用视觉数据来增强其语言处理能力。

据论文介绍,PaLM-E是一个仅有解码器的LLM,在给定前缀(prefix)或提示(prompt)下,能够以自回归方式生成文本补全。其训练数据为包含视觉、连续状态估计和文本输入编码的多模式语句。研究人员则观察到了一个显著的优势。语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强。从模型规模来看,5620亿参数的PaLM-E几乎保持了它所有的语言能力。
比如,「从抽屉里拿出薯片」这类指令中,就包括了多个计划步骤,以及来自机器人摄像头的视觉反馈。经过端到端训练的PaLM-E,可以直接从像素开始对机器人进行规划。由于模型被集成到一个控制回路中,所以机器人在拿薯片的过程中,对途中的干扰都有鲁棒性。

人类:给我来点薯片。
机器人:

  1. 走到抽屉旁
  2. 打开最上面的抽屉
  3. 从最上面的抽屉里拿起绿色的薯片
  4. 放在柜台上。

最后,研究结果还表明,冻结语言模型是通向完全保留其语言能力的通用具身多模态模型的可行之路。但同时,研究人员还发现了一条解冻模型的替代路线,即扩大语言模型的规模可以显著减少灾难性遗忘。

在最近的一项研究中,微软团队在探索如何将 OpenAI研发的ChatGPT扩展到机器人领域[8],从而让我们用语言直观控制如机械臂、无人机、家庭辅助机器人等多个平台。研究人员展示了多个 ChatGPT 解决机器人难题的示例,以及在操作、空中和导航领域的复杂机器人部署。
在这里插入图片描述
很明显,谷歌和微软对具身AI有高度相似的期许:人类操作机器人,不需要学习复杂的编程语言或机器人系统的细节,“言出”(向机器人口述/比划需求)即“法随”(机器人完成任务)[2],达到“得心应手,如臂使指“的境界。可以预见,基于自然语言控制的机器人控制,将成为未来热门的研究方向。
在使用ChatGPT几个月后,我仍觉得其有很大的探索空间,基于GPT开发的插件在提高工作效率上有很大的潜力,比如ChatPaper可以帮助快速阅览论文;EditGPT可以帮忙润色英文写作。体验下来,大语言模型对数据的归纳梳理能力毫无疑问早已超越人类,理解、逻辑推理能力也是出乎意料的强大,黄仁勋将ChatGPT的问世称之为AI界的“iPhone时刻”。在某些问题上,向ChatGPT提问比向百度、Google等搜索引擎提问更加快速且有效。GPT-4相比于GPT-3.5,增加了理解图像的能力;基本没有误解问题的情况,甚至能够去处理更复杂的任务。简而言之,它的可靠性更好。例如,GPT-4能够写诗,可以写押头韵的诗,也能写押尾韵的诗。甚至它能去理解笑话,能明白笑话背后的意思。还有一个例子体现出GPT-4的理解能力得到了进一步的进化。
ChatGPT等先进的大语言模型对实现具身智能中便利的人机交互有着至关重要的作用。

2.对环境的模拟Sim2Real

训练具身智能的一种直接方法是将它们直接放置在物理世界中。这很有价值,但在现实世界中训练机器人速度慢、危险(机器人可能会摔倒并摔坏)、资源密集型(机器人和环境需要资源和时间)并且难以重现(尤其是罕见的边缘情况)。另一种方法是在逼真的模拟器中训练具身代理,然后将学到的技能转移到现实中。模拟器可以帮助克服物理世界的一些挑战。模拟器可以比实时运行快几个数量级,并且可以在集群上并行化;模拟培训安全、便宜。一旦在模拟中开发和测试了一种方法,就可以将其转移到在现实世界中运行的物理平台。

很大概率,具身智能是通向通用人工智能的更Promising的一条路。


总结

如果说数据是算法的天花板,那现在的瓶颈,比如推理、常识学习,原因可能在于现有数据的多样性?

视觉、听觉、触觉都是我们认识世界的途径之一,他们之间的联系也会让我们加深理解,把模态叠加起来,让模型不断接近我们的现实世界,或许是突破单模态任务瓶颈的方法。

另外到了Embodied AI时代,虚拟环境就是必需品了,OpenAI、英伟达、AllenAI都发布了他们的虚拟环境,能否滋生一个新的生态?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27593.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Chat GPT提示词(prompt )入门指南

prompt 是什么 prompt 是“提示、引导”的意思。在 NLP (自然语言处理)领域,prompt 通常指的是向预训练模型输入的文本,用于引导生成模型生成指定的文本输出。 prompt 就像是一条指路路线,告诉计算机生成什么样的文本…

聊聊国内头部云服务厂商新上线的轻量服务器

听说UCloud优刻得上线了轻量应用云主机,今天一起来看下这个产品的配置和价格如何吧。 首先先看下配置,不同于阿里和腾讯,满满当当的控制台选项,优刻得的控制台相对比较清爽简洁,还是蛮适合新手小白的。 一共有6个配置…

拼多多回应将总部从中国迁至爱尔兰:严重失实;微软开放 Bing Chat 访问,无需等待;OpenAI 亏损翻倍|极客头条...

「极客头条」—— 技术人员的新闻圈! CSDN 的读者朋友们早上好哇,「极客头条」来啦,快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN(ID:CSDNnews) 一分钟速览新闻点&#…

ChatGPT火到独立站领域,对FP独立站收款到底有什么影响?

做F牌独立站的商家或多或少都知道,从今年3月份开始,FP独立站的收款就频频出现问题,很多人都跑来问我,第一句话就是:有没有靠谱点的收款渠道? 为什么最近几个月的收款渠道如此稀缺,以前常用的渠道…

涂鸦智能宠物喂食器(鱼缸投食器)

涂鸦智能宠物喂食器(鱼缸投食器) 系统框架①涂鸦IOT平台1.创建产品1.进入IOT平台,注册登录,点击创建产品。2.选择小家电→宠物喂食器→MCU方案→Wi-fi→输入产品名称、型号3.添加标准功能与新建自定义功能:根据实际情况…

涂鸦模组二次开发Zigbee 模组烧录

芯片平台EFR32MG21A020F768IM32-B 芯片平台EFR32MG13P732F512GM48 简介 ​ 完成模组 SDK 固件开发后,您需要对模组进行烧录授权以实现连接涂鸦云端的能力。根据不同场景的需求,涂鸦提供了多种烧录授权的方式。本文从以下两点为您介绍。 云模组烧录授权…

涂鸦智能平台——mcu+nbiot

涂鸦智能平台——mcunbiot接入云平台上报温湿度和防拆报警 准备环境和硬件平台 平台准备 1、注册涂鸦平台账号并登陆 2、创建一个产品产品类型为:温湿度传感器 3、创建数据点(可直接选用平台现有的数据点) 4、设置设备面板(直接选…

硬件改造:新型涂鸦智能暖风机!

一、功能逻辑 在功能逻辑上,我们还是基于涂鸦CBU模组实现拆机之前的机器原有的基础功能和逻辑: 1)倾倒断电 倾倒断电功能在热风机中十分必要,直立造型在实际运用过程中很容易发生误撞倾倒事件,倾倒以后倘若外壳破损导…

STM32对接涂鸦wifi模块项目记录(智能插座完善版本)

应项目需求,客户需要对接涂鸦平台,从了解平台到样品实际落地,还是挺方便的, 做过的一个项目,人体感应智能插座项目,对接涂鸦云 : 硬件平台:STM32F103 WIFI模块: 涂鸦WiFi…

面经—(涂鸦智能)

1.java 1.1 hash算法 1.1.1 除余法 除余法就是用关键码x除以M&#xff08;往往取散列表长度&#xff09;,并取余数作为散列地址。 1.1.2 乘余取整法 先让关键码key乘上一个常数A(O<A<1&#xff09;,提取乘积的小数部分。然后,再用整数n乘以这个值,对结果向下取整,把…

涂鸦智能模块二次开发--基础

本次主要以CBU模块为例&#xff0c;使用例程完成手机端–云端–终端的连接&#xff0c; 涂鸦 SDK 开发最基础指导&#xff0c;包含了开发环境、以及手机端 -云端-终端的配置工作&#xff0c;可以让开发者最快时间完成 demo 的测试工 作&#xff0c;demo 例程共有 template、elp…

【IoT智能单品设计】一款基于涂鸦智能IoT云平台的新型智能蓝牙水杯

文章目录 1 前言2 产品构思2.1 产品名称2.2 产品主要解决的问题2.3 产品的创新功能点 3 产品原型3.1 云平台选型3.2 智能单品的创建 4 产品开发4.1 硬件设计4.2 软件设计4.3 功能调试 5 产品功能展示6 产品功能拓展7 结束语 1 前言 近些年来&#xff0c;随着科技的更新迭代&am…

智能家居竞品分析:米家/HomeKit/美居/涂鸦智能的体验与思考

竞品选择 本次竞品&#xff08;体验&#xff09;分析目的在于了解目前主流智能家居产品的现状及使用情况&#xff0c;通过不同使用环境下体验设备连接、场景搭建以及日常操作&#xff0c;了解竞品全链路使用流程。主要从五个层次深入分析竞品&#xff0c;为本产品改版做基础准…

涂鸦智能SoC零代码开发接入

零代码开发 何为零代码开发&#xff0c;顾名思义是指无需编写代码、就能实现一款产品的搭建。举个很形象的例子&#xff0c;大家都玩过乐高积木&#xff0c;零代码开发就像搭建乐高积木一样开发出满足需求的产品。零代码和乐高这种产品有差不多的共性&#xff0c;就是能给开发…

Android的涂鸦智能设备几种入网方式

最近在接触涂鸦智能设备&#xff0c;利用App与设备进行连接进行远程的控制设备&#xff0c;同时对室内的温湿度&#xff0c;烟雾等参数进行监听&#xff0c;实时观察室内的危险参数&#xff0c;然后首先在这里&#xff0c;我们先可以了解一下设备几种入网的方式。 快连入网&am…

透过涂鸦智能Q3财报,看全球IoT市场的动荡与发展

IoT智能设备已经逐渐在日常生活中普及&#xff0c;但它们背后的应用平台往往被人忽视。 作为唯一一家赴美上市的IoT平台企业&#xff0c;涂鸦智能区别于小米、海尔、华为等厂商的中立性&#xff0c;让它有了一些独特的行业参考价值。 近期&#xff0c;涂鸦智能发布了截至2021…

Pulsar 在涂鸦智能的实践

????️ 阅读本文需 7 分钟 作者&#xff1a;张永红&#xff0c;开放平台组研发工程师&#xff08;涂鸦智能&#xff09; >>> 关于涂鸦 涂鸦智能是一个全球化智能平台和“AIIoT”开发者平台&#xff0c;也是世界排名前列的语音 AI 交互平台。连接消费者、制作品牌、…

使用涂鸦智能平台快速开发项目

使用三明治开发套件 涂鸦三明治开发套件符合 Arduino 开发规范&#xff0c;开发者可选择任意 Arduino 接口开发板&#xff0c;通过 Arduino IDE 简单快速搭建新的智能设备。 通过涂鸦三明治开发套件&#xff0c;非常方便地以类似“三明治”层层叠加的方式组合成一个完整的 Io…

智能家居1 涂鸦开关接入homeassistant

一、获取涂鸦开关的localkey 参考原文&#xff1a;https://bbs.hassbian.com/forum.php?modviewthread&tid12168&highlight%E6%B6%82%E9%B8%A6 Linux(如树莓派)需要安装运行tuyapi/cli 这个软件&#xff0c;示例&#xff1a;npm i tuyapi/cli -g。 如果出现权限错误&…