具身智能,是机器人的“冷饭热炒”吗?

5c0b6e6c68eb4826cebee3ed40579b03.jpeg

大模型正如火如荼,下一个AI风口就来了。

如果你关注2023世界人工智能大会等行业峰会,以及英伟达、微软、谷歌、特斯拉和国內科技大厂的最新发布会,除了“大模型”,应该会听到另一个高频词——具身智能。

所谓具身智能Embodied AI ,指的是有身体并支持物理交互的智能体。

简单来说,就是让AGI从数字世界走向实体世界,落地在机器人、机械臂、无人车、无人机,让实体世界中的机器人/仿真人具有智能,像人一样与环境交互感知,执行各种各样的任务。

4e67d4d62c256ce8af70a8bc78154ba9.png

从这个角度看,其实很多人都已经见过或者玩过具身智能产品了。索尼的机器狗AIBO,软银的服务机器人pepper,还有波士顿动力的人形机器人和机器狗……这些具身智能产品,曾是不少人的童年回忆,或者科幻恐惧。

虽然技术概念很超前,但这些产品的市场表现,其实并不太理想,技术落地难、产品被停产、企业被转卖,都不算新闻。

因此也有人认为,具身智能作为AI的终极形态之一,只是一些大厂推动的营销概念。

我们今天就来聊聊,具身智能的这一波热度,是机器人的“冷饭热炒”吗?

下一个AI风口

e29bf58d76f9f2a80d587d6082f1f1f5.png

古话说得好,遇到问题,先问是不是,再问为什么。

有必要先探讨一下,具身智能真的火了吗?

目前来看,AI学术界和工业界,确实已经将“具身智能”,作为下一个风口。

学术层面,不少科学家提出推论,大模型的技术路径打通之后,下一个突破是具身智能。

图灵奖得主、上海期智研究院院长姚期智认为,人工智能领域下一个挑战将是实现“具身通用人工智能”,即如何构建能够通过自我学习掌握各种技能并执行现实生活中的种种通用任务的高端机器人。清华大学计算机系教授张钹院士,也在某产业智能论坛上提出,随着基础模型的突破,通用智能机器人(具身智能)是未来的发展方向。

41e54b5e456587512795791a96895d31.png

(张钹院士的公开发言现场)

产业层面,谷歌、微软、特斯拉等科技公司近日都相继公布了自家的具身智能产品,国內头部科技大厂如华为、京东,也开始将自身在具身智能领域的相关布局,向大众布道。前不久印发的《北京市机器人产业创新发展行动方案(2023-2025年)(征求意见稿)》,也提出发展机器人“1+4”产品体系,加紧布局人形机器人研发与应用。具身智能的产业化、市场化潜力,正在加速积累。

如前所说,无论是现实生活中的机器狗、机械臂、无人车,还是科幻电影中的人形机器人,具身智能产品早已为大众所熟悉,但市场表现一直不温不火。为什么一夜之间成为风口了?

74969c7cc5ff85387e9327c7d345b9c6.png

和大模型“两开花”

这一波具身智能的热潮,让我想起了这张梗图。AGI起于大模型,终于具身智能。

591081851904970bc24611ce98b8903b.png

具身智能的概念,可以追溯到1950年,图灵在论文《Computing Machinery and Intelligence》中,提出机器像人一样能和环境交互感知,自主规划、决策、行动,并具备执行能力,是AI的终极形态。

历史上的两次人工智能浪潮,AI智能水平都达不到大众的预期,具身智能虽然诞生了波士顿动力这样的“炸裂”,但是作为一种未来概念和独特案例,并没有取得有成效的产业化进展。

当下正在第三次人工智能浪潮,具身智能的希望重燃,就在于跟大模型“两开花”。

具体来说,大语言模型让人们看到了AGI通用智能的希望,而这也让具身智能有了几个方面突破的可能性:

1.大模型——更厉害的“大脑”

我们知道,大语言模型和传统机器学习的区别,就在于泛化能力强,在复杂任务理解、连续对话、零样本推理等方向有了突破进展。这一突破,让机器人的理解力、连续决策力、人机交互能力,有了全新的解决思路。

微软研究院发布“ChatGPT for Robotics” 文章中提到,大型语言模型 (LLM) 将人的语言快速转换为机器人的高层控制代码,从而控制机械臂、无人机等机器人。

以前,由于传统AI不具备先验知识,理解力和泛化能力不足,机器人就无法像人一样拥有常识,必须要将一个指令由人类工程师分解成一连串简短的程式化程序,然后机器人(机械臂)再一步一步去完成每个动作。

这也使得高级别的具身智能,比如L5自动驾驶、人形机器人、机器狗等,人机交互无法满足现实中通用智能的需求,广泛应用的主要是机械臂、履带式搬运机器人等这类比较机械化的具身智能,只适应某一类设计好的特定任务。

有了大模型之后,机器人终于有了一个强大的“大脑”。

LLM可以帮助机器人更好理解运用到高级语义知识,自动化地分析自己的任务并拆分成具体的动作,这样与人类、与物理环境的互动更加自然,机器人也就显得更加智能了。

举个例子,让机器人倒一杯水,人类自动就会绕开室内的障碍物,但传统方式下,机器人并不具备“遇到障碍物水会打翻”这样的常识,经常会做错事,而大模型驱动的具身智能,就可以更好地理解这些知识,自动分解任务,不再需要工程师或者主人一步步地指导。

b5367701d53779c346bfbd09ac8c2f40.png

2.多模态——更丰富的“小脑”

“具身”所相对的概念是“离身”(Disembodiment),从中可以看到,具身智能的实现依赖于身体的感知,不能脱离身体而单独存在。

人类具有眼耳鼻舌身意,说明对于物理世界的充分感知和理解,是意识和智慧的来源。而传统AI更多的是被动观测,主要是“看”(计算机视觉)和“读”(文本NLP),这就使得智能体Agent缺乏对外部环境的通用感知能力。

以自动驾驶为例,无人车也是具身智能的载体,需要通过传感器、机器视觉、激光雷达等多种方式来感知物理世界的变化,成本昂贵,效果也不是很理想,至今依然没能实现L3级别的自动驾驶量产。

多模态大模型,可以积累和分析2D&3D视觉、LiDAR激光、Voice声音等多维信息,基于真实交互,为具身大模型积累高质量数据数据,深度理解并转化为机器指令,来控制机器人的行为。

有了感知能力更丰富的“小脑”,具身智能自然也就能更好的理解物理世界。

c4da032b4d4bffccf6c43e5bb987b140.png

3.精准决策——更灵活的躯干。

试想一下,如果一辆无人车,行驶过程中道路上突然冲出一个物体,它只能等着人类来判断“当前是什么情况”,下达指令“应该干什么”,那黄花菜都凉了,万一冲出来的是人,那实在是太危险太不可靠了。

传统的机器人训练往往采取pffline离线模式,一旦遇到训练环境中没有出现过的问题,就可能掉链子,需要收集数据再重新迭代优化,这个过程的效率很低,也减慢了具身智能在现实中落地的速度。

大模型时代,具身智能模型的训练与测试,与云服务相结合,可以在云上虚拟仿真场景下,进行端到端的实时训练与测试,快速完成端侧迭代与开发,这就大大加速了具身智能体的进化速度。

具身智能体在模拟出来的场景中无数次地尝试、学习、反馈、迭代,积累对物理世界的深度理解,产生大量交互数据,再通过与真实环境的不断交互积累经验,全面提升在复杂世界的自动移动、复杂任务的泛化能力,展现在具身载体上,就是机器人可以更好地适应环境,更灵活地运用机械“躯干”来进行人机交互。

一句话总结,和大模型“两开花”,将通用人工智能落地(Embodiment物理身体),为具身智能打开了新的想象空间。

能抓老鼠才是好猫

ea606016dc8cd4d4d37041ac2e7093b0.png

理论归理论,实践归实践。我们总说能抓住老鼠的才是好猫,那么实现具身智能,究竟有几种“抓老鼠”的方式呢?

目前,主要以两种路线为主:

一种是谷歌、伯克利等为代表的“未来派”,主打的是“一步到位”。

具体来说,这类研发机构是从具身智能的终极目标出发,希望从当下到终点,寻找一个端到端的技术路径,所给出的方案,往往采取“紧耦合”的方式,希望一个大模型就能包办所有,让机器人完成识别环境、分解任务、执行操作等所有工作,非常难,也非常有未来感。

比如今年三月谷歌推出的PaLM-E,就是一种多模态具身视觉语言模型(VLM),让机器人可以基于大模型,来理解图像、语言等数据,执行复杂的指令,而无需重新训练。

20910a222646becf1ff47d7eec82ec11.png

加州大学伯克利分校的LM Nav,则通过视觉模型、语言模型、视觉语言模型 CLIP等三个大模型,让机器人在不看地图的情况下按照语言指令到达目的地。Koushil Sreenath教授的工作,就是推动硬件本体、运动小脑、决策大脑三部分逐渐融合,让各种四足、双足,以及人形机器人在真实世界中灵活地运动。

另一种,是英伟达及大量工业机器人厂商为代表的“务实派”,主打的是“马上见效”。

“未来派”一步到位的路线虽然看起来很酷,但耗时漫长,距离产业可用还比较遥远,成本昂贵,产业客户未必能够接受。在种种不确定之夏,满足工业界需求,就出现了以松耦合来实现具身智能的技术路线。

简单来说,就是不同任务通过不同模型来实现,分别让机器人学习概念并指挥行动,把所有的指令分解执行,通过大模型来完成自动化调度和协作,比如语言大模型来学习对话、视觉大模型来识别地图、多模态大模型来完成肢体驱动。

这种方式虽然底层逻辑上看还是比较机械,不像人一样有综合智能,但成本和可行性上,能让具身智能更快落地。

哪种路线更优?坦率地说,我们认为都有其局限性。

紧耦合的“未来派”,硬科技的含量显然更高,在突破后很容易和LLM一样给产业带来颠覆式的变革,让此前的大量工作成为无用功,但问题是商业化的周期很长,谷歌此前就曾将一门心思在人形机器人的波士顿动力出售,这一轮能坚持多久还是未知数。

松耦合的“务实派”,确实能很快落地产业应用,但技术壁垒相对不高,随着AI玩家增多,存量市场逐渐被开发,毛利率必然会在同质化激烈竞争中受到挤压,商业前景会很快到达天花板。此前国內某机器人龙头企业,就因为技术含量不高而折戟科创板,这说明具身智能产业还是要笃定远一点的未来,积累硬核科技。

星辰大海与商业赚钱之间的沟壑,是每一个AI企业都要穿越的“死亡之谷”。

f319c448c03f5afbd02e26066c07c035.png

我们对机器人还有哪些期待?

LLM方兴未艾,距离通用智能只是理论可行,究竟如何实现,还有很长的路要探索。从这个角度看,被大模型带火的具身智能,目前也还留在语言、视觉这两个经典的AI任务领域,能否进一步突破,前途也很朦胧。

既然如此,为什么学术界和产业界依然将其作为下一个AI风口来布道呢?原因或许在于以下两点:

从学术上看,具身智能是行为主义的极致。人工智能的两大门派:符号主义和联接主义。联接主义也叫行为主义,不追求意识的本质,希望用人工神经网络模拟人的行为,让机器“看起来像人”,让人形机器人成为现实,具身智能就是行为主义发展到极致的表现之一。所以,从学术上倡导向具身智能发展,是符合技术向前演进的路线的。

0b734458ead69a9fb3c62173910f20ee.png

从产业上看,产业智能化的浪潮,确实让物理世界和数字世界的交互增多了,只有AI软件是不够的,必须要能驱动物理实体,比如工业场景下的抓拿放,可以取代人工操作的繁琐和危险,在煤矿井下作业、港口仓库搬卸、搬家快递服务、清理事故现场和救灾等领域,由机器人来代替人类,完成一些危重工作。同时,大模型、云计算、边缘计算等技术相结合,有望大大降低具身智能的研发和应用成本,这对于机器人产业的推动作用是巨大的,这时候探索和占坑也有其战略意义。

当然,现在就投入具身智能,有没有风险呢?

也是有的。说一个最恐怖的,我们都知道人工智能产业的发展,是在符号主义和联接主义之间做钟摆运动,如果有一天,钟摆向另一方摆动,那么已经投入到行为主义这一技术路线的大量市场资源、基础设施投资、人才储备等,又该何去何从呢?

更加具体的挑战也有不少。

比如数据的挑战,具身智能的数据,不同于“纸上谈兵”的算法,只能从与物理世界的交互中获得,具有很大的隐私性、高成本、敏感性,不能批量生产,这就对能力优化迭代造成了限制。

再比如,收集来的数据一般是不能直接拿来训练的,要整理转换成有意义的语料库,再让大模型学习,这个开发过程是非常繁琐的,又增加了研发的成本。

此外,广大用户对于具身智能的机器人的安全性要求非常高,如果家政服务机器人将水倒在了插电孔,机器狗摔倒压住了小朋友,这些故障都是商业上不可能被接受的,可靠、可用、可市场化的具身智能,目前看还比较遥远,需要长期投入。这意味着具身智能目前看来依然是大厂的游戏。

fc4655114a224f78f843512734ce0c50.png

无论如何,大模型的普及,大大加快了具身智能的研发和落地速度。人工智能这个学科诞生以来,人类就希望能像“女娲”一样,创造出和自己类似的通用机器人。具身智能,就是这个梦想的具体承载方式。

今天,我们终于可以将“具身智能”,作为一个产业风口来畅想和实现了,能够见证这件事的发生,已经十分值得人类为之自豪。

e872d203358c25f1293580d632d92bd6.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36144.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

chatgpt赋能python:Python图片拼接:将多张图片拼接成一张大图

Python 图片拼接:将多张图片拼接成一张大图 在当今数字化的时代,图片已经成为了我们生活和工作中不可或缺的一部分。图片不仅可以记录生活的美好瞬间,同时也可以用于商业宣传、教育培训等方面。然而,在某些情况下,我们…

英伟达终于开源GPU内核模块代码

作者 | 钰莹,核子可乐 内容来源:infoq 近日,英伟达(NVIDIA)宣布,将 Linux GPU 内核模块作为开放源代码发布。早在几天前,NVIDIA 开始在 GitHub 上陆续公开相关代码,目前该项目已经…

2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hopper 架构、H100 GPU、元宇宙、新型超级计算机、软件、数据中心等方…

最近火爆的英伟达数据中心GPU所有型号及参数汇总,含售价

关注、星标公众号,精彩内容每日送达 来源:网络素材 注:英伟达A800是NVIDIA公司生产的显卡,是为了解决美国商务部的半导体出口新规,以取代A100 GPU。 NVIDIA H100 CNX产品规格 ———— / END / ————

从英伟达 vs ATI的芯片大战看GPU前世今生

导读:本文带你回顾从CPU到GPU的历史,再展望从GPU到TPU的未来。 作者:钱纲 来源:大数据DT(ID:hzdashuju) 01 第一代、第二代GPU 1998年英伟达宣布GPU的研发成功,是计算机显示的历史性…

20 个 GPU 可承载相当于全球互联网流量、Grace CPU 超级芯片现世,英伟达这届 GTC 发布了什么?...

整理 | 苏宓 出品 | CSDN(ID:CSDNnews) 技术的极限在哪里? 想必科技圈给出回答大概率是没有! 这不,在 GTC 2022 Keynote 上,身着黑色夹克「战袍」的黄仁勋挂帅,英伟达带着采用台积电…

随着ChatGPT、文言一心的大火,未来可能的生活工作方式

前面的文章笼统的扯了一些ChatGPT、文言一心的差异化,感觉还是不够明白直观。特地找了一份资料,通过基础能力、进阶能力、和一些垂直领域的几百个各种问题,来对比分析两者的回答情况,让大家可以有个更接地气的了解。 由于问题太多…

chatgpt赋能python:Python是如何实现数据可视化的

Python是如何实现数据可视化的 看到数据可能让人头疼,但它也是条件成熟时必不可少的细节。在这些细节中,数据可视化是一个让人看起来轻松的过程,很多时候这种方法都是为了达到更好的效果。对于数据 Visualization,Python 无疑是一…

chatgpt赋能python:Python画图怎么保存

Python画图怎么保存 Python作为一门高级编程语言,广泛应用于数据分析、机器学习、人工智能等领域。在数据分析这一领域中,数据可视化是非常重要的一环,而Python作为数据分析的利器之一,也有着强大的画图能力。那么,在…

他山之石可以攻玉:解锁9个chatGPT常用姿势

ChatGPT是一个颠覆性的人工智能,可以用来实现众多目标。下面是我们用中文提出的关于这些任务的指令,以及来自ChatGPT的中文回答示例。 调试代码 提示:为什么我的python代码报错:x [2, 3, 8 9]? ChatGPT回答&#x…

JSP实现简易的聊天功能(Session机制)

JSP实现简易的聊天功能&#xff08;Session机制&#xff09; 基于服务器端全局应用空间 application 的简易聊天室实现 1.login.jsp <% page language"java" contentType"text/html; charsetUTF-8"pageEncoding"UTF-8"%> <!DOCTYPE …

在本地使用远程服务器的Jupyter Notebook

问题 python项目含有ipynb文件&#xff0c;用Pycharm打开&#xff0c;提示安装jupyter。于是转到jupyter notebook中运行项目&#xff0c;这就引出了一个问题&#xff0c; 即如何在本地使用远程服务器上的jupyter notebook。  这里提供一种方法。 解决方法 1 在服务器上安装…

硅基罗丹明-小分子聚乙二醇-叠氮 SiR-PEG4-azide

科研实验中大家比较常见硅基罗丹明&#xff0c;对于其性质应用&#xff0c;大家有所了解吗&#xff1f;今天瑞禧小编通过对SiR-PEG4-azide 硅-罗丹明-四聚乙二醇-叠氮来为大家介绍硅基罗丹明的应用。 下面是瑞禧小编整理的SiR-PEG4-azide 硅-罗丹明-四聚乙二醇-叠氮的产品详情&…

硅基罗丹明荧光染料小分子聚乙二醇修饰反式环辛烯SiR-PEG3-TCO

硅基罗丹明-三聚乙二醇-反式环辛烯 SiR-PEG3-TCO 硅基罗丹明SIR(siliconrhodamine)染料是一种深红色近红外荧光染料、细胞渗透性强、高特异性的DNA探针。具有优异光物理性质、良好的生物相容性&#xff0c;在保留了罗丹明荧光染料优越的光学性质的同时&#xff0c;光谱发生明显…

英特尔正式宣布:All in硅基自旋量子比特

&#xff08;图片来源&#xff1a;英特尔&#xff09; 最近&#xff0c;在美国物理学会&#xff08;APS&#xff09;的三月会议上&#xff0c;英特尔不仅介绍了公司最新发表的14篇论文成果&#xff0c;并透露了公司的量子战略计划。 在英特尔看来&#xff0c;实用的量子计算未来…

给小朋友讲故事——科学课,地球,太阳和月亮

在2022年05月19日按照九迁的课程表&#xff0c;给他上了一节科学课&#xff0c;内容是&#xff1a;地球&#xff0c;太阳和月亮。 但是因为当天发生的事情&#xff08;关于校园霸凌&#xff0c;刚刚发生&#xff08;2022年05月20日教育局加三个校长的到来&#xff09;&#xff…

硅基生命之漫谈-4:意识是电流的运动?还是量子的运动?

核磁共振成像是一种利用核磁共振原理的最新医学影像新技术&#xff0c;对脑、甲状腺、肝、胆、脾、肾、胰、肾上腺、子宫、卵巢、前列腺等实质器官以及心脏和大血管有绝佳的诊断功能。与其他辅助检查手段相比&#xff0c;核磁共振具有成像参数多、扫描速度快、组织分辨率高和图…

澳大利亚科学家开发出可用于脑机接口的新型碳基生物传感器

澳大利亚悉尼科技大学的科学家团队开发出一种新型碳基生物传感器&#xff0c;该传感器由外延石墨烯制成&#xff0c;作为一种碳基材料&#xff0c;可以直接种植在硅基碳化物基板上。研究人员将石墨烯的优点&#xff08;生物相容性和导电性&#xff09;与硅技术的优点结合起来&a…

生物计算机的主要原材料是(),新材料为生物计算机打造“神经元”和“突触”...

一项最新研究利用复杂的氧化物&#xff0c;打造出了与神经元和突触相似的元件。 图片来自pixabay.com 虽然电脑的计算速度比人脑快&#xff0c;但在物体识别任务等方面&#xff0c;人脑还是更胜一筹。除此之外&#xff0c;人脑耗费的能量也远低于电脑。大脑的运作方式可以在一定…

SiR-PEG4-NHS ester 硅基罗丹明-四聚乙二醇-活化脂 |SIR荧光探针

SiR-PEG4-NHS ester硅基罗丹明近红外荧光探针 产品英文名称:SiR-PEG4-NHS ester 产品中文名称:硅基罗丹明-四聚乙二醇-琥珀酰亚胺酯 外观:实心 分子式:C42H50N4O10Si 分子量:798.97 储存条件:-20C,在黑暗中 结构式: 相关产品&#xff1a; SDS-AgNCs 水溶性荧光十二烷基磺…