科技云报道:造完“大模型”,“具身智能”将引领AI下一个浪潮?

科技云报道原创。

资深机器人专家Eric Jang不久前曾预言:“ChatGPT 曾在一夜之间出现。我认为,有智慧的机器人技术也将如此。”

3月13日深夜,一段人形机器人的视频开始热传。

在视频中,Figure的人形机器人,可以完全与人类流畅对话,理解人类的意图,同时还能理解人的自然语言指令进行抓取和放置,并解释自己为什么这么做。

而其背后,就是OpenAI为其配置的大型语言模型。由于OpenAI模型还支持多模态输入,因此可为Figure提供高级视觉和语言智能。

而Figure本身,成立于2022年。从OpenAI 宣布介入与之合作,到今天它们共同推出一个能够自主对话和决策的机器人,只有13天。

具身智能的发展,显然正在加速。
在这里插入图片描述
具身智能进化速度超越想象

在去年的ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋表示,人工智能下一个浪潮将是“具身智能”(Embodied Intelligence),是能理解、推理、并与物理世界互动的智能系统,AI与机器人的融合,具有很好的想象空间。

他还介绍了英伟达的多模态具身智能系统Nvidia-VIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,标志着AI能力的显著进步。

此外,在特斯拉召开2023年年度股东大会上,马斯克展示了人形机器人Optimus的全新型号,和具身智能机器人几乎划等。

马斯克表示,人形机器人将是今后特斯拉主要的长期价值来源,他也认为,以具身智能机器人为代表的产品有望成为AI的下一浪潮。

1950年,图灵在他的论文——《Computing Machinery and Intelligence》中首次提出了具身智能的概念。

具身智能(Embodied AI)指的是,有身体并支持物理交互的智能体,如智能服务机器人、自动驾驶汽车等,具身智能机器人指的是,像人一样能够与环境交互感知、自助规划、决策、行动、执行任务的机器人。

它包含人工智能领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,横跨多个学科方向,是AI的集大成者。

2023年是生成式AI的爆发之年,也被业内人士称为“机器人觉醒之年”。ChatGPT等生成式AI与人形机器人行业结合,开启了具身智能的时代。

今天,在大语言模型的普及和GPT-4等前沿模型的推动下,我们似乎见证了人工智能领域的一个新时代,人机交流也变得前所未有的流畅和无缝。

据2023年5月GGII发布的报告预测,预计到2026年,人形机器人在全球服务机器人市场中的渗透率预计将达到3.5%,市场规模超过20亿美元。

各大科技公司和学术界的顶尖学者也不断涌入这一领域的研究与产品开发当中。

然而,在繁荣热潮的背后,潜在的困境却也如影随形。尽管ChatGPT等模式革命性地变革了AI领域,但它们在理解力、联想力和交互能力等方面,仍然未能完全满足公众的期望。

这促使我们对看似毫无阻碍的进步进行重新评估,同时希望经过不懈努力,人们能攻克实现真正的具身智能所面临的复杂挑战。

当机器人遇上大模型

近年来,国内多家企业发布了自主研发的人形机器人。人形机器人是所有机器人里最复杂的一类,“具身智能”对机器人来说意味着什么?当大模型和机器人相结合,会发生哪些变化?

在“具身智能”的状态下,机器人具备自主学习和计划能力,遇到障碍和困难可以自主反应、快速解决。

目前国内已有200多个大模型,实际上人形机器人是一个载体,当大模型和人形机器人相结合时,机器人可以帮助AI大模型感知物理世界,操作环境上下文;机器人利用多模态感知控制自己的身体,完成复杂的任务。

2023年上半年,以ChatGPT为代表的大语言模型爆炸式“出圈”,大语言模型以及结合视觉等多种传感器的复杂多模态模型的成熟,是实现机器人完成具身智能的关键先决条件。

最为关键的一点是,成熟的“AI大模型”使机器人可以从程序执行导向转向任务目标导向,向通用机器人的发展迈出坚实步伐。

通俗点来说,“大模型”与机器人的融合,让发展已久的机器人能真正地长出“脑子”。

机器人的“云大脑”通过在云、边、端分布式算法、算力和大数据形成机器人智能,通过 5G等无线安全高速网络连接云端大脑和机器人本体:机器人本体在“端”侧完成各种任务。

云端大脑通过人工增强、多模态融合AI和数字生成等先进技术,实现机器人智能地自我学习、不断进化与成长。

AI真正赋能到各行各业、智能机器人走进千家万户的时代正在到来,伴随着技术的突破带来性价比提高,在未来,具身智能渗透率将有望加速提升。

根据高盛预测,在理想状态下,若机器人软硬件在短期内产生重大技术突破,实现具身智能的同时年均降本达到20%,人形机器人全球市场空间 有望在2035年达到1540亿美元,接近2021年智能汽车的市场空间,2025-2035年复合增长率达到94%。

若是在乐观情况下,人形机器人的出货量有望在2035年达到100万台,市场空间2025-2035年复合增长率有望达到59%。

人形机器人的时代正在到来

2023年11月2日,工信部印发《人形机器人创新发展指导意见》(以下简称《意见》)为人形机器人发展指明方向。《意见》中指出,到2025年,人形机器人创新体系初步建立,“大脑、小脑、肢体”等一批关键技术取得突破,确保核心部组件安全有效供给。整机产品达到国际先进水平,并实现批量生产。

2024年1月17日,AI研究实验室Midjourney创始人大卫·霍尔茨(David Holz)在社交媒体的一篇帖子写道:“我们有理由期待,到2040年,地球上将有10亿个人形机器人。到2060年,世界上将会有1000亿人形机器人。”这预示着人形机器人的新时代正在到来。

近年来,具身智能在学术界的关注度持续升温,在CoRL(机器人学习大会)上,具身智能领域的论文数量呈现出快速增长的趋势。

而在2023年初举行的 IROS(智能机器人及系统国际会议)上,具身智能也被作为一个极为重要的议题进行了深入探讨。

在2023年8月18日的世界机器人大会人形机器人技术与产业发展论坛上,2000年图灵奖获得者、中国科学院院士、清华大学交叉信息研究院院长姚期智指出,通用人工智能(AGI)的未来发展需要具备具身实体,与真实物理世界交互以完成各种任务。

只有这样,才能为产业带来更大的价值。

随着中国社会老龄化程度将逐渐加深,劳动力短缺问题日益凸显,同时中国制造业劳动力总量下降,人工成本上升,因此“机器替代人”成为了重要趋势。

目前,全球工业机器人部署量稳定增长,中国已成为世界最大的机器人市场。人形机器人在结构上与人类相似,未来有望覆盖、替换所有原本需要人类劳动力的作业场景。

根据赛迪顾问的报告,尽管目前各家人形机器人仍处于原型机研发的早期阶段,但是其带来的潜在技术变革以及对某些生产生活场景的改变值得高度关注。

人形机器人在制造业、航天探索、生活服务业、高校科研等领域具有较大的发展潜力,预计到2025年,人形机器人将有望实现在制造业场景应用的突破,小批量应用于电子、汽车等生产制造环境。

在中国,智能制造领域将成为人形机器人首个实现大规模应用的领域。人形机器人将围绕工业制造、商用服务和家庭陪伴三大场景,重新定义人工智能时代的工人,把人类从重复性劳动中解放出来。

商用服务场景是人形机器人最快应用的市场,而家庭落地场景则是人形机器人最具潜力的应用市场。

近日,美国科技公司英伟达宣布成立通用具身智能体研究实验室GEAR。

去年以来,包括中国电科21所、智元机器人、科大讯飞、小鹏汽车、傅利叶智能在内的多家国内企业相继发布了自主研发的具身智能机器人,并有多家企业拟在今年实现具身智能的商业化落地。

业界普遍认为,2024年有望成为具身智能商业落地元年。

虚拟世界,与现实世界形成鲜明对比,提供了一个更为精密和可控的环境,使得智能体能够进行更加大胆和创新的行为。

这不仅是对人类智能的延伸,更是一个通用人工智能诞生和发展的舞台,为超越人类智能水平的AI提供了理想的试验场和成长空间。

或许,这也是各大科技公司对具身智能与虚拟世界寄予厚望的深层次原因。

这预示着,一个更加智能、更加互联的未来正向我们走来。

【关于科技云报道】

专注于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威认可,可信云、全球云计算大会官方指定传播媒体之一。深入原创报道云计算、大数据、人工智能、区块链等领域。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/285166.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

研华工控机610L学习笔记2:visualstudio与第一个C#程序

今日继续学习工控机 C# 编程相关知识: 这篇结束后我将先进行一段时间的C#的学习研究,并写一些C#的笔记 后续再更新工控机编程设计相关 目录 1、安装visualstudio: 2、创建第一个C#程序: 3、寻找C#解决方案源文件: …

【Godot4.2】基础知识 - Godot中的2D向量

概述 在Godot中,乃至一切游戏编程中,你应该都躲不开向量。这是每一个初学者都应该知道和掌握的内容,否则你将很难理解和实现某些其实原理非常简单的东西。 估计很多刚入坑Godot的小伙伴和我一样,不一定是计算机专业或编程相关专…

pytorch 实现多层神经网络MLP(Pytorch 05)

一 多层感知机 最简单的深度网络称为多层感知机。多层感知机由 多层神经元 组成,每一层与它的上一层相连,从中接收输入;同时每一层也与它的下一层相连,影响当前层的神经元。 softmax 实现了 如何处理数据,如何将 输出…

SpringAOP+自定义注解实现限制接口访问频率,利用滑动窗口思想Redis的ZSet(附带整个Demo)

目录 1.创建切面 2.创建自定义注解 3.自定义异常类 4.全局异常捕获 5.Controller层 demo的地址,自行获取《《—————————————————————————— Spring Boot整合Aop面向切面编程实现权限校验,SpringAop自定义注解自定义异常全局…

【微服务】Gateway服务网关

📝个人主页:五敷有你 🔥系列专栏:微服务 ⛺️稳中求进,晒太阳 Spring Cloud Gateway 是 Spring Cloud 的一个全新项目,该项目是基于 Spring 5.0,Spring Boot 2.0 和 Project Reactor 等响…

Windows 设置多显示器显示

Windows 设置多显示器显示 1. Windows 7 设置 HDMI 输出2. Windows 11 设置多显示器显示References 1. Windows 7 设置 HDMI 输出 2. Windows 11 设置多显示器显示 ​​​ References [1] Yongqiang Cheng, https://yongqiang.blog.csdn.net/

Ubuntu Desktop 安装谷歌拼音输入法

Ubuntu Desktop 安装谷歌拼音输入法 1. Installation1.1. 汉语语言包​1.2. 谷歌拼音输入法1.3. 安装语言包1.4. 键盘输入方式系统1.5. 重启电脑1.6. 输入法配置 2. configuration2.1. Text Entry Settings… 3. ExecutionReferences 1. Installation 1.1. 汉语语言包 strong…

odoo扩展导出pdf功能

1. 说明: odoo原生导出功能扩展导出pdf文件功能, 如有额外需求请联系博主 2. 版本说明: odoo版本: odoo15 其他odoo版本未进行测试,如有需要自行测试 3. 地址: 该补丁代码放在github仓库, 地址: https://github.com/YSL-Alpaca/odoo_export_pdf 4. 改补丁依赖于第三方软件wkh…

网盘——数据库操作

关于网盘的数据库模块,主要有以下几个内容:定义数据库操作类、将数据库操作类定义成单例模式、数据库操作 数据库是在Qt里面,定义成操作类,专门用这个类产生对象,对数据库实现操作,那么我们在产生对象的时…

音视频领域首个,阿里云推出华为鸿蒙 HarmonyOS NEXT 版音视频 SDK

近日,阿里云在官网音视频终端 SDK 栏目发布适配 HarmonyOS NEXT 的操作文档和 SDK,官宣 MediaBox 音视频终端 SDK 全面适配 HarmonyOS NEXT。 此外,阿里云播放器 SDK 也在华为开发者联盟官网鸿蒙生态伙伴 SDK 专区同步上线,面向所…

Linux系统——硬件命令

目录 一.网卡带宽 1.查看网卡速率——ethtool 网卡名 2.查看mac地址——ethtool -P 网卡名 二、内存相关 1.显示系统中内存使用情况——free -h 2.显示内存模块的详细信息——dmidecode -t memory 三、CPU相关 1.查看CPU架构信息——lscpu 2.性能模式 四、其他硬件命…

Java微服务分布式分库分表ShardingSphere - ShardingSphere-JDBC

🌹作者主页:青花锁 🌹简介:Java领域优质创作者🏆、Java微服务架构公号作者😄 🌹简历模板、学习资料、面试题库、技术互助 🌹文末获取联系方式 📝 往期热门专栏回顾 专栏…

个人博客系列-后端项目-系统角色配置(8)

系统角色配置需要设置的接口 用户可以绑定多个角色,角色对应有多个路由权限。用户绑定角色后,可以访问当前角色下的各个api路由和菜单路由。 用户注册时设置用户角色修改用户角色(同时对应用户可以访问的路由将会同步变更)添加修…

python写爬虫爬取京东商品信息

工具库 爬虫有两种方案: 第一种方式是使用request模拟请求,并使用bs4解析respond得到数据。第二种是使用selenium和无头浏览器,selenium自动化操作无头浏览器,由无头浏览器实现请求,对得到的数据进行解析。 第一种方…

[Java基础揉碎]单例模式

目录 什么是设计模式 什么是单例模式 饿汉式与懒汉式 饿汉式vs懒汉式 懒汉式存在线程安全问题 什么是设计模式 1.静态方法和属性的经典使用 2.设计模式是在大量的实践中总结和理论化之后优选的代码结构、编程风格、 以及解决问题的思考方式。设计模式就像是经典的棋谱&am…

数据分析和机器学习库Pandas的使用

Pandas 库是一个免费、开源的第三方 Python 库,是 Python 数据分析和机器学习的工具之一。Pandas 提供了两种数据结构,分别是 Series(一维数组结构)与 DataFrame(二维数组结构),极大地增强的了 …

STM32微控制器的中断优先级设置对系统性能有何影响?

STM32微控制器的中断优先级设置对系统性能有着显著的影响。正确配置中断优先级可以确保关键任务得到及时响应,提高系统的实时性和可靠性。相反,如果中断优先级设置不当,可能会导致系统响应延迟,甚至出现死锁等问题。本文将详细探讨…

边缘计算【智能+安全检测】系列教程-- Jeton Agx Orin 基础环境搭建

1 .前期准备 Jetson Agx Orin 比Jetson Agx Orin Xavier的算力要高,性能要好通常用来做自动驾驶的AI推理,具体外观如下图 1.刷机软件sdkmanager:下载链接 NVIDIA账号需要注册,正常一步一步往下走就行。在ubuntu18以上的系统安…

pycharm搭建新的解释器及删除处理

目录 1.创建虚拟环境 个人实际操作: 对于“继承全局站点包”: 2.创建一个新项目 3.删除操作 (1)删除解释器 (2)删除新建项目 1.创建虚拟环境 Pycharm官方文档说明网址: Configure a virt…

C语言 数组指针 指针数组

指针数组 什么是指针数组&#xff0c;他是一个数组&#xff0c;数组的元素是指针。但是指针也有多种数据类型&#xff0c;有数组指针、函数指针、整形指针、字符串指针。 现在我就使用函数指针来写代码&#xff0c;也就是函数指针数组的应用代码&#xff1a; #include <s…