大模型+人形机器人,用AI唤起钢筋铁骨

3e161cedfa3dba0f9553226ce22b9b26.jpeg 《经济参考报》11月8日刊发文章《多方布局人形机器人赛道,智能应用前景广》。文章称,工信部日前印发的《人形机器人创新发展指导意见》,按照谋划三年、展望五年的时间安排,对人形机器人创新发展作了战略部署。

从开发基于人工智能大模型的人形机器人“大脑”,到打造仿人机械臂、灵巧手和腿足,再到发布自主研发的人形机器人产品.以“大模型”为代表的技术爆发加速了人工智能产业的发展。为了抓住这一轮技术变革的浪潮,促进区域以及产业发展,多个一线城市开启了“追逐赛”。以人工智产业发展高地北京为例,《北京市促进通用人工智能创新发展的若干措施(2023-2025年)》的发布是国内首个地方政府紧贴AI大模型产业化发展提出的专项措施。当下正值ChatGPT引发的“千模大战”打响,大模型可能为各行各业带来新的效率革命和体验升级。随着AI第一城北京行动了,上海、深圳、成都等地区都已陆续采取行动,抢占发展的“窗口期”。

人形机器人技术方案包括软件层和硬件层,后者可分为控制模 块、感知模块、运动模块、动力模块、散热总装模块。我们认为软件能力决定机器人产品 力的上限,硬件能力决定机器人的落地程度。目前 ChatGPT 预训练语言模型、PaLM-E 模型等 AI 技术和大模型的发展助力机器人向具身智能逼近,硬件技术方案实际类似搭积木 的过程,核心在于主机厂对成本和性能的权衡。

在今年特斯拉股东大会上,马斯克说到:“人形机器人Optimus对运动和力量的控制以及环境感知方面有显著加强,技术正在快速迭代。预计未来机器人的需求可能会达到100亿,甚至更多。如果以人类和机器人的比例为2:1推算,那么对人形机器人的需求可能会比电动汽车的还大不少。就凭借此寥寥数语,马斯克的信心、热情和投入很快点燃了人形机器人赛道的火焰,并有愈演愈烈的趋势至今。而从实际应用的角度来看,推动整个产业链走向成熟和完善的可能也是特斯拉。

从实际技术的角度来说,特斯拉这种企业做机器人有先天性优势,因为机器人与AI的很多基本原理都是相同的,而且也可以视为电动车的自然延伸,电动车可以视为第一代的四轮机器人。前两年马斯克提出要做机器人时引来不少说他“不务正业”的嘲讽,然而今年年初,理想汽车确定的愿景是成为最优秀的AI和机器人公司,而非全球最大的电动车企业。由此可见梦想也是会传播的。特斯拉的人形机器人Optimus首次亮相是在去年官方的2022 AI Day活动上,并在现场完成了自主行走、转身、停止、挥手问候等动作。Optimus的技术大部分与特斯拉汽车的一致,如机器视觉,以及处理视觉数据、做出行动决策、支持通信交流的“大脑”,还有最重要的与特斯拉汽车一致的芯片,还搭载与特斯拉车辆同源的FSD电脑以及Autopilot相关神经网络技术,预计最终售价不超2万美元,约合14.4万元人民币。

机器人自由度与量产成本为正相关关系,商业化进展较快机器人的共性在于,面向垂直化 场景且匹配了相应的自由度,成本适中能为市场接受。如 EVE 机器人专门用于安防和夜 间巡逻,其腿部为双轮结构,虽无法跨越障碍,但可满足夜间巡逻的基本需求,售价仅 32 万元。而特斯拉 Optimus 则依托汽车产业链优势平衡了机器人自由度与量产成本的矛盾, 能完成行走、上下落体、拿物体等商业化目标明确的动作,而量产后价格仅 2 万美元(目 标),是能完成行走、搬运物体同类机器人产品价格的 1/10。

人形机器人商业化的核心桎梏在于成本,而特斯拉的 FSD 产业 资源优势大概率会为 Optimus 商业化赋能:人形机器人与 FSD 在数据调度、数据处理、 算法模型等关键能力上具有较高共用性,如 Optimus 的硬件生产可共享特斯拉汽车的供应 链;Optimus 软件架构中可应用 FSD 的感知算法、规划控制模型(机器人的规控场景更复 杂),同时机器人涉及室内环境建模,可借鉴 FSD 的 3D 地图构建经验,综上我们认为 FSD 可迁移的成熟的软硬件能力或加速人形机器人商业化落地,具体表现为以下3点:

(1)车端算法迁移:Optimus 搭载特斯拉自研芯片(单芯片算力可达 362TFLOPs),也共享特斯拉汽车自动驾驶软件平台,我们看好特斯拉自身的自动驾驶技术赋能机器人的机器视觉算法、FSD 和 Dojo的数据积累和训练模型加快机器人功能优化,从而实现降本增效。具体而言,算法上,2022 年 AP 团队在原感知算法模型加入了占用网络 Occupancy Network 和矢量地图 Lane Network,进一步提升了感知模型的精度和对 Corner Case 的 覆盖度,Optimus 将会使用和 FSD 同样的 Occupancy Network 来识别可行动区域,或能 生成效果更好的 3D 地图,以弥补特斯拉未使用高精地图和雷达在长尾问题的感知不足。基础设施上,Dojo 超算中心为 FSD 大数据训练的关键,具有高稳定、高并行算力的特征,可提供更高效的数据标注和算法迭代,有望加强机器人的算法优势。

(2)供应链迁移:人形机器人由于硬件超配且关节数目多,量产成本较高,但机器人供 应链与电车供应链有较大重合度,如人形机器人能共用汽车的芯片、电池等,并能够对电 机电器、热管理等做适应性更改再使用。

我们看好 Optimus 与 FSD 供应链接轨、共享特斯拉国产供应链优势,实现规模化降低成本。站在当前时点,我们认为人形机器人已初步突破了软件领域的部分技术桎梏。

22 年 11 月 Open AI 发布 ChatGPT,并计划赋能机器人的零次任务规划、人机交互、视觉辅助、逻辑 判断功能,实现用语言文字控制机器人;23 年 3 月谷歌 PaLM-E 模型推出,融合了 ViT Vision Transformer 的 220 亿参数和 PaLM 的 5400 亿参数能力,集成了可控制机器人视 觉和语言的能力;23 年 5 月英伟达发布多模态具身智能系统 NVIDIA VIMA,标志 AI 能力 的又一显著进步,有望显著提升机器人的智能化水平、人机交互能力、自编译能力。

2023年或为产业化的当打之年:AI、大模型深度赋能机器人感知层和规划层,助力机器人更贴近具身智能。以微软 ChatGPT 预训练语言模型、谷歌 PaLM-E 模型、英伟达多模态具身智能系统 NVIDIA VIMA 为代表的 AI 技术突破,进一步助力机器人突破产品力上限。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/187416.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CCLink转Modbus TCP网关_MODBUS报文配置

兴达易控CCLink转Modbus TCP网关是一种功能强大的设备,可实现两个不同通信协议之间的无缝对接。它能够将CCLink协议转换为Modbus TCP协议,并通过报文配置实现灵活的通信设置。兴达易控CCLink转Modbus TCP网关可以轻松实现CCLink和Modbus TCP之间的数据转…

汇编-EQU伪指令(数值替换)

EQU伪指令将一个符号名称与一个整数表达式或一个任意文本相关联, 它有3种格式 在第一种格式中, expression必须是一个有效的整数表达式。在第二种格式中, symbol是一个已存在的符号名称, 已经用或EQU定义过。在第三种格式中&…

新方向!文心一言X具身智能,用LLM大模型驱动智能小车

具身智能已成为近年来研究的热点领域之一。具身智能强调将智能体与实体环境相结合,通过智能体与环境的交互,来感知和理解世界,最终实现在真实环境中的自主决策和运动控制。 如何基于文心大模型,低成本入门“具身智能”&#xff0…

GEE:将鼠标变成十字指针,点击获取影像值,显示值到UI中

作者:CSDN @ _养乐多_ 本文记录了在 Google Earth Engine(GEE)开发中,将鼠标变成十字指针,点击获取影像值,显示值到UI中的代码片段。这段代码复制过去修改变量名就可以用了。 效果如下图所示, 文章目录 一、代码片段一、代码片段 使用的时候将 YLDImage 变量换成你屏…

【网络协议】

网络协议 1 网络通讯1.1 防火墙1.2 子网掩码1.3 网关1.4 2 SSH2.1 SSH2.2 SSH12.3 SSH2 3 Telnet4 Telnet/SSL5 NFS6 TFTP7 FTP8 SFTP9 HTTP10 HTTPS11 NAT12 加密 1 网络通讯 1.1 防火墙 所谓“防火墙”,是指一种将内部网和公众访问网(如Internet)分开的方法&…

C# OpenCvSharp 环形文字处理 直角坐标与极坐标转换

效果1 效果2 项目 代码 using OpenCvSharp; using System; using System.Drawing; using System.Text; using System.Windows.Forms;namespace OpenCvSharp_Demo {public partial class frmMain : Form{public frmMain(){InitializeComponent();}string fileFilter "*.*…

2020年五一杯数学建模A题煤炭价格预测问题解题全过程文档及程序

2020年五一杯数学建模 A题 煤炭价格预测问题 原题再现 煤炭属于大宗商品,煤炭价格既受国家相关部门的监管,又受国内煤炭市场的影响。除此之外,气候变化、出行方式、能源消耗方式、国际煤炭市场等其他因素也会影响煤炭价格。请完成如下问题。…

VR虚拟现实:VR技术如何进行原型制作

VR虚拟现实原型制作 利用VR虚拟现实软件进行原型制作可以用于增强原型测试期间的沉浸感,减少产品设计迭代次数,并将与产品原型制作相关的成本降低40-65%。 VR虚拟现实原型制作市场规模 用于原型制作的虚拟现实 (VR) 市场在 2017 年估计为 2.104 亿美元…

中文编程软件视频推荐,自学编程电脑推荐,中文编程开发语言工具下载

中文编程软件视频推荐,自学编程电脑推荐,中文编程开发语言工具下载 给大家分享一款中文编程工具,零基础轻松学编程,不需英语基础,编程工具可下载。 这款工具不但可以连接部分硬件,而且可以开发大型的软件…

2020年上半年信息安全工程师下午案例题及解析

2020年因为疫情,计划是上半年考,改为下半年考,但题目是上半年已经出好了的,所以还是第一版教材的内容。 如大家在学习中遇到问题,欢迎通过邮件2976033qq.com留言给作者,以便共同探讨。 试题一&#xff08…

Java类和对象(续)

书接上回我们已经学完了对象的初始化,今天的内容更加精彩。 1.封装 面向对象程序的三大特征:封装,继承,多态。 本章主要也是要研究封装,简单来说就是套壳屏蔽细节。 封装的概念: 封装:将数据和…

世界互联网大会领先科技奖发布 百度知识增强大语言模型关键技术获奖

11月8日,2023年世界互联网大会乌镇峰会正式开幕,今年是乌镇峰会举办的第十年,本次峰会的主题为“建设包容、普惠、有韧性的数字世界——携手构建网络空间命运共同体”。 目录 百度知识增强大语言模型关键技术荣获“世界互联网大会领先科技奖”…

ubuntu 火焰图脚本

环境ubuntu1804 x86_64 #!/bin/bash if [ "$2_" "_" ];thenecho "usage ./fire.sh oncpu/offcpu pid"exit fiif [ "$1_" "oncpu_" ];thensudo perf record -F 99 -p $2 -g -- sleep 10syncsudo perf script > out.pe…

Excel表列序号

题意: 给你一个字符串 columnTitle ,表示 Excel 表格中的列名称。返回 该列名称对应的列序号 。 例如: A -> 1 B -> 2 C -> 3 … Z -> 26 AA -> 27 AB -> 28 … 示例 1: 输入: columnTitle “A” 输出: 1 示例 2: 输…

如何将系统盘MBR转GPT?无损教程分享!

什么是MBR和GPT? MBR和GPT是磁盘的两种分区形式:MBR(主引导记录)和GPT(GUID分区表)。 新硬盘不能直接用来保存数据。使用前应将其初始化为MBR或GPT分区形式。但是,如果您在MBR时需…

一键批量转码:将MP4视频转为MP3音频的简单方法

随着数字媒体设备的普及,视频和音频格式转换的需求也越来越常见。其中,将MP4视频批量转换为MP3音频的需求尤为普遍。无论是为了提取视频中的背景音乐,还是为了在手机或电脑上方便地收听视频音频,这个过程都变得非常重要。接下来我…

【uniapp】仿微信通讯录列表实现

效果图 代码实现 <view class"main-container"><!-- 成员列表 --><scroll-viewclass"member-list":style"computedHeight":scroll-y"true":enable-back-to-top"true":scroll-with-animation"true"…

使用LLama和ChatGPT为多聊天后端构建微服务

微服务架构便于创建边界明确定义的灵活独立服务。这种可扩展的方法使开发人员能够在不影响整个应用程序的情况下单独维护和完善服务。然而&#xff0c;若要充分发挥微服务架构的潜力、特别是针对基于人工智能的聊天应用程序&#xff0c;需要与最新的大语言模型&#xff08;LLM&…

FFMPEG库实现mp4/flv文件(H264+AAC)的封装与分离

ffmepeg 4.4&#xff08;亲测可用&#xff09; 一、使用FFMPEG库封装264视频和acc音频数据到 mp4/flv 文件中 封装流程 1.使用avformat_open_input分别打开视频和音频文件&#xff0c;初始化其AVFormatContext&#xff0c;使用avformat_find_stream_info获取编码器基本信息 2.使…

APP 备案公钥、签名 MD5、SHA-1、SHA-256获取方法。

公钥和 MD5 值可以通过安卓开发工具、Keytool、Jadx-GUI 等多种工具获取&#xff0c;最简单的就是以 appuploader为例。 1.下载 appuploader工具 &#xff0c;点击此处 下载 appuploader 工具。 2.下载完成后&#xff0c;解压压缩包&#xff0c;双击 appuploder 运行。 3.运…