科大讯飞刘聪:大模型加持,人形机器人将跨越三大瓶颈

2024年,AI大模型成为机器人产业新的加速器。

今年3月,ChatGPT4加持的机器人Figure01向外界展示了大模型赋能人形机器人的巨大潜力。Figure01能理解周围环境,流畅地与人类交谈,理解人类的需求并完成具体行动,包括给人类递苹果、摆放杯子和盘子等动作。

在8月21日-25日举办的2024世界机器人大会上,AI大模型与机器人的融合也是一大热点。如何将AI大模型能力融入机器人产业,成为业界共识。

当大模型发展到当前阶段,它对机器人的发展将起到哪些关键价值?

2024世界机器人大会期间,科大讯飞副总裁、研究院院长刘聪向媒体分享了科大讯飞赋能机器人产业的思考与最新进展。

作为国内头部人工智能公司,早在2022年1月科大讯飞就提出“讯飞超脑2030计划”,旨在让懂知识、会学习、能进化的通用人工智能技术,以机器人的实体形态或虚拟形态能够进入到每一个家庭。科大讯飞在机器人领域的定位是赋能平台,目前已有420+机器人企业接入星火机器人超脑平台。

图片

大模型,加速人形机器人智能进化

 “人形机器人是大模型最好的载体之一。”

刘聪认为,在大模型出现之前,人形机器人在智能化层面存在不少瓶颈,主要体现在三点:

第一,暂不具备复杂任务的理解和规划能力;

大模型出现之前,人形机器人更多是基于控制系统的指令,完成对环境的感知与交互执行。

刘聪举例说,让机器人把桌上的一个薯片抓起来是可行的。但是如果给机器人一个指令,“把抽屉打开,把里面的薯片抓出来,再把抽屉关上”,这种复杂任务暂时还无法完成。

第二,仅能完成特定任务,通用性不足;

此前,机器人更多是在各垂直领域术业有专攻,工业机器人、教育机器人、巡检机器人、酒店机器人、保洁机器人……大部分机器人是为了完成某个特定任务和重复工作而设计。对于人形机器人,开放任务、通用任务仍是难点。

第三,多模感知能力、认知能力仍有待提高。

许多人形机器人在视觉、听觉、触觉等感知能力方面仍然存在局限,这限制了其在复杂场景的应用。此外,机器人要做到能够理解和处理人类语言、情感和意图,也是一个巨大的挑战。

图片

与之对应的,大模型将为人形机器人智能化带来巨大提升空间,完成理解并规划任务、感知及行为决策、环境交互与执行的闭环。

“总体来说,原来的机器人更多关注小脑能力,完成的任务相对单一。大模型加入之后,大脑能力显著提升。”

首先,理解并规划复杂任务能力提升;

大模型的思维链推理能力将显著提升人形机器人对于复杂任务的理解能力,并提供符合物理世界常识的拆解规划。

比如,基于思维链以及对薯片和抽屉的物理知识,机器人可以为之前举例的需求规划路径:打开抽屉——抓取薯片——规划返回路线——将薯片放在桌上。

图片

其次,感知及行为决策能力提升;

将具身感知模型和具身决策模型相结合,可以极大提升人形机器人在真实场景下的多模态感知和理解能力。类似GPT4o展示的实时读图、读物的能力,未来将在人形机器人上实现。

第三,算法将进一步改进硬件环境交互与执行能力。

基于大模型生成式AI的能力,通过物理世界模拟器可以降低机器人对真实数据的依赖,降低了数据集成的成本。

“此外,我们在仿真过程中的算法,对机器人硬件结构和参数会形成一些调整的反馈。也就是说,大脑能力反过来也带动了小脑能力的增强,带来整体运动、操作能力的增强。有点像我们讲的知行合一。”刘聪表示。

图片

生态平台,推动大模型深度赋能机器人

大模型与机器人的技术融合必将带来产业融合的新模式。在这一过程中,推动大模型深度赋能机器人本体,才能加速产业全链条发展。

“在机器人相关领域,科大讯飞的定位是通过平台来赋能生态,通过与产业链上下游合作去打造标杆应用。”刘聪表示。

“为什么科大讯飞有能力做这件事?”刘聪将其总结为三大优势:第一,多年来在人工智能全栈能力的积累,第二,软硬件协同能力的积累,第三,产业链生态聚合能力。

2023年,在科大讯飞25周年演讲中,董事长刘庆峰曾将“推进讯飞超脑2030计划,迈向家庭陪伴机器人的万亿市场”,作为大模型时代科大讯飞的五大核心战略之一。

图片

根据公开资料,“讯飞超脑2030计划”目前已首批启动七个项目,其中与机器人产业直接相关的是:运动智能算法与机器人关键软硬件研发、机器人示范应用及系统研发两大方向。

在机器人示范应用及系统研发方面,2023年9月科大讯飞在业界首次实现基于国产化星火大模型在人形机器人上的拉通,实现面向复杂任务的理解、拆解规划,成功率达到 95%。同时,突破端到端强化学习运动控制及具身智能核心技术,并成功在人形、四足、轮足机器人上进行实践应用,整体性能较业界传统方案提升 30%以上。

运动智能算法与机器人关键软硬件方面,科大讯飞推出星火机器人超脑平台,目前已经支持了业内超过420多家机器人企业,包括新松、优必选、宇树科技、银河通用智能、傅里叶智能、智元机器人、EX Robert等等。而且,星火机器人超脑平台已经汇聚了3.5万机器人相关开发者。

此外,刘聪认为未来人形机器人与人类的交互将更加多模态、更加自然。

他还剧透了即将在8月30日上线讯飞星火APP的“星火极速超拟人交互”功能。这是一款对标GPT4o交互体验的AI产品,具备极速响应自由打断、情绪感知、更丰富表达风格等特性。未来,“星火极速超拟人交互”也将赋能更多人形机器人产品。

“我们会先集中力量把语音交互做透,从这样的框架出发,未来再拓展到多模态的能力其实会更快。而多模态很重要的一个场景就是机器人。”刘聪表示。

目前,人形机器人的应用场景已经拓展到教育、‌娱乐、‌家庭服务、‌展馆展厅、‌影视综艺、‌科研高校、‌仓储物流和‌办公场景等等。然而,较高的硬件成本、端侧算力、数据集成成本等都是人形机器人产业化面临的挑战。

“从展示到真正好用,我觉得还有一个持续的路要走。人形、双足等机器人的形态可能不是最重要的。更重要的是要沿着不同场景下对能力的需求,将大脑和小脑结合,并将能力划分成不同阶段,用丰富的机器人产品矩阵来满足不同的需求。”

文中图片来自摄图网

END

本文为「智能进化论」原创作品。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/409284.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚幻5|AI视力系统,听力系统,预测系统(2)听力系统

虚幻5|AI视力系统,听力系统,预测系统(1)视力系统-CSDN博客 一,把之前的听力系统,折叠成函数,复制粘贴一份改名为听力系统 1.小个体修改如下,把之前的视力系统改成听力系统 2.整体修…

隐私指纹浏览器产品系列 —— 浏览器指纹 中(三)

1.引言 在上一篇文章中,我们聊到了最老牌的浏览器指纹检测站——BrowserLeaks。BrowserLeaks曾经是浏览器指纹检测的权威,但它似乎更像是一本老旧的工具书,只能呆板告诉你浏览器的指纹值,并对比不同浏览器的指纹差异。 今天&…

C语言 之 浮点数在内存中的存储 详细讲解

文章目录 浮点数浮点数的存储浮点数的存储浮点数的读取例题 浮点数 常见的浮点数:3.14159、1E10(表示1*10^10)等 浮点数家族包括: float、double、long double 类型。 浮点数表示的范围在float.h 中有定义 浮点数的存储 浮点数…

C++研发笔记1——github注册文档

1、第一步:登录网站 GitHub: Let’s build from here GitHub 最新跳转页面如下: 2、选择“sign up”进行注册,并填写设置账户信息 3、创建账户成功之后需要进行再次登录 4、根据实际情况填写个人状态信息 登录完成后页面网站: 5…

手写SpringAOP

一、非注解式简易版AOP 整体流程 1.1 代码 public class Test {public static void main(String[] args){// Aop代理工厂DefaultAopProxyFactory factory new DefaultAopProxyFactory();// 测试对象AOPDemoImpl demo new AOPDemoImpl();// 支撑类:用于存放目标…

配置策略路由实战 附带基础网络知识

背景 作为一个软件开发人员,不可能做到只负责业务开发工作,一旦功能上线或者系统切换就会遇到非常多考验开发人员个人能力的场景,网络调整就是非常重要的一个方面,如果你在系统上线的过程中无法处理一些简单的网络问题或者听不懂…

文件包含漏洞(1)

目录 PHP伪协议 php://input Example 1&#xff1a; 造成任意代码执行 Example 2&#xff1a; 文件内容绕过 php://filer zip:// PHP伪协议 php://input Example 1&#xff1a; 造成任意代码执行 搭建环境 <meta charset"utf8"> <?php error_repo…

Modern C++——不准确“类型声明”引发的非必要性能损耗

大纲 案例代码地址 C是一种强类型语言。我们在编码时就需要明确指出每个变量的类型&#xff0c;进而让编译器可以正确的编译。看似C编译器比其他弱类型语言的编译器要死板&#xff0c;实则它也做了很多“隐藏”的操作。它会在尝试针对一些非预期类型进行相应转换&#xff0c;以…

QT Quick QML 网络助手——TCP客户端

GitHub 源码: QmlLearningPro &#xff0c;选择子工程 Nettools.pro QML 其它文章请点击这里: QT QUICK QML 学习笔记 ● 运行效果&#xff1a; 左侧为常用的网络调试工具&#xff0c;右侧为本项目 UI 效果&#xff0c;前端使用 QML &#xff0c;后端使用C &#xff…

【文档智能 RAG】浅看开源的同质化的文档解析框架-Docling

前言 RAG的兴起&#xff0c;越来越多的人开始关注文档结构化解析的效果&#xff0c;这个赛道变得非常的同质化。 关于文档智能解析过程中的每个技术环节的技术点&#xff0c;前期文章详细介绍了很多内容&#xff1a; 下面我们简单的看看Docling这个PDF文档解析框架里面都有什…

GPIO(通用输入/输出)、中断(hal库)

目录 GPIO&#xff08;通用输入/输出)&#xff08;hal库&#xff09; GPIO工作模式 推挽输出&#xff08;Push-Pull Output&#xff09; 开漏输出&#xff08;Open-Drain Output&#xff09; 复用推挽输出&#xff08;Alternate Function Push-Pull Output&#xff09; 复…

在Ubuntu 22.04测试ebpf-go入门例子

文章目录 1、eBPF-Go依赖1.1 Ubuntu安装ssh server1.2 安装go1.3 安装llvm和clang1.4 安装libbpf和Linux kernel headers 2 编写eBPF C程序3 使用bpf2go编译eBPF C程序4 编写Go程序5 编译运行Go应用程序 eBPF-Go是一个使用eBPF的Go库。它不依赖于C、libbpf或除标准库之外的任何…

Windows单机安装配置mongodb+hadoop+spark+pyspark用于大数据分析

目录 版本选择安装配置Java环境配置Hadoop配置Spark配置 安装pyspark使用Jupyter Notebook进行Spark MongoDB测试参考 版本选择 根据Spark Connector&#xff1a;org.mongodb.spark:mongo-spark-connector_2.13:10.3.0 的前提要求 这里选择使用最新的MongoDB 7.0.12社区版 ht…

基于R语言进行AMMI分析3

参考资料&#xff1a;https://cran.r-project.org/web/packages/agricolae/agricolae.pdf 1、plot()函数 本次介绍的是Agricolae包中的plot.AMMI()函数。此函数可以绘制AMMI双标图&#xff0c;也可以绘制三标图&#xff08;三个坐标轴&#xff0c;IPCA1&#xff0c;IPCA2&…

TiggerRamDisk绕过激活界面,支持最新iOS17.4.1绕过

&#x1f427;技术交流&#xff1a;582022476 ——————— iOS15等待越狱的日子实在太久了&#xff01;checkra1n越狱目前还未发布iOS15系统越狱。 可很多朋友不小心或者大意已经升级到了最新iOS15系统。一般来说这并没有什么大碍&#xff0c;但如果是绕过激活的设备&#…

Cesium 展示——绘制水面动态升高

文章目录 需求分析需求 如图,绘制水面动态升高,作为洪水淹没的效果 分析 我们首先需要绘制一个面然后给这个面一个高度,在回调函数中进行动态设置值【这里有两种,一种是到达水面一定高度停止升高,一种是水面重新升高】/*** @description :洪水淹没* @author : Hukang*…

一起学Java(3)-Java项目构建工具Gradle和Maven场景定位和优缺点对比

在第一步创建的项目&#xff08;java-all-in-one&#xff09;项目里&#xff0c;我们提到了使用Gradle作为项目构建工具。看到这里&#xff0c;不知道你是否有疑惑&#xff0c;什么是项目构建工具。Java项目常用构建工具有哪些&#xff1f;都有什么特点&#xff1f; 带着疑惑&…

工厂现场多功能帮手,三防平板改善管理体验

随着制造业的智能化变革&#xff0c;信息化、自动化和智能化逐渐成为工厂管理的新常态。在这一波技术浪潮中&#xff0c;三防平板作为一种多功能的工作工具&#xff0c;正在逐步改善工厂现场的管理体验。 一、三防平板的定义与特点 三防平板&#xff0c;顾名思义&#xff0c;是…

Python测试框架之—— pytest介绍与示例

Pytest是一个功能强大且易于使用的Python测试框架&#xff0c;它提供了丰富的功能和灵活的用法&#xff0c;使得编写和运行测试变得简单而高效。 一、Pytest的特点 简单灵活&#xff1a;Pytest的语法简洁清晰&#xff0c;容易上手&#xff0c;并且支持复杂的测试场景。自动发…

python库(21):

1 TextBlob简介 TextBlob 是一个基于 Python 的文本处理库&#xff0c;能够让基础的自然语言处理任务变得异常简单。 它提供了一个简单直观的 API&#xff0c;让你能够轻松执行词性标注、名词短语提取、情感分析、文本分类和关键词提取等功能。 值得一提的是&#xff0c;Tex…