2025 GDC开发者先锋大会“人形机器人的开源之路”分论坛 | 圆桌会议:《开放协作:开源生态如何解锁人形机器人与具身智能的未来》(上篇)

在GDC全球开发者先锋大会期间,2月23日,由GDC组委会指导、国家地方共建人形机器人创新中心(以下简称“国地中心”)承办的“人形机器人的开源之路”主题论坛在上海西岸艺术中心成功举办。

在人工智能与机器人技术飞速发展的今天,人形机器人和具身智能正成为全球科技领域的新焦点。本次论坛上,大家围绕人形机器人与具身智能的前沿技术、开源生态建设及产业融合等核心议题展开深度探讨。本文将为您带来这场论坛的精彩内容,分享行业大咖们的真知灼见,以及对未来的展望与思考。

以下是圆桌讨论的内容整理:

关键词一、研究领域介绍

江磊(国地中心首席科学家)

首先感谢大家参与我们的论坛。我相信通过今天的圆桌讨论,与在座嘉宾共同探讨大家最关心的课题——开源生态如何真正解锁人形机器人与具身智能的未来。接下来,请四位嘉宾简要介绍各自深耕领域的研究内容。首先有请王松总介绍乐聚机器人的探索。

王松(乐聚(苏州)机器人总经理)

谢谢江老师。乐聚成立于2016年,一直专注于人形机器人领域。我们从最早的35厘米、16自由度人形机器人,到65厘米、20自由度人形机器人,再到如今1.7米的全尺寸夸父人形机器人,一路不断探索与成长。在2022年之前,人形机器人还是一个比较小众的行业,但如今已经受到广泛关注。

目前,我们的产品主要面向三个应用场景:

第一是科研和展厅,这是我们现阶段正在批量交付的人形机器人产品;

第二是工业领域,今年我们针对工业分拣和搬运工作,正在开展大量POC(概念验证)项目;

第三是面向未来,我们正在积累人形机器人的实际数据集,用于开源数据的训练模型部署,推动本体迭代的飞轮。至于面向家庭的应用,可能还需要3到5年的时间来进一步探索。

卢国强(商汤大装置产品高级总监)

商汤是一家专注于人工智能的老牌公司,已经成立11年。我们的核心业务是模型,从早期的机器视觉到如今的大模型。近两年,大模型迅速崛起,商汤的核心业务主要集中在三个方面:大装置、大模型和应用。大装置是基础设施的底座,大模型是大脑应用,而应用则是将底座和模型的能力拓展到各个行业。

具身智能是商汤未来两三年的重点发展方向,我们目前正重点发展多模态大模型。我们坚信多模态大模型将成为机器人的“大脑”。无论是大模型的训练、数据处理还是模型在各个领域的应用,我们希望通过与具身智能的结合,与大家一起拓展数据和模型的能力。

王启斌(北京灵初智能科技CEO)

灵初智能是一家专注于通用灵巧操作的公司,我们以算法驱动为核心,采用VA模型,并通过强化学习实现双手双臂的灵巧操作系统。

聂凯旋(松应科技创始人)

松应科技打造了国内首款具身智能仿真系统,主要为机器人提供物理仿真模拟和合成数据生成。我们自建了一个包含近百套机器人的仿真训练场,这是一个全虚拟的高清环境。在这个环境中,我们提供了多种类型的机器人,包括仿生、双足、四足以及复合型机器人的全量仿真训练。仿真系统涵盖传感器模拟、物理仿真、热力学、电磁学等多个领域,不仅包括传统的刚体和柔体仿真,还增加了许多物理世界中的各种模拟类型,逐渐深入到物理存在的各项指标,为具身智能提供全类型、逼真的训练环境。

后续,我们将与国创中心深度合作,共同打造更深入的技术模型和更大规模的数据。

关键词二、硬件开源

江磊(国地中心首席科学家)

好的,感谢四位企业家的分享。今天我们有幸邀请到来自人形机器人整机企业、老牌人工智能企业、具身智能大模型企业和国内首个具身智能仿真平台的代表。

国创中心一直致力于推动开源,开源开放已经成为当前的重要方向。去年,在WAIC和GDC大会上,大家还在讨论闭源与开源的优劣。但经过DeepSeek在春节期间的火爆,大家已经认识到开源在大模型领域是行之有效的。那么,开源对人形机器人这样一个软硬件一体化的新产业是否依然有效呢?今天我们将围绕四个问题展开讨论:开源硬件是否可行?具身智能是否需要仿真平台?是否需要社区支持?以及是否需要其他方面的推动?

首先,我们从开源硬件的角度出发,讨论人形机器人的开源硬件对传感器、执行器、控制器的标准化路径将起到怎样的促进作用。我们先请聂总分享一下他的看法。

聂凯旋(松应科技创始人)

我认为在具身智能领域,开源技术对行业的推动是非常有价值且有效的。从历史上看,许多技术创新都是由开源驱动的,大量开发者基于开源平台进行学习和训练,进而推动技术进入商业生产。

在相关零部件,尤其是传感器和上游零部件生态中,开源可以帮助企业投入更多资源。因为开发者的需求和反馈会在平台上显现,相关企业会更深入地考虑机器人的技术生态和开发者用户群,进而推动技术的统一和标准化。在标准化的基础上,更容易实现传感器或上游供应链的快速进步和成本大幅下降。我认为开源的作用非常大,甚至比许多商业公司的单向推动更有效,至少高出一个数量级。

王启斌(北京灵初智能科技CEO)

我对硬件开源的态度相对没那么乐观。通常,行业发展需要先出现一家独大的企业来引领,才能实现百花齐放。目前具身智能领域的问题在于,还没有一家企业能做出让用户觉得体验极佳的产品,真正引爆市场。所以,硬件开源不是一个“是与否”的问题,而是一个“时机”的问题。在当前这个阶段,硬件开源可能类似于当年MIT的开源模式,但工业界真正需要的是1到2家能够引领产业发展的企业,将产业推向更高水平。

江磊(国地中心首席科学家)

好的,正好两位嘉宾的观点针锋相对,我们论坛就要有这个话题的高度性,我们再听听卢总对于开源硬件的想法与意见。

卢国强(商汤大装置产品高级总监)

谢谢主持人。我们虽然不做硬件,但作为硬件的使用者,也有一些深刻的体会。这两天,我注意到会场门口有一个机器人体验项目,很多学生和孩子都积极参与。我在一旁观察时发现,研究员提到控制机器人前进后退的踏板在两天内就损坏了。这件事让我深刻感受到机器人领域的复杂性。与我们熟悉的软件模型不同,机器人涉及硬件、软件和算法等多个层面。虽然数据和训练很重要,但硬件问题同样关键。研究人员更希望专注于算法和模型这些核心创新,然而基础硬件问题却可能让他们花费大量精力去解决。

因此,我非常期待开源能够推动硬件产业更快成熟。这样,无论是团队、个人还是企业,都可以专注于自己的核心创新,而不必被硬件问题束缚。这对整个产业的发展或许会更好。以上是我的一些个人看法。

江磊(国地中心首席科学家)

好的,接下来听听真正做硬件的乐聚如何看待开源硬件这件事。

王松(乐聚(苏州)机器人总经理)

从我们的角度来看,人形机器人是一个从硬件结构设计、核心控制器到整机应用的超长产业链。一家公司显然无法独立完成所有环节。如果从整机角度出发,开源可能仅在结构或部分软件层面实现,但这并非最终解决方案。正如刚才启斌总提到的,硬件开源或许并非终极答案。原因在于人形机器人的最优构型和参数仍在快速动态变化中,而且核心零部件如一体化关节或驱动器往往属于供应商的核心技术,难以开源。

然而,开源仍有其积极意义。一方面,人形机器人企业目前面临的一大挑战是人才短缺。国内高校尚未普遍开设相关专业,机器人工程专业也是2020年才开始设立,人才培养和使用的门槛较高。开源可以降低这一门槛,为机器人企业输送更多专业人才。另一方面,对于专注于算法或特定领域的开发者来说,开源能够降低进入行业的门槛,推动技术创新。

尽管如此,对于整机企业来说,开源可能仍需持保守态度。开源一个迷你版或小版本或许是对开源社区有益的尝试,但如何平衡开源与核心竞争力的保护,仍是一个值得深入探讨的问题。

关键词三、具身智能大模型

江磊(国地中心首席科学家)

好的,开源硬件的讨论确实是一个永恒的话题。国创中心正在考虑开发人形机器人的开发板,以推动行业生态建设。当然,开源硬件部分也需要持续关注和讨论,我们将在开放原子基金会的指导下完成这件事。

第二个问题是关于具身智能大模型的开源。今年,DeepSeek开源了其语言大模型,引发了行业对开源具身智能大模型的思考。同时,Figure AI与OpenAI的“分手”事件也引发了对开源与自主开发的讨论。Figure AI在与OpenAI合作一年后,选择终止合作,转而开发自己的端到端AI模型。这一事件表明,人形机器人企业需要在开源与自主技术之间找到平衡,以实现可持续发展。

目前,虽然已有模型开源,但仍未完全解决人形机器人的实际问题。今天,我们想讨论两个问题:一是开源的具身智能模型是否有用?二是开源具身智能大模型何时能真正落地?首先请王启斌王总分享一下他的看法,因为灵初智能是做具身智能大模型的,大家更关心的是这些模型何时能落地应用在机器人上。

王启斌(北京灵初智能科技CEO)

在人形机器人领域,VOA(具身智能大模型)的技术架构尚未完全收敛,目前存在多种技术范式。一些方案直接将大模型与传统运控NPC结合,比如采用大模型与特定架构(如LAM + Division)结合的方式,还有端到端的解决方案。

从中期来看,人形机器人技术将遵循大模型的发展规律,开源将成为推动生态建设的重要力量。然而,短期内技术架构尚未收敛,行业呈现出多种方案并存的局面。以DeepSeek为例,其开源的单模态模型在推理能力上已取得显著进展,证明了技术架构的收敛趋势。但人形机器人技术的复杂性在于从大模型端到硬件端的技术栈极为深厚,一家公司难以独立完成所有环节。

灵初智能作为行业内的新兴企业,其策略是利用全球最新的开源模型进行后训练,结合底层操作层面的数据,进一步优化模型性能。对于江老师的问题,我认为中期一定会有一个开源模型来推动生态发展,但短期内可能仍没有主架构收敛,呈现出百花齐放的态势。

江磊(国地中心首席科学家)

架构不收敛也是业内的一个共识,希望能加速收敛。下面请我们卢总讲一下怎么看待这个问题。

卢国强(商汤大装置产品高级总监)

确实商汤本身是做大模型,尤其是多模态的,在这方面的话我可能跟启斌总有点类似的看法,我认为开源是未来一定会有,从过往的发展来看,开源是真正推动产业发展的。

以DeepSeek为例,其开源模型之所以能够迅速火爆全球,一方面得益于OpenAI的前期铺垫,另一方面是因为其以更低的成本和开源的方式,为国内提供了与OpenAI相媲美的技术方案。如果没有OpenAI的前期铺垫,其实对大家的开源教育的过程可能很漫长,所以其实开源对我们来说,不是说开源本身,而是这个开源它能不能快速的去一统天下,而不是百花齐放。如果市场上存在过多开源大模型,反而可能导致市场分散。其实我们内部也在讨论开源,如果开源了但在社会上没有太大的反响,开源可能没有太大意义。

在产业起步阶段,开源的作用可能并不显著,但在大规模拓展和落地阶段,开源将成为加速产业发展的关键。我认为,未来开源大模型的出现将有助于推动人形机器人产业的加速落地,但前提是社会对相关技术的认知和接受程度需要达到一定高度。

江磊(国地中心首席科学家)

现在DeepSeek让大家把思路都拉到我们真正进入大模型时代,而我也特别想听王总关于开源大模型这样的一个看法与思路。

王松(乐聚(苏州)机器人总经理)

前两天Figure的演示让整个机器人圈都备受振奋。然而,从开源的角度来看,人形机器人面临的问题可以分为三个层面:首先是本体的运控,包括基本的移动和操作能力;其次是抓取能力或上肢操作能力;最后是对多模态信息的理解能力,这可能需要更大的参数量。对于机器人从业者来说,一个长期困扰的问题是:人形机器人到底能解决现实场景中的哪些问题?现实环境是动态且复杂的,不可能依赖专业化的编程,因此寄希望于通过模型的方式来解决问题。

尽管乐聚并非专门从事大模型开发,但一直在密切关注开源大模型的生态发展。如果出现合适的思路或方案,也愿意开展合作。从目前的判断来看,在开放场景下实现人形机器人的大模型可能短期内难以实现,但在一些专有场景,例如简单的分解搬运、特定的工业场景或商户场景,未来1~2年可能会出现1~2个针对人形机器人的开源大模型的示范标杆案例,证明其可行性和实用性。然而,面向更广泛的场景,可能仍处于早期的野蛮发展阶段,或许需要再过5年才能实现更广泛的落地应用。

江磊(国地中心首席科学家)

王总提到的其实是一个非常关键的点:具身智能大模型的现状对机器人产业来说是不足够的。现在,具身智能领域也有另一种观点,认为目前还没有一个通用且优秀的硬件平台。在我看来,像我们这样的开发者大会,更应该关注如何快速弥补这个差距。

再请聂总从我们仿真平台角度来研究看待如何看待这件事。

聂凯旋(松应科技创始人)

我认为模型是可以开源的,但每家企业即使开源模型,也会保留自己私有化的数据。因为企业的差异在于所处行业,比如康养、医疗、家庭服务、工业,甚至特种行业,每家都有特殊行业的知识和经验。在这种情况下,大家可以共享开源模型,同时保留特殊行业的私有化数据和知识。这两者并不冲突。

目前,国内几乎所有做具身大模型的公司都在参考国外的开源架构,我们从中受益。既然受益于开源,我们在完成训练后提升开源模型的水平,并再次开源,这将进一步推动行业发展。在这个过程中,我们自身的行业数据和专属知识不会受到太大影响,同时也能为行业做出贡献。一旦形成这样的循环,技术迭代过程中大家都能受益。对行业、用户和最终消费者来说,这无疑是巨大的利好。

以我早期做云计算的经历为例,2013—2014年,大家普遍使用开源协议和社区,如Apache和OpenStack。当时,华为从OpenStack的第一个版本一直跟进到第八个版本,期间我们做了大量技术研发和产品能力提升,并反馈给开源社区。在这个过程中,每家企业都在丰富自身能力,就像你提供了3个馒头,别人又给你贡献了4个甚至6个馒头回来,大家都是受益者。最终,用户和消费者是最大的受益方。

基于这种立场,我认为开源是最快实现预期目标的方式。包括我们自己搭建的仿真训练场,既有自主研发的部分,也借鉴了一些开源成果。我们从来不会对外宣称,我们的百万行代码都是自己手写的,因为我们也是开源的受益者。在获得开源平台后,我们将训练成果反向开源,包括在OpenLoong社区和GitHub社区,我们也开源了自己的技术和模型。

尤其是在技术尚未收敛的阶段,大家共享更多方案和经验,能够快速形成共识。这个阶段更多是共同推动社会、市场和消费者对机器人产业的信心,而不是进入商业化竞争。只有当行业获得大量关注、需求和资金支持时,才能真正成为大产业。我们坚信开源是当前阶段的最佳选择。

由于篇幅过长,后面关于具身智能仿真平台的进展伦理与安全问题的讨论放在下篇,各位移步下篇继续阅读~

OpenLoong开源社区介绍

“OpenLoong”是一个全球领先的综合性人形机器人开源社区。社区秉持着技术驱动和开放透明的价值观,致力于汇聚全球开发者,共同推动人形机器人产业的发展,为全球人形机器人产业赋能。
我们的使命是通过在机器人本体技术、平台软件、具身智能、具身数据集以及上层应用等多个方面做出重大贡献,从而推动整个产业的进步。

注册成为 OpenLoong 开源社区的一员,与机器人研究者和爱好者共同开启人形机器人探索之旅!

注册地址:潜龙在源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27037.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

txt 转 json 使用python语言

需求: 把如下的txt文档转成json输出 代码 import jsondef txt_to_json(input_file, output_file):data_list []with open(input_file, r, encodingutf-8) as f:for line in f:# 分割数据并去除换行符parts line.strip().split(,)print(f"{parts}")print(type(par…

快速入手-搭建Flask框架封装mysql并结合业务实际情况使用

1、安装包 pip install pymysql pip install dbutils 2、项目目录结构,注意目录的层级 3、在flask_project文件夹里创建__init__.py from flask import Flask, redirect, request, session def auth():# 拦截器print("拦截器")# js、css、img不拦截处…

【语法】C++中string类中的两个问题及解答

贴主在学习string类时遇到过两个困扰我的问题,今天拿出来给大家分享一下我是如何解决的 一、扩容时capacity的增长问题 在string的capacity()接口中,调用的是这个string对象的容量(可以存多少个有效字符),而size()是调用的string对象现在有…

P8720 [蓝桥杯 2020 省 B2] 平面切分--set、pair

P8720 [蓝桥杯 2020 省 B2] 平面切分--set、pair 题目 分析一、pair1.1pair与vector的区别1.2 两者使用场景两者组合使用 二、set2.1核心特点2.2set的基本操作2.3 set vs unordered_set示例:统计唯一单词数代码 题目 分析 大佬写的很明白,看这儿 我讲讲…

协议-Airkiss

是什么? 设备 A 与外界没有建立任何实质性连接,可以称之为信息孤岛。设备 B 通过路由 或者直接 将 Wifi 的 ssid 与密码 UDP广播 传递给 A 为什么? 解决将无线网络的 ssid 与密码传输到设备难题 怎么做? 芯片自带AT指令开启Air…

git从零学起

从事了多年java开发,一直在用svn进行版本控制,如今更换了公司,使用的是git进行版本控制,所以打算记录一下git学习的点滴,和大家一起分享。 百度百科: Git(读音为/gɪt/)是一个开源…

企微审批中MySQL字段TEXT类型被截断的排查与修复实践

在MySQL中,TEXT类型字段常用于存储较大的文本数据,但在一些应用场景中,当文本内容较大时,TEXT类型字段可能无法满足需求,导致数据截断或插入失败。为了避免这种问题,了解不同文本类型(如TEXT、M…

《Python实战进阶》No 10:基于Flask案例的Web 安全性:防止 SQL 注入、XSS 和 CSRF 攻击

第10集:Web 安全性:防止 SQL 注入、XSS 和 CSRF 攻击 在现代 Web 开发中,安全性是至关重要的。无论是用户数据的保护,还是系统稳定性的维护,开发者都需要对常见的 Web 安全威胁有深刻的理解,并采取有效的防…

nio多线程版本

多线程多路复用 多线程NIO,,就是多个线程,每个线程上都有一个Selector,,,比如说一个系统中一个线程用来接收请求,,剩余的线程用来读写数据,,每个线程独立干自…

LabVIEW DataSocket 通信库详解

dataskt.llb 是 LabVIEW 2019 内置的核心函数库之一,位于 vi.lib\Platform\ 目录下,专注于 DataSocket 技术的实现。DataSocket 是 NI 提供的网络通信协议,支持跨平台、跨设备的实时数据共享,广泛应用于远程监控、分布式系统集成等…

【UI设计——视频播放界面分享】

视频播放界面设计分享 在本次设计分享中,带来一个视频播放界面的设计作品。 此界面采用了简洁直观的布局。顶部是导航栏,包含主页、播放、搜索框等常见功能,方便用户快速找到所需操作。搜索框旁输入 “萌宠成长记”,体现了对特定内…

论coding能力 new bing 对比 chatgpt

近日需要编程计算每个月的第二个星期二是哪一天,因为那一天需要做一件重要的事情,我想在这个日期做一个提醒,于是把这个重任交给当下最火的AI,微软new bing和chatGPT,实验对比结果如下:微软new bing会给你参…

leetcode第39题组合总和

原题出于leetcode第39题https://leetcode.cn/problems/combination-sum/description/题目如下: 给你一个 无重复元素 的整数数组 candidates 和一个目标整数 target ,找出 candidates 中可以使数字和为目标数 target 的 所有 不同组合 ,并以…

计算机毕业设计SpringBoot+Vue.js社区智慧养老监护管理平台(源码+文档+PPT+讲解)

温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 温馨提示:文末有 CSDN 平台官方提供的学长联系方式的名片! 作者简介:Java领…

Linux:动静态库

库:Linux:静态库(libxxxx.a)和动态库(libxxxx.so) 库:windows静态库(xxxx.lib)和动态库 (xxxx.dll) ldd 可以看自己所依赖的目标文件 /lib64/libc.so.6------>这是c标准库 file code (动态库&…

在Pycharm中将ui文件修改为py文件

在Pycharm中将ui文件修改为py文件 有些时候,我们需要把QTDesigner生成的.ui文件修改为.py文件 在一些教程中,通常使用cmd打开终端修改,或者是有一些人写了一些脚本来修改 这里我们可以使用pycharm来快速的修改 首先,我们在pyc…

RabbitMQ面试题及原理

RabbitMQ使用场景: 异步发送(验证码、短信、邮件…)MYSQL和Redis, ES之间的数据同步分布式事务削峰填谷 1. 消息可靠性(不丢失) 消息丢失场景: RabbitMQ-如何保证消息不丟失? 开启生产者确…

GDidees CMS v3.9.1本地文件泄露漏洞(CVE-2023-27179)

漏洞简介: GDidees CMS v3.9.1及更低版本被发现存在本地文件泄露漏洞,漏洞通过位于 /_admin/imgdownload.php 的 filename 参数进行利用。 漏洞环境: 春秋云镜中的漏洞靶标,CVE编号为CVE-2023-27179 漏洞复现: 进入靶场发现没…

金融项目实战

测试流程 测试流程 功能测试流程 功能测试流程 需求评审制定测试计划编写测试用例和评审用例执行缺陷管理测试报告 接口测试流程 接口测试流程 需求评审制定测试计划分析api文档编写测试用例搭建测试环境编写脚本执行脚本缺陷管理测试报告 测试步骤 测试步骤 需求评审 需求评…

本地部署 DeepSeek:从 Ollama 配置到 Spring Boot 集成

前言 随着人工智能技术的迅猛发展,越来越多的开发者希望在本地环境中部署和调用 AI 模型,以满足特定的业务需求。本文将详细介绍如何在本地环境中使用 Ollama 配置 DeepSeek 模型,并在 IntelliJ IDEA 中创建一个 Spring Boot 项目来调用该模型…