π0:仅有3B数据模型打通Franka等7种机器人形态适配,实现0样本的完全由模型自主控制方法

Chelsea Finn引领的Physical Intelligence公司,专注于打造先进的机器人大模型,近日迎来了一个令人振奋的里程碑。在短短不到一年的时间内,该公司成功推出了他们的首个演示版本。这一成就不仅展示了团队的卓越技术实力,也预示着机器人技术的未来发展将更加智能化和高效。在这里插入图片描述

想象一下,一个机器人能够轻松地洗衣服、冲咖啡,所有这些动作都无需人工遥控,完全由模型自主控制。这不仅仅是一个梦想,而是由Physical Intelligence(简称π)这家今年新成立的初创公司所开发的通用型机器人控制模型π0实现的。π0的参数量仅为3B,却能驾驭各种类型的机器人。这个强大的模型不仅训练了众多不同的机器人,还从预训练的视觉语言模型(VLM)中汲取了丰富的语义知识和视觉理解能力。VLM经过训练,能够对网络上的文本和图像进行建模。π0正是以这种广泛使用的VLM为起点,通过调整适应实时灵巧的机器人控制需求,展现出其惊人的能力。在这里插入图片描述
在成立之初,π公司便迅速斩获了高达7000万美元(约合5亿人民币)的A轮融资,其中不乏科技巨头OpenAI的身影。这家新兴企业致力于研发一款革命性的通用机器人控制模型。在这里插入图片描述
而π0,作为他们的开山之作,标志着这一宏伟目标的初步实现。π0适配Franka机器人等7种机器人直接控制π团队最新展示的机器人技术令人瞩目,它们能够执行一系列对机器人来说极具挑战性的任务,如叠衣服、整理桌面和装鸡蛋盒。这些任务不仅要求机器人进行长时间的连续决策,还必须在动作上达到高频率和精确度的双重标准。更复杂的是,它们还涉及到各种材料的接触动力学,例如衣物的变形、纸箱的硬度和鸡蛋的易碎性。为了成功完成这些任务,Franka等机器人必须精确地模拟并控制这些复杂的物理过程,并满足额外的物理约束条件,比如保持物体平衡和避免碰撞。π0不仅能控制机器人,还能控制不同类型的机器人,出色地完成这些任务。Franka机器人七轴力控Franka机器人设置有两个摄像头和一个8维的配置和动作空间,其中关节力控功能在一些任务当中尤为重要UR5e单臂一个配备平行爪夹持器的手臂,带有一个腕部安装和一个肩上摄像头,总共提供两张相机图像和一个7维的配置和动作空间双臂UR5e 两个UR5e设置,总共提供三张相机图像和一个14维的配置和动作空间其他不再介绍。π0的零样本任务评估在零样本任务评估中,研究人员对经过预训练的π0模型进行了严格的测试。他们要求模型在未接受特定任务训练的情况下,执行一系列复杂任务,包括衬衫折叠、简易餐桌清理(bussing easy)、高难度餐桌清理(bussing hard)以及食品杂货装袋等。实验结果令人瞩目:π0模型在所有零样本任务中均展现出卓越的表现,证明了其非凡的泛化能力。特别是在衬衫折叠任务中,模型几乎达到了完美的成功率;而在简易餐桌清理任务中,也显示出了极高的准确度。在这里插入图片描述
在众多模型中,π0模型以其卓越的性能脱颖而出。相较于OpenVLA和Octo,它们在任务执行上的表现明显不足。OpenVLA受限于其自回归离散化架构,难以有效处理动作分块,导致任务执行困难重重。而Octo虽然支持动作分块,但其有限的表示能力难以满足复杂任务的需求。这些对比结果充分展示了π0模型的优势:它将大规模表达性架构与流匹配技术相结合,在零样本的情况下也能轻松应对各种任务。
π0的零样本机器人操作基于Franka机器人π0的0样本分配任务 象一下,一个双臂灵活的机器人正轻松地完成家务。它优雅地走到洗衣机前,轻轻打开舱门,然后灵巧地将洗净的衣物一件件取出,整齐地放入筐中。这一幕不仅展示了机器人的实用性,也让我们对未来智能生活的便捷与高效充满了期待。接着,她轻巧地走到另一张桌子前,小心翼翼地从筐中取出衣物。她的动作温柔而细致,将每一件衣物平铺开来,然后巧妙地折叠整齐。这一系列动作如同优雅的舞蹈,展现了她对日常家务的熟练和热爱。在整理桌面的使命中,我们的主角——一位单臂机器人,展现出了非凡的效率。它灵巧地将珍贵的物品分类放入收纳筐,而那些不再需要的物品则被精准地投入垃圾桶。这不仅是一场清洁的仪式,更是对空间秩序的一次优雅重塑。即使在物品与垃圾交错混杂的情况下,我们的系统依然能够精确执行任务。“显然,π0在零样本泛化、语言控制响应、新任务学习和多阶段任务处理等方面的表现令人瞩目。它不仅能够灵活适应新任务,还能在不同阶段的任务中展现出卓越的性能。”在这里插入图片描述
零样本泛化能力上,π0在所有任务上都显著超过了baseline模型,即使未加入预训练视觉模型的π0-small也比这些baseline表现优异。π0的计算效率在指令处理领域,π0展现了卓越的自主性能,尤其在人类指导下的三个语言指令任务中表现最佳。此外,其高层策略指导能力也得到了显著提升。面对与预训练数据差异较大的新任务挑战,π0在大多数情况下都能提供最佳的性能表现,特别是在微调数据量有限的情况下,其优势尤为突出。这表明π0无需额外训练即可使机器人自动完成众多开放性任务,展现了其强大的适应性和灵活性。在这里插入图片描述
在一系列极具挑战性的复杂任务中,π团队对π0进行了微调和语言指令测试,展现了其卓越的性能。π0成功完成了如折衣服、整理餐桌、组装纸箱和装鸡蛋等耗时5至20分钟的任务,平均得分超过50%。在Franka机器人抽屉物品放置任务中,尽管缺乏预训练中的类似任务,π0仍展现出了“困难”级别的能力。而在UR5e堆叠碗任务中,由于涉及抓取和移动碗的动作与预训练数据相似,π0轻松地将其归为“简单”层级。此外,在纸巾更换任务中,尽管面临未见过的物品挑战,π0也表现出了“困难”级别的处理能力。总体来看,π0的计算效率和实时性表现突出,虽然距离实现网友期待的普及应用还有提升空间,但其潜力不容忽视。在这里插入图片描述
那么,π团队在π0模型上,都运用了什么样的技术呢?π0的视觉模型原理探索π0,这款由视觉模型PaLM-ViT演化而来的先进系统,它不仅保留了原始模型的核心特性,还增添了创新元素:一个投影层、一个多层感知机和一个小巧的动作专家模块。投影层专门负责处理机器人状态与动作的输入输出,而多层感知机则精妙地整合了流匹配时间步信息。动作专家模块则独立地处理机器人状态和动作tokens,赋予模型更高的灵活性和效率。π0的输入涵盖了图像、语言指令、机器人本体感受状态以及噪声动作块,其中图像和语言tokens被送入VLM主干网络进行深度分析,而状态和动作tokens则由动作专家模块精心处理。最终,π0能够输出动作块的精确向量场表示,为机器人操作提供强大的决策支持。在这里插入图片描述
π0模型以其先进的条件流匹配技术,在连续动作分布建模领域独树一帜。这种方法通过逐步引入噪声简化数据分布,再逐步去除噪声以恢复隐私数据,与扩散模型的核心理念不谋而合。然而,流匹配技术的独特之处在于直接建模数据与噪声分布之间的映射场,而非像扩散模型那样学习每个去噪步骤的条件分布。这种创新方法使得π0能够精确捕捉复杂的多峰分布,特别适合于需要高频灵巧操作的任务。在训练数据方面,π0模型在迄今为止最大的机器人交互数据集上进行了深入训练。预训练阶段的数据集涵盖了OXE、DROID、Bridge等开源数据集,以及团队在8个不同机器人平台上收集的大量灵巧任务数据。团队自行收集的数据集包含68个任务,涉及单臂任务106M步和双臂任务797M步,均采用50Hz的高频控制。开源数据与团队自收集数据的比例约为1:9。为了使π0掌握特定复杂技能,团队还在20多个下游任务上进行了微调,微调数据量根据任务难度和相似度从5小时到100多小时不等,并在一些任务中结合了高层语言策略模块来分解复杂目标。正如团队成员切尔西·芬所言:“预训练旨在让模型适应各种场景,而微调则是为了让π0掌握更多的策略。”“不造机器人”的机器人公司PPhysical Intelligence,一家今年成立的新兴企业,已经成功筹集了7000万美元的A轮融资,这一成就在业界引起了广泛关注。本轮融资由知名风险投资公司红杉资本领投,同时还有包括人工智能领域的翘楚OpenAI在内的六家公司参与投资。值得一提的是,该公司还有一个富有创意的简称——π。这个名称不仅源于Physical Intelligence的缩写pi,而且巧妙地呼应了数学中圆周率π的拉丁文转写,展现了公司对科技与智慧的无限追求。"尽管π公司在机器人领域享有盛誉,但它并不涉足实体机器人的生产。相反,π专注于开发和训练先进的机器学习模型,旨在打造一个多功能、适应性强的通用机器人模型。"公司联合创始人兼首席执行官卡罗尔·豪斯曼(Karol Hausman)在一次公开演讲中阐述了这一愿景。CEO卡罗尔·豪斯曼(Karol Hausman),此前曾是谷歌大脑机器人操作研究主管,2021年至今兼任斯坦福客座教授。联创切尔西·芬(Chelsea Finn),斯坦福计算机科学和电气工程系助理教授,谷歌学术论文引用数超4.7万。此外,还有谷歌大脑机器人团队前科学家布赖恩·伊希特(Brian Ichter)、丰田研究院ML研究团队的研究科学家苏拉吉·奈尔(Suraj Nair)等。参考链接:[1]https://www.physicalintelligence.company/blog/pi0
https://www.physicalintelligence.company/download/pi0.pdf

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7855.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第二十一周:Mask R-CNN

Mask R-CNN 摘要Abstract文章信息研究动机Mask RCNNRoIPool与RoIAlign 双线性插值Mask Branch(FCN)其他细节Mask RCNN损失Mask分支预测 网络搭建创新点与不足总结 摘要 本篇博客介绍了Mask R-CNN,这是一种用于实例分割的模型,能够在目标检测的基础上实现…

Windows本地部署(DeepSeek-R1-Distill-Qwen-1.5B)模型

文章目录 Windows本地部署(DeepSeek-R1-Distill-Qwen-1.5B)模型本机环境运行环境安装安装 WSL2,启用linux 系统进入linux 系统后,安装以下软件安装 Anaconda3安装 CUDA安装 pip创建虚拟环境并安装 vllm 模型下载模型运行部署模型测…

Java 大视界 -- Java 大数据在元宇宙中的关键技术与应用场景(65)

💖亲爱的朋友们,热烈欢迎来到 青云交的博客!能与诸位在此相逢,我倍感荣幸。在这飞速更迭的时代,我们都渴望一方心灵净土,而 我的博客 正是这样温暖的所在。这里为你呈上趣味与实用兼具的知识,也…

【QT】 控件 -- 显示类

🔥 目录 [TOC]( 🔥 目录) 1. 前言 2. 显示类控件2.1 Label 1、显示不同文本2、显示图片3、文本对齐、自动换行、缩进、边距4、设置伙伴 3.2 LCD Number 3.3 ProgressBar 3.4 Calendar Widget 3. 共勉 🔥 1. 前言 之前我在上一篇文章【QT】…

大数据之路:阿里巴巴大数据实践(1)

第一章 总述 第二章 日志采集 2.1 浏览器的页面日志采集 览器的页面型产品/服务的日志采集可分为如下两大类 (1)页面浏览(展现)日志采集。顾名思义,页面浏览日志是指:一个页面被浏览器加载呈现时采集的日…

定时器按键tim_key模版

低优先级放在高优先级内势必是程序卡死 把高优先级放到低优先级内,会使程序卡死 可修改 Debuger调试方法 Pwm rcc #include "my_main.h" uint8_t led_sta0x10; char text[30]; void LED_Disp(uint8_t dsLED) {HAL_GPIO_WritePin(GPIOC,GPIO_PIN_All,GPI…

Linux的权限和一些shell原理

目录 shell的原理 Linux权限 sudo命令提权 权限 文件的属性 ⽂件类型: 基本权限: chmod改权限 umask chown 该拥有者 chgrp 改所属组 最后: 目录权限 粘滞位 shell的原理 我们广义上的Linux系统 Linux内核Linux外壳 Linux严格…

【ComfyUI专栏】ComfyUI 部署Kolors

什么是Kolors?我相信一定会有朋友可能第一次听说这个生图的模型,开始我也很难想象,这竟然是快手推出的可灵AI的项目,我们可以直接利用模型来生成图片和视频。 大家可以通过直接访问可灵AI的网址获取到可灵的项目,但是对于我们来说我们需要基于ComfyUI来生成必要的图片和视…

vue3+elementPlus之后台管理系统(从0到1)(day4-完结)

面包屑 创建一个面包屑组件 将路由导入然后格式化map对象 key-value 将当前路由的key和value获取然后存入list数组中 遍历list数据&#xff0c;渲染内容 <!--BreadcrumbCom.vue--> <template><el-breadcrumb separator">"><el-breadcrum…

非根目录部署 nextjs 项目,资源文件 请求404 的问题

最近在学习next项目编写的代码放到服务器上静态资源404 先分析问题 到服务器上查看是有资源目录的是不是项目配置有问题是不是nginx配置有问题 经过排查1和2是没有问题的目前来看只有3 检查一下nginx配置 尝试着把静态资源的配置禁用 问题解决 我的next项目用的是pm2管理…

【Leetcode刷题记录】15.三数之和

15. 三数之和 给你一个整数数组 nums &#xff0c;判断是否存在三元组 [nums[i], nums[j], nums[k]] 满足 i ! j、i ! k 且 j ! k &#xff0c;同时还满足 nums[i] nums[j] nums[k] 0 。 请你返回所有和为 0 且不重复的三元组。 注意&#xff1a;答案中不可以包含重复的三…

豆包 MarsCode + 开源 = ?AI 助力开源社区新人成长

来源&#xff5c;豆包 MarsCode “开源” 这个词&#xff0c;对开发者来说&#xff0c;可能是入门时的第一步&#xff0c;也可能是追求极致技术的终点。无数优秀的开源项目不仅推动了技术的进步&#xff0c;也成为开发者学习和成长的宝藏&#xff0c;但同时也因为其规模庞大、代…

【Linux】IPC:匿名管道、命名管道、共享内存

⭐️个人主页&#xff1a;小羊 ⭐️所属专栏&#xff1a;Linux 很荣幸您能阅读我的文章&#xff0c;诚请评论指点&#xff0c;欢迎欢迎 ~ 目录 1、管道2、进程池3、命名管道4、共享内存 1、管道 我们知道进程具有独立性&#xff0c;但是在一些场景中进程间也需要通信&#…

python生成图片和pdf,快速

1、下载安装 pip install imgkit pip install pdfkit2、wkhtmltopdf工具包&#xff0c;下载安装 下载地址&#xff1a;https://wkhtmltopdf.org/downloads.html 3、生成图片 import imgkit path_wkimg rD:\app\wkhtmltopdf\bin\wkhtmltoimage.exe # 工具路径&#xff0c;安…

location的使用规则

1、基于URL的location 负责均衡配置 后端集群中的web服务器&#xff0c;必须要有对应的目录和文件才能被访问到 http {include mime.types;default_type application/octet-stream;sendfile on;keepalive_timeout 65;upstream default_pool {server 10.0.0.7:…

ComfyUI实现老照片修复——AI修复老照片(ComfyUI-ReActor / ReSwapper)解决天坑问题及加速pip下载

AI修复老照片&#xff0c;试试吧&#xff0c;不一定好~~哈哈 2023年4月曾用过ComfyUI&#xff0c;当时就感慨这个工具和虚幻的蓝图很像&#xff0c;以后肯定是专业人玩的。 2024年我写代码去了&#xff0c;AI做图没太关注&#xff0c;没想到&#xff0c;现在ComfyUI真的变成了工…

基于C++的DPU医疗领域编程初探

一、大型医院数据处理困境与 DPU 的崛起 在数字化浪潮的席卷下,医疗行业正经历着深刻变革,大型医院作为医疗服务的核心枢纽,积累了海量的数据,涵盖患者的基本信息、诊断记录、检验报告、影像资料等多个维度。这些数据不仅规模庞大,而且增长速度迅猛,传统的中央处理器(C…

C#新语法

目录 顶级语句&#xff08;C#9.0&#xff09; using 全局using指令&#xff08;C#10.0&#xff09; using资源管理问题 using声明&#xff08;C#8.0&#xff09; using声明陷阱 错误写法 正确写法 文件范围的命名空间声明&#xff08;C#10.0&#xff09; 可空引用类型…

WPF基础 | WPF 布局系统深度剖析:从 Grid 到 StackPanel

WPF基础 | WPF 布局系统深度剖析&#xff1a;从 Grid 到 StackPanel 一、前言二、Grid 布局&#xff1a;万能的布局王者2.1 Grid 布局基础&#xff1a;构建网格世界2.2 子元素定位与跨行列&#xff1a;布局的精细操控2.3 自适应布局&#xff1a;灵活应变的秘诀 三、StackPanel…

基于微信小程序的网上订餐管理系统

作者&#xff1a;计算机学姐 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等&#xff0c;“文末源码”。 专栏推荐&#xff1a;前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏&#xff1a;…