化茧成蝶 | 继HuggingFace首家落地大模型具身智能场景

关于具身智能的起源

近年来,大语言模型(LLMs)的兴起给机器人领域带来了革命性的改变,大模型赋予了传统机器人理解和推理的能力,让具身智能这一概念再度出现在大众的视角中。OpenCSG 作为国内 AI 开源社区的先锋,对标国外 HuggingFace 平台,对 HuggingFace 的首席科学官(CSO)发起的基于 dora-rs 开源框架的具身智能机器人进行落地实现和开源分享(https://huggingface.co/posts/thomwolf/809364796644704?image-viewer=809364796644704-3234DF5C5B4FF12A512F5D1B04325DF820919CB3)

OpenCSG 打造中国本土化 Huggingface plus 开源社区 开放传神 OpenCSG 传神社区 官网icon-default.png?t=N7T8https://opencsg.com/

该机器人搭载了最新的大模型并基于最新的计算框架,展现出来卓越的语言理解和生成能力,并凭借其物理形态实现了与现实世界的无缝互动,展现出一流的机器智能化水准。下面就让我们来看一下一个可以理解你、回应你、并与环境互动的智能伙伴是如何实现的吧!

1. 具身智能:AI领域的新兴热点

近年来,随着大语言模型(LLM)技术的飞速发展,具身智能领域取得了令人瞩目的进展。业界和学术界都在该领域上取得了显著的成果,不仅推动了技术的创新发展,也吸引了大量的资本的关注和投资。在业界,大批科创公司投身于此,带来了一批又一批令人耳目一新的具身智能AI产品。比如:

在今年 3 月份,知名 AI 机器人创业公司 Covariant 推出机器人基础模型 RFM-1(Robot Foundation Model-1)是世界上首个基于真实任务数据训练的最接近于解决真实世界任务的机器人大模型。RFM-1 模型是一个基于真实世界的文本、图像、视频、机器人动作以及一系列传感器读数综合训练得到的多模态大模型,通过接受初始图像和机器人动作的输入,预测接下来视频帧的变化,从而让搭载该模型的机器人可以像人一样对真实世界进行推理和预测。

还是今年 3 月份,谷歌 RT 机器人在之前的版本上再一次进化,引入了行动层级(action hierarchy),将复杂的任务分解为简单的语言动作,再转化为机器人动作,充分利用大语言模型的能力,从而提高机器人完成任务的准确性和学习效率。

学术界的研究者也在积极探索具身智能的各种可能。在上个月(5.13-5.17)国际顶级机器人学术会议 ICRA(IEEE International Conference on Robotics and Automation)中,论文的提交数量相较于去年上涨了 25.88%,论文主题覆盖了如双足机器人、人体检测和跟踪、人机交互、机器人学习、安全和监控机器人系统、3D重建、无人机系统、人工智能、农业自动化、行为树和大数据分析等领域。

与此同时,资本也开始大量涌入到具身智能行业。就在 5 月 31 号,前阿里达摩院机器人实验室负责人陈俊波创立的“有鹿机器人”,刚刚宣布完成了超1亿元融资,投资方包括创新工场、元璟资本、百度风投等。最著名的当属华为天才少年“稚晖君”辞职后创立的“智元机器人”,仅仅一年的时间,“智元机器人”的估值已经飙升至 70 亿元。根据Markets and Markets的预测,全球具身智能市场预计2028年将达到138亿美元。Nvidia、OpenAI、三星、微软等世界巨头公司也都纷纷进场,投资押注国外炙手可热的具身智能公司1X Technologies和Figure AI。工业界、学术界和资本的不断支持下,具身智能正在不断突破边界,将科幻带进现实。

2. 小型语言模型SLMs:为智能机器的发展注入新动能

在大型语言模型(LLM)备受瞩目时,一股来自小型语言模型(SLMs)的新风正在悄然兴起,为人工智能领域注入新的动力。相比大型语言模型,SLMs只需要较少的内存和处理能力,使其非常适合基于设备和本地部署。SLMs有着参数小易于部署的特点,展现出媲美大型语言模型的强大实力。

SLMs是一种生成式人工智能模型,通过精简模型结构、优化算法和参数压缩等技术手段,小语言模型实现了在参数数量、模型大小和训练数据量上的“小”化,从而减少了计算资源需求。最著名的当属微软公司开发的Phi-3 模型。其作为微软对无障碍人工智能的持续承诺的一部分,在语言处理,编码,数学推理等任务中具有极其优越的性能,可以做到在大部分领域的性能远超同等参数的语言模型。

在 SLMs 打破次元壁,展现出无限的可能的同时,苹果、谷歌等世界巨头公司也都纷纷推出自家的 SLMs 的落地项目。比如这个月苹果公司在 WWDC 中花费一半的时间介绍的基于 SLMs 的全生态 AI 能力(Apple Intelligence),充分地将 SLMs 和苹果已经建立的完整的硬软件生态系统相结合,让 AI 更好地融入每个人的生活。联想集团大举进军 AIPC 行业,在去年十月份的联想科技创新科技大会(Lenovo Tech World 2023)上展示了联想首款 AIPC,大模型压缩技术等一系列 SLMs 应用创新科技成果,为智能终端的产业发展助力。

OpenCSG 算法团队在国内首次使用自研悟空系列多模态大模型如 csg-wukong-1B-VL、opencsg-bunny-v0.1-3B 等实现具身智能项目,充分展示 SLMs 在具身智能的应用效果。

3. OpenCSG国内首家实现:基于dora 框架的具身智能机器人

OpenCSG 作为国内模型开源社区的领军者,首个尝试并实现了基于dora框架的具身智能机器人项目。该项目由 HuggingFace 的首席科学官(CSO)发起,旨在促进具身智能机器人领域的开源社区发展。该项目使用到大疆平台的 RoboMaster S1 机器车,结合了 OpenCSG 自研悟空系列大模型如多模态大模型 csg-wukong-1B-VL 等和最新的 dora 开源框架。

RoboMaster S1 是大疆平台的可编程遥控车,具有卓越的性能,高度的可编程性,丰富的传感器和较高的性价比以及强大的生态系统,可以为开发人员提强大的硬件系统。但是robomaster sdk已经不再更新了,并且s1需要使用第三方hack sdk才能使用RoboMaster EP的sdk,因此需要进行破解的操作。

dora-rs 是面向数据流的机器人应用框架,旨在简化机器人应用的开发过程。该框架致力于解决硬件设备、算法和人工智能模型等多种要素集成过程中的复杂性,通过高效的通讯手段将它们紧密连接,实现互动协作。在性能方面,dora与当前使用 Python 的 ROS2 相比,性能提升可达17倍。不过由于 dora-rs开源项目正处于实验阶段,可能会出现一些未知的 bug,框架作者会对其不断优化,OpenCSG开源社区也会提供一些框架 bug 的解决方案,为开源项目的发展尽一份力。

OpenCSG 算法团队从 5 月中旬开始对该项目进行复现工作,在复现的过程中遇到了很多问题,比如大疆 RoboMaster 的hack、环境的搭建、dora-rs 的适配等等。接下来让我们来分享一下这一个月内复现的辛酸历程吧。

3.1 体验具身智能的第一步:基础部署

将小型语言模型部署在大疆RoboMaster S1平台上,为具身智能机器人的开发奠定基础。

为了在RoboMaster S1上部署小型语言模型,需要进行一些基础部署工作。首先,通过以下命令下载相关项目代码:

git clone https://opencsg.com/codes/OpenCSG/csg-robomaster

接下来,创建项目的环境,使用以下命令:

conda create -n robomaster python=3.8
pip install robomaster dora-rs==0.3.4 
pip install -r requirements.txt

接着,需要进行RoboMaster S1的破解工作。具体步骤如下:

  • 启动RoboMaster应用程序,并选择通过路由器或通过WLAN的方式连接RoboMaster S1。
  • 连接成功后,使用微型USB电缆将RoboMaster S1连接到计算机的USB端口。连接成功时会听到一声“哔”的声音,类似于连接任何设备时的声音。(请注意,在此过程中不得通过USB连接其他安卓设备)
  • 在应用程序的“实验室”部分,创建一个新的Python应用程序,并粘贴以下代码:
def root_me(module):    __import__ = rm_define.__dict__['__builtins__']['__import__']return __import__(module, globals(), locals(), [], 0) 
builtins = root_me('builtins') 
subprocess = root_me('subprocess') 
proc = subprocess.Popen('/system/bin/adb_en.sh', shell=True, executable='/system/bin/sh', stdout=subprocess.PIPE, stderr=subprocess.PIPE)
  • 运行代码,如果没有出现错误,控制台应显示“执行完毕”的结果。
  • 在不关闭应用程序的情况下,导航至包含Android SDK Platform-Tools文件夹的位置,并在其中打开终端。
  • 运行 ADP 命令 .\adb.exe devices 。如果一切正常,应该会看到类似下面的输出:
     

  • 行位于 s1_SDK 文件夹中的 upload.sh。
  • 当所有步骤执行完毕后,关闭RoboMasterS1并重新启动。在启动过程中,您应该听到两声鸣叫,而不是通常的一声鸣叫,这表明破解操作已成功。

完成基础部署后,就可以进行RoboMaster S1的连接与测试。具体步骤如下:

  1. 确保使用稳定的RoboMaster无线热点连接,无线热点的默认密码是12341234。如果想在联网的情况下运行演示程序,可能需要使用第二张无线网卡。
  2. 尝试使用以下命令测试与RoboMaster S1的连接:
conda activate robomaster
python tests/test_ap.py

也可以直接在命令行中运行测试文件中的代码。如果通信成功,控制台将显示类似下面的输出:

成功连接并测试后,就可以运行具身智能机器人的演示程序了。在命令行中使用以下命令:

conda activate robomaster
# This requires dora==0.3.4, update with:
# cargo install dora-cli
dora up 
dora start graphs/dataflow_robot_vlm.yml --attach --hot-relo

目前,互动方式是在笔记本电脑上按下向上箭头键,将信息录制并发送到机器人的视觉语言模型(Visual Language Model,VLM)。这一基础部署工作为RoboMaster S1上的具身智能机器人开发奠定了坚实的基础。通过结合小型语言模型和具身智能的人性化交互设计,具身智能机器人不仅将广泛应用于家庭、教育和医疗等行业,提供个性化的服务,还将推动智能技术在更广泛的场景中的普及。

3.2 感受具生智能无限的魅力:让机器人拥有自主的理解能力

具身智能机器人是一种结合了语音、视觉、运动和学习等功能的人工智能系统。它可以通过与用户的交互来提供个性化的服务和智能化的体验。借助小型语言模型和具身智能的设计,RoboMaster S1可以成为了一种全新的、强大而具有趣味性的工具。

结合小参数量多模态模型和具身智能,RoboMaster S1能够识别和理解用户的语音指令,并作出相应的反应和动作。例如,当我们对RoboMaster S1说出“前进”、“后退”、“左转”或“右转”等指令时,它能够根据我们的指令进行相应的移动动作。同时,它还可以根据我们的语音指令进行理解后制定下一步计划,能够完成拍照、录像、射击等操作,我们记录下了机器人这些精彩的瞬间。

除此之外,RoboMaster S1本身自带一些编程sdk,可以通过视觉识别技术来感知环境和物体。它可以识别人脸、识别物体、追踪目标等,从而实现更加智能化的互动。借助小型语言模型的嵌入,RoboMaster S1能够理解我们的语言指令,并结合视觉信息作出相应的反应。例如,当我们对它说出“追踪某个人”,它会根据我们的指令进行人物追踪,并通过摄像头进行追踪和拍摄,后续我们会借助这些功能开发出更多有意思的表现。

4. OpenCSG:助力具身智能,共创技术新篇章

OpenCSG作为国内模型开源领域的先驱者,提供了具身智能机器人的开源平台,通过开源的方式推动具身智能机器人的发展。在CSGHub(https://opencsg.com/models)开源社区中,开发者可以访问和共享代码、模型和数据集,便于跨领域的合作和知识共享,同时CSGHub也推出了企业版,能够为企业提供一站式的模型、数据、代码以及应用等资源管理平台。

StarShip CodeGenAgent 以23.67%的成绩获得全球 第二名 的成绩,为StarShip的落地打下了坚实基础。

OpenCSG CSGHub 一站式大模型资源管理平台

OpenCSG StarShip CodeGen API

同时OpenCSG在上个月刚发布的全球SWE-Bench排名第二的StarShip CodeGenApi ,它也将会逐步实现辅助更多的爱好者能够参与到具身智能机器人领域的研究和开发。

OpenCSG欢迎各方研究者、企业、高校等机构的积极参与,我们一起共建具生智能开源开放的社区平台。在我们未来规划中,开发者们可以基于开源平台构建各种具身智能机器人项目,将具身智能机器人项目从概念阶段进展到实际应用阶段。涵盖了家庭、教育、医疗等多个领域,例如,可以开发智能家居助手,为用户提供便捷的家居管理和个性化服务;可以开发教育机器人,辅助学生的学习和发展;还可以开发医疗机器人,在医疗领域提供更高效、精准的辅助治疗服务。

作为开源平台,OpenCSG将持续努力,给国内具身智能机器人提供发展的环境。通过分享经验和技术成果,加速创新步伐,推动更多创新性的具身智能机器人项目实现落地。OpenCSG会提供最好的资源和技术支持,促进开源社区的合作,推动具身智能机器人领域的共同进步。让我们共同期待具身智能机器人领域在OpenCSG开源社区的助推下迸发出更多创新和进步!

参考链接

1.A Survey on Integration of Large Language Models with Intelligent Robots:

https://arxiv.org/abs/2404.09228

2.联想阿木:AIPC让AI惠及每一个人:

https://mp.weixin.qq.com/s/MK2IRXbNqVytYtQHR8FpEw

3.ICRA 官网:

https://2024.ieee-icra.org

4.HuggingFace开源 dora 项目:

https://huggingface.co/dora-rs

5.dora-rs 开源项目:

https://github.com/dora-rs/dora

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/361489.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python flask 入门-helloworld

学习视频链接: 01-【前奏】课程介绍_哔哩哔哩_bilibili 1.安装flask pip install flask 踩坑记:本机不要连代理,否则无法install 提示报错valueError: check_hostname requires server_hostname 2.程序编写 在根目录下创建 app.py fr…

从零开始学docker(四)-安装mysql及主从配置(一)

mysql MySQL是一个关系型数据库管理系统,由瑞典MySQL AB 公司开发,属于 Oracle 旗下产品。MySQL 是最流行的关系型数据库管理系统之一,在 WEB 应用方面,MySQL是最好的 RDBMS (Relational Database Management System,关…

【HDC.2024】华为云Astro低代码平台开启AI敏捷组装时代,探索低代码创新无限可能

6月22日,华为开发者大会2024期间,华为云举办了以“敏捷组装时代来临「高低零码智能协同」加速行业创新”为主题的Astro低代码平台专题论坛。论坛汇聚了业界精英和专家学者,共同探讨低代码技术在推动企业数字化转型中的重要实践及未来发展趋势…

cs与msf权限传递,与mimikatz抓取win2012明文密码

CS与MSF的权限互相传递抓取windows2012的明文密码 CS与MSF的权限互相传递 1、启动cs服务端 2、客户端连接 3、配置监听,并设置监听端口为9999 4、生成脚本 5、开启服务,下载并运行木马 已获取权限 6、进入msf并设置监听 7、cs新建监听,与m…

【Linux】UDP协议

目录 传输层端口号netstat端口号范围划分认识知名端口号(Well-Know Port Number) UDP协议UDP协议端格式UDP的特点UDP的缓冲区UDP使用注意事项基于UDP的应用层协议 传输层 通过前面文章对于应用层的讲解,我们知道应用层主要是将我们的数据按照协议的格式进行划分&am…

注册安全分析报告:PingPong

前言 由于网站注册入口容易被黑客攻击,存在如下安全问题: 暴力破解密码,造成用户信息泄露短信盗刷的安全问题,影响业务及导致用户投诉带来经济损失,尤其是后付费客户,风险巨大,造成亏损无底洞 …

Day15 —— 大语言模型简介

大语言模型简介 大语言模型基本概述什么是大语言模型主要应用领域大语言模型的关键技术大语言模型的应用场景 NLP什么是NLPNLP的主要研究方向word2vecword2vec介绍word2vec的两种模型 全连接神经网络神经网络结构神经网络的激活函数解决神经网络过拟合问题的方法前向传播与反向…

【Linux】锁|死锁|生产者消费者模型

🔥博客主页: 我要成为C领域大神🎥系列专栏:【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 ​ ​ 访问互斥 …

力扣-两数之和

文章目录 题目题解方法1-暴力方法2-哈希 题目 原题链接:两数之和 题解 方法1-暴力 我最先想到的方法就是暴力,两层for循环,也能通过。(拿到算法题在没有思路的时候暴力就是思路,哈哈哈) public class T…

【STM32-存储器映射】

STM32-存储器映射 ■ STM32F1-4G地址空间分成8个块■ STM32F1-Block0■ STM32F1-Block1■ STM32F1-Block2■ STM32F1- ■ STM32F1-4G地址空间分成8个块 ■ STM32F1-Block0 有出厂 BootLoader 就可以使用串口下载程序。如Keil5图中IROM地址是0x8000000 开始 就是flash地址 ■ S…

2-17 基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析

基于matlab的改进的遗传算法(IGA)对城市交通信号优化分析。根据交通流量以及饱和流量,对城市道路交叉口交通信号灯实施合理优化控制,考虑到交通状况的动态变化,及每个交叉口的唯一性。通过实时监测交通流量&#xff0c…

代码随想录-Day41

46. 携带研究材料(第六期模拟笔试) 题目描述 小明是一位科学家,他需要参加一场重要的国际科学大会,以展示自己的最新研究成果。他需要带一些研究材料,但是他的行李箱空间有限。这些研究材料包括实验设备、文献资料和实…

GroundingDINO1.5突破开放式物体检测界限:介绍与应用

《博主简介》 小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。 ✌更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~ 👍感谢小伙伴们点赞、关注! 《------往期经典推…

小程序 UI 风格,引人入胜

小程序 UI 风格,引人入胜

如何基于项目人力和管线方案选择FGUI和UGUI

1)如何基于项目人力和管线方案选择FGUI和UGUI 2)TMP字体出包丢失字体描边 3)如何将一张贴图经过Shader处理后的结果输出给另外一个Shader使用 4)为什么我的水这么干净,和UE教程里的有差别 这是第390篇UWA技术知识分享的…

Handling `nil` Values in `NSDictionary` in Objective-C

Handling nil Values in NSDictionary in Objective-C When working with Objective-C, particularly when dealing with data returned from a server, it’s crucial (至关重要的) to handle nil values appropriately (适当地) to prevent unexpected crashes. Here, we ex…

2024年最新通信安全员考试题库

61.架设架空光缆,可使用吊板作业的情况是()。 A.在2.2/7规格的电杆与墙壁之间的吊线上,吊线高度5m B.在2.2/7规格的墙壁与墙壁之间的吊线上,吊线高度6m C.在2.2/7规格的电杆与电杆之间的吊线上,吊线高度…

ChatGPT API技术教程OpenAI APIKey在线对接-Chat Completion对象

表示模型根据提供的输入返回的聊天完成响应。 {"id": "chatcmpl-123","object": "chat.completion","created": 1677652288,"model": "gpt-3.5-turbo-0125","system_fingerprint": "fp…

solidity智能合约如何实现跨合约调用函数

背景 比如现在有一个需求、我需要通过外部合约获取BRC20 token的总交易量。那么我需要在brc20的转账函数里面做一些调整,主要是两个函数内统计转移量。然后再提供外部获取函数。 /*** dev Sets amount as the allowance of spender over the callers tokens.** Ret…

【ai】tx2-nx:安装深度学习环境及4.6对应pytorch

参考:https://www.waveshare.net/wiki/Jetson_TX2_NX#AI.E5.85.A5.E9.97.A8 英伟达2021年发布的的tritionserver 2.17 版本中,backend 有tensorflow1 和 onnxruntime ,他们都是做什么用的,作为backend 对于 triton 推理server意义是什么,是否应该有pytorch? Triton Infer…