具身智能与大模型融合创新技术实训研讨会成功举办

2025年1月16日-19日武汉,TsingtaoAI联合北京博创鑫鑫教育科技,举行“具身智能与大模型融合创新技术”实训研讨会,本次会议面向高校AI教师和企业AI工程师群体,通过3天的技术研修和实操教学,通过将 AI 大模型与具备3D视觉的机器人相结合,为学员实践演示,带领学员深入理解通用具身智能的原理和应用。本实训围绕「多模态输入->感知与理解->行动执行->反馈学习」的闭环过程展开。通过多模态数据的融合(包括听觉、视觉、触觉等),并结合大语言模型和深度学习算法,带领学员实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。

会议现场

参会对象

各高等院校大数据、人工智能、计算机科学技术、自动化、机器人工程、机电控制工程、电子信息工程、通信工程、网络工程、物联网工程、软件工程和信息工程相关专业的教师、教学带头人、教学科研管理人员;以及信息系统与管理、应用数学专业、经济管理、统计学等相关专业的教师、教学科研管理人员;从事计算机视觉、智能体、多模态、大模型科研工作的硕士生、博士生等科研人员;各高校教务处、科研处、信息中心、实验中心教科研人员和管理人员等;企业从事具身智能、大模型、人工智能相关的技术人员和管理人员等。

具身智能与大模型配置文档

一、硬件环境

3D 相机(实验所用 Gemini2 相机)

机械臂

二、软件环境

Ubuntu20.04 或 Win10

Python3.8 以上

Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

Anaconda3 5.3(64-bit)

OpenCV-python4.8

Pytorch2.2.1

Jupyter notebook7.0.7

智能体Agent大语言模型:Yi-Large、Claude 3 Opus、

文心大模型 4.0 Turbo

多模态视觉理解大模型:GPT4v、GPT4o、Yi-Vision、

Claude 3 Opus、 智谱 CogVLM2-Grounding、 通义千问 Qwen-VL-Max

三、配置步骤

1.Conda

2.Python环境

3. Jupyter notebook

4. OpenCV环境

部分授课课件

会议议程与课程大纲

日期

时间

新一代人工智能“具身智能与大模型融合创新技术”议程安排

上午

授课内容

实验

1. 具身智能学习导论;

·  具身智能的发展概述

·  具身智能与大模型关系

·  具身智能(Embodied AI)和通用人工智能(GAI)概述

·  具身智能关键技术和领域

·  ChatGPT与大模型的启示

2. 多模态感知层;

·  语音识别模块、视觉感知模块、

实验1:多模态感知层;

·  语音识别:通过LLM内置的语音识别工具,Whisper或开源的AppBuilder SDK将语音指令转化为文字

·  视觉感知:采用3D深度相机(Orbbec Gemini 335L和Femto 

·  以及触觉传感模块

·  Vision Transformer (ViT)技术

·  多模态融合感知技术

数据对齐技术

3. 自然语言处理与人机交互技术;

·  自然语言理解与生成的基本原理

·  语言数据的收集、标注与模型训练

·  自然语言与执行动作的交互

Bolt iToF),用于物体识别、三维定位和空间建图,为机械臂提供环境感知支持。

实验2:语音交互实验,人机对

话与任务调度;

·  测试机械臂在自然语言指令下的动作反应

·  根据语音指令进行任务规划和动作执行

下午

4. 大模型与多模态模型基础;

·  大模型与多模态模型概述

·  LLaMA模型及其应用开发-学习LLaMA模型的部署和优化方法

·  大模型之模型架构:语言模型LLM,BERT, GPT系列模型比较,Transformer架构

·  大模型开发基础:大模型的训练与应用、大模型实操与API调用、提示工程技术;

·  RAG基础与架构:RAG基础与架构、文档切分常见算法、向量数据库常见算法;

·  模型微调与私有化大模型:开源模型介绍、模型微调基础、GPU与算力、高效微调技术-LoRA 

5. 多模态大模型开发;

·  多模态大模型基础

·  多模态模型项目剖析

·  多模态大模型开发的技术与关键技术

实验3:多模态模型实操:物体

识别与抓取;

·  环境搭建与硬件连接

·  使用3D相机、麦克风等设备采集多模态数据

·  使用语音、视觉、文本三模态数据进行交互实验

·  利用大模型算法,实现机器人对语音指令的识别与理解

·  基础任务实现:使用语音指令控制机械臂,实现物体识别并进行抓取

·  3D数据的预处理方法,提升物体定位与抓取的准确性和鲁棒性

·  使用相机进行体积视频捕捉和场景重建

·  基于视觉反馈的多步任务规划

上午

6. 3D视觉与物体识别技术;

·  3D视觉感知的工作原理及技术特点

·  实现不同场景下的3D数据采集与实时分析

·  系统集成后的数据融合与处理方法

·  深度相机识别形状复杂的物体

实验4:语音交互实验:人机对话

与任务调度

·  设计语音指令并编写指令解析代码

·  测试机械臂在自然语言指令下的动作反应

·  根据语音指令进行任务规划和动作执行

·  多任务处理和优先级调度算法

·  结合大模型算法生成空间语义信息,提升物体定位精度

7. 视觉-语言-动作模型简介;

·  多模态数据的标注与融合算法

·  结合3D场景重建实现视觉-语言互动

·  基于场景语义理解调整任务规划

·  使用大模型算法生成动作序列,并实现视觉引导;

·  分析并改进语音识别与理解的准确性和鲁棒性

实验5:视觉-语言-动作融合模型,

实现场景交互;

·  实现视觉与语言的匹配和动作响应

·  测试机械臂对语言指令的响应与反馈

·  调试在不同条件下的任务执行稳定性

·  多模态交互应用开发

·  复杂任务规划与视觉引导

下午

8. 智能体Agent开发;

·  Agent开发基础、自定义工具、深入浅出ReAct框架、深度剖析Agent核心部件

·  Agent案例分享和前沿应用

·  智能设备与小参数模型:智能设备上的模型优化基础、模型在智能设备上的部署、边缘计算中的大模型应用

9. 智能体控制技术;

·  智能体Agent基本概念、常见架构和组件

·  智能体协作机器人概述

·  智能体控制算法与应用

·  协作机器人控制策略

·  智能体精度与稳定性调优

·  使用反馈控制技术提升动作的准确性

实验6: 智能体Agent的搭建与应用

  • Agent架构设计
  • 核心功能模块实现
  • 性能测试和评估

实验7:编程实现智能体(机械臂)的高精度抓取与安全避障;

·  智能体控制接口编程

·  使用ROS和C++编程控制机械臂

·  控制机械臂实现复杂的动态交互

·  实现复杂轨迹规划与误差补偿

·  系统鲁棒性分析与优化

上午

10. 大模型微调;

·  大模型的基础技术理解

·  主流的底座模型

·  前沿的指令微调技术

·  高效的微调方法(参数高效、内存高效)

·  各类常用的对齐技术等

11. 大模型推理优化;

·  推理过程的概述与常见挑战

·  模型推理的性能瓶颈分析

实验8llama3.1 405B模型的分布式推理实操

·  推理环境配置

·  分布式推理所需的硬件与软件环境搭建

·  基于NCCL和Horovod的分布式推理框架

·  推理演练

·  分布式推理流程解析与实操

第三

·  多机多卡分布式推理的必要性与优势

·  MindIE简介与多模态推理

·  MindIE架构与工作原理

·  多模态推理的挑战与解决方案

·  推理优化的前沿技术与研究调技术

·  通过多机多卡进行推理的性能分析与优化

·  实操:在特定任务下的llama3.1 405B模型分布式推理

下午

12. 具身智能综合设计:工业制造领

域智能分拣Agent构建;

·  需求分析与场景定义:介绍工业制造中智能分拣的需求,定义具体应用场景。

·  数据准备与预处理:讲解如何收集和处理用于训练智能分拣系统的数据,包括图像数据的标注和处理。

·  模型选择与训练:介绍适用于智能分拣任务的模型,如卷积神经网络(CNN)和目标检测模型,并讲解如何训练这些模型。

·  智能分拣Agent架构设计:阐述如何结合大语言模型(LLM)和ReAct框架,设计一个能够理解和执行分拣任务的智能Agent。

·  集成与测试:说明如何将训练好的模型集成到智能分拣系统中,并进行实际测试。

·  性能评估与优化:讲解如何评估智能分拣系统的性能,并根据评估结果进行优化。

13. AIGC应用开发实践课程-多模态

大模型应用开发;

·  AIGC相关的理论和技术,包括视觉大模型和多模态大模型的原理及应用

·  AIGC工具,如ChatGPT、DALL-E等技术介绍、应用案例分析

实验9:工业制造产品智能分拣

系统开发;

·  系统需求分析与设计:学员根据所学知识,分析智能分拣系统的需求,并设计系统架构。

·  模型训练与调优:学员使用提供的数据集训练模型,并进行参数调优,以提高分拣准确率。

·  智能分拣Agent实现:学员利用LLM和ReAct框架,实现一个能够响应分拣指令的智能Agent。

·  系统集成与测试:学员将训练好的模型和智能Agent集成到系统中,进行整体测试。

·  性能评估与报告撰写:学员评估系统性能,并撰写实验报告,总结学习成果和经验教训。

实验10AIGC应用;

·  AIGC中文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域的应用实践;

师资团队

肖老师 资深多模态/具身智能算法专家

拥有超过 15 年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师,担任中国电子系统技术有限公司的算法 Leader,高性能计算技术专家,是一位经验丰富且技术精湛的资深 AI 基础设施操盘手。他拥有超过十年的高性能计算、算法研究和实践经验,曾在英特尔公司担任高性能计算架构师,并在多家 500 强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师,直接参与了移动复合机器人和协作机器人的开发工作,通过引入大模型技术,成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力,特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化,获得多项专利和荣誉。 华中科技大学硕士,曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作,领导并参与了多个重大项目的开发和实施。

工作经历

2006 年,英特尔上海国际实验室,高性能计算系统架构设计,大型并行图形系统的架构与设计开发;

2009 年,头部安全公司,并发与安全架构和视频监控系统设计,公安安全系统的架构设计与开发;

2012 年,大型通信集团,大型应急通信系统和视频安全监控设计,确保了系统的安全性和可靠性;

2016 年,大数据公司,企业家数据的数据安全和系统安全设计,多家公司设计和实施了信息化安全管理方案,大规模数据的分析和优化;

2019 年,大型央企,GPU、CUDA 与算力平台:深入研究并应用了 GPU 和 CUDA 技术,开发了多种高效的深度学习模型,广泛应用于图像和视频分析、目标检测和分类等领域;应用调优与性能监测:在项目管理和研发过程中,带领团队完成了多个智能视频分析引擎和智能办公引擎的开发,擅长对复杂算法进行性能优化和实时监测,确保系统的高效运行;算力调度管理与网络调优:在多个大型项目中,成功实现了算力调度管理系统的设计与实施,具备出色的网络调优能力,能够优化高性能计算环境下的资源利用率和系统稳定性。

2022.10,头部机器人公司,移动复合机器人和协作机器人的开发,移动复合机器人的开发,在移动复合机器人的研发过程中,我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术,我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。

1. 环境感知与建模:利用大模型对传感器数据进行高效处理和分析,机器人能够实时构建周围环境的精确三维模型,为后续的路径规划和避障提供有力支持。

2. 智能导航算法:结合大模型的强化学习算法,我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线,确保任务的顺利完成。

3. 人机交互体验:借助大模型在自然语言处理方面的优势,我们实现了机器人与操作人员之间的流畅对话,极大提升了用户体验和工作效率。

协作机器人的开发,协作机器人作为新一代工业机器人,强调与人类工人的安全协同作业。在这一领域,我主要聚焦于通过具身智能提升机器人的灵活性与适应性。

1. 智能抓取与装配:利用大模型对物体形状、重量及材质等信息的快速识别与处理,协作机器人能够准确抓取并灵活装配各种工件,大幅提高了生产效率和质量。

2. 自适应学习能力:通过引入深度学习技术,我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验,自动优化作业策略以应对复杂多变的生产环境。

专业能力

并行计算和高性能计算;

深度学习模型设计和优化;

多模态大模型应用设计;

GPU 与 CUDA 编程;

城市大脑与智能交通;

工业机器人和复合机器人大模型;

数据挖掘与运行优化;

国产信创环境适配优化;

专利

基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9)  ;

大型语义分析方法及装置 (CN202110499308.5)  ;

奖项:  荣获2021年度集团优秀解决方案奖  ;

授课经历

重庆大学:深度学习模型在大型物流场景的应用;

头部能源上市公司:大型时序数据预测模型的应用;

头部音视频公司:图形和视频大模型的应用;

百度合作:分拣实训和智能眼实训;

985 高校:机器学习与数据挖掘分析;

主讲课程

《高性能图形图像计算与算法》

《计算机视觉中的图像处理技术》

《视觉和多模态大模型应用》

《具身智能与多模态大模型应用》

《机器学习中的知识自学习与数据优化挖掘》

《大规模分布式系统设计与实现》

《GPU、CUDA 与算力模型应用实战》

《华为昇腾芯片下的大模型迁移和训练课程》

蔡博士 LLM 和多模态技术研发专家

中科院计算机博士,现任北京邮电大学计算机学院硕导,多模态内容分析及多模态大模型研究领域的专家。蔡博士在多模态数据处理、机器学习和人工智能方面拥有丰富的研究经验和技术成果,致力于推动大模型技术在多个行业的应用,积累了深厚的理论基础和实践经验。

教育背景

  • 2016.09—2020.06 中国科学院大学 计算机科学与技术 博士

可讲主题及培训内容

  1. 多模态内容分析技术与应用
  2. 大模型架构设计、优化与部署
  3. 计算机视觉与深度学习
  4. 自然语言处理与多模态融合
  5. 智能推荐系统与个性化服务
  6. 数据挖掘与机器学习

培训案例

  • 中国电信:主持“大数据平台优化及开发应用实战”培训,提升了电信网络运维及开发团队的大数据应用实践能力,优化了多个数据分析应用软件的性能。
  • 北京城建:开展“智能推荐系统与个性化服务”培训,提升华为研发团队在大数据处理和个性化推荐系统设计上的技术水平。
  • 中科院软件研究所:负责“多模态内容分析技术及应用”培训,促进了科研团队在多模态数据处理和分析方面的技术提升。
  • 京东集团:进行“计算机视觉与深度学习”培训,帮助京东 AI 团队在图像识别、物品分类等方面实现了技术突破。

个人资质

  • 高级工程师职称
  • 多模态内容分析及大模型技术专家
  • IEEE 高级会员
  • ACM 会员
  • 发表 SCI 论文 10 篇,EI 会议论文 7 篇
  • 作为项目负责人主持国家自然科学基金、省部级重点研发项目多项

发表论文与发明专利

  • 论文:
    • 发表在《IEEE Transactions on Circuits and Systems for Video Technology》的论文“Multimodal Content Analysis and Applications”
    • 发表在《Pattern Recognition》的论文“Advanced Techniques in Image Recognition”
    • 发表在《Neural Computing and Applications》的论文“Neural Networks in Multimodal Data Processing”
    • 发表在《Neurocomputing》的论文“Deep Learning Models for Multimodal Data”
    • 发表在《Multimedia Tools and Applications》的论文“Tools and Techniques for Multimedia Data Processing”
    • 发表在 NeurIPS、AAAI、ACM MM 等顶级会议的多篇论文
  • 专利:
    • “一种基于多模态数据分析的智能推荐系统”发明专利
    • “大规模数据处理与优化方法”实用新型专利
关于TsingtaoAI

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队,核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队擅长面向教育领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。TsingtaoAI自研基于LLM大模型的AIGC应用开发实训平台、基于AI大模型的具身智能实训解决方案、面向CS专业的AI训练实训平台等产品方案,为高校提供实训解决方案和师资研修服务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/7257.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenAI的工具革命: 当Operator撕开中国AI「内卷式创新」的遮羞布

OpenAI最新发布的智能体Operator,并非简单的任务执行工具,而是一场针对「工具的工具」的底层革命。它用通用性智能体架构重构人机协作范式,而中国AI产业仍在「卷场景」「卷补贴」的泥潭中打转。这场降维打击背后,暴露的是中美AI竞…

MySQL(1)

数据库 基础篇 MYSQL概述 SQL 函数 约束 多表查询 事务 进阶篇 存储索引 索引 SQL优化 试图/存储过程/触发器 锁 InnoDB核心 MySQL管理 运维篇 日志 主从复制 分库本表 读写分离 基础篇 MySQL 数据库概念:存储数据的仓库,数据是有…

SpringBoot+Vue使用Echarts

前言 在vue项目中使用echarts,本次演示是使用vue2 1 前端准备 echarts官网: https://echarts.apache.org/zh/index.html 官网提供了基本的使用说明和大量的图表 1.1 下载echarts 执行命令 npm install echarts 直接这样执行很可能会失败,…

PyQt6医疗多模态大语言模型(MLLM)实用系统框架构建初探(下.代码部分)

医疗 MLLM 框架编程实现 本医疗 MLLM 框架结合 Python 与 PyQt6 构建,旨在实现多模态医疗数据融合分析并提供可视化界面。下面从数据预处理、模型构建与训练、可视化界面开发、模型 - 界面通信与部署这几个关键部分详细介绍编程实现。 6.1 数据预处理 在医疗 MLLM 框架中,多…

Linux-day10

第21章 Linux高级篇-日志管理 日志介绍和实例 基本介绍 系统常用的日志 日志服务 日志服务原理图 在这个配置文件里面记录了日志服务程序 日志管理服务rsyslogd -v是反向匹配 invert 日志服务配置文件 时间、主机、是由哪个程序或者服务发生的、事件信息 自定义日志服务 日…

Linux第一讲--基本的命令操作

从今天开始,我将在csdn这个平台上和大家分享Linux的相关知识,欢迎大家一起讨论! 零、基本操作 1.进入全屏: ALTENTER,退出也是这个 2.复制:ctrlinsert 3.粘贴:shiftinsert Linux中,cv是不好…

WinRAR.exe命令行的使用

工具 命令行打包命令 rem 默认压缩根目录,递归处理子文件夹使用 -r WinRAR.exe a -r test.rar C:/web/Views/

### 2.5.3 二叉树的基本操作

2.5.3 二叉树的基本操作 // 获取树中节点的个数 int size(Node root);// 获取叶子节点的个数 int getLeafNodeCount(Node root);// 子问题思路-求叶子结点个数// 获取第K层节点的个数 int getKLevelNodeCount(Node root,int k);// 获取二叉树的高度 int getHeight(Node root);…

设计新的 Kibana 仪表板布局以支持可折叠部分等

作者:来自 Elastic Teresa Alvarez Soler, Hannah Mudge 及 Nathaniel Reese 在 Kibana 中构建可折叠仪表板部分需要彻底改造嵌入式系统并创建自定义布局引擎。这些更新改进了状态管理、层次结构和性能,同时为新的高级仪表板功能奠定了基础。 我们正在开…

怎么样把pdf转成图片模式(不能复制文字)

贵但好用的wps, 转换——转为图片型pdf —————————————————————————————————————————— 转换前: 转换后: 肉眼可见,模糊了,且不能复制。 其他免费办法,参考&…

PAT甲级-1023 Have Fun with Numbers

题目 题目大意 一个数乘以2倍后,仍由原来的数字组成,只不过顺序发生变化,就输出Yes,否则输出No。并输出乘以2部后的数。 思路 题目说数字不超过20位,long long最多只能表示19位,93....,超过其…

系统架构设计师教材:信息系统及信息安全

信息系统 信息系统的5个基本功能:输入、存储、处理、输出和控制。信息系统的生命周期分为4个阶段,即产生阶段、开发阶段、运行阶段和消亡阶段。 信息系统建设原则 1. 高层管理人员介入原则:只有高层管理日恩怨才能知道企业究竟需要什么样的…

CNN-BiLSTM卷积双向长短期记忆神经网络时间序列预测(Matlab完整源码和数据)

CNN-BiLSTM卷积双向长短期记忆神经网络时间序列预测(Matlab完整源码和数据) 目录 CNN-BiLSTM卷积双向长短期记忆神经网络时间序列预测(Matlab完整源码和数据)预测效果基本介绍 CNN-BiLSTM卷积双向长短期记忆神经网络时间序列预测一…

我谈区域偏心率

偏心率的数学定义 禹晶、肖创柏、廖庆敏《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》P312 区域的拟合椭圆看这里。 Rafael Gonzalez的二阶中心矩的表达不说人话。 我认为半长轴和半短轴不等于特征值,而是特征值的根号。…

每日进步一点点(网安)

1.1 level5 查看源码关键部分 $str strtolower($_GET["keyword"]); $str2str_replace("<script","<scr_ipt",$str); $str3str_replace("on","o_n",$str2);<input namekeyword value".$str3.">关键…

centos操作系统上以service形式运行blackbox_exporter监控网页端口

文章目录 前言一、blackbox_exporter是什么二、使用步骤1.获取二进制文件2.准备部署脚本3.执行命令&#xff0c;进行部署4.prometheus中增加需要监控页面的job信息 三、查看部署结果四、配置到grafana中总结 前言 记录一下centos操作系统上以简单的service形式运行blackbox_ex…

【阅读笔记】基于图像灰度梯度最大值累加的清晰度评价算子

本文介绍的是一种新的清晰度评价算子&#xff0c;基于图像灰度梯度最大值累加 一、概述 目前在数字图像清晰度评价函数中常用的评价函数包括三类&#xff1a;灰度梯度评价函数、频域函数和统计学函数&#xff0c;其中灰度梯度评价函数具有计算简单&#xff0c;评价效果好等优…

数据库设计

七、存储管理 1、存储介质 存储层次 存储分类 访问速度分类&#xff1a;主存储器、二级存储器、三级存储器操作分类&#xff1a;读操作、写操作联机分类&#xff1a;联机、脱机访问方式分类&#xff1a;随机访问、顺序访问读写单位分类&#xff1a;字节、块 存储介质分类 易…

到华为考场考HCIE的注意事项和考试流程

大家好&#xff0c;我是张同学&#xff0c;来自成都职业技术学院2021级计算机网络专业。最近成功通过了 Datacom HCIE 考试&#xff0c;在这里和大家分享一下我的经验。 考证契机 在母校的培养下&#xff0c;我接触到ICT这个行业&#xff0c;打好了基础&#xff0c;开始了成…

海外问卷调查如何影响企业的经营?在品牌建设中有何指导意义?

市场调查的定义&#xff1a;通过科学的方法&#xff0c;有目的地、系统地搜集整理一些市场信息&#xff0c;其目的在于了解当下市场现状和发展前景&#xff0c;为企业生产和品牌打造提供一些科学的指导意见&#xff0c;这是任何大企业、中小企业、初创企业都必须重视的一个重要…