具身智能与大模型融合创新技术实训研讨会成功举办

2025年1月16日-19日武汉，TsingtaoAI联合北京博创鑫鑫教育科技，举行“具身智能与大模型融合创新技术”实训研讨会，本次会议面向高校AI教师和企业AI工程师群体，通过3天的技术研修和实操教学，通过将 AI 大模型与具备3D视觉的机器人相结合，为学员实践演示，带领学员深入理解通用具身智能的原理和应用。本实训围绕「多模态输入->感知与理解->行动执行->反馈学习」的闭环过程展开。通过多模态数据的融合（包括听觉、视觉、触觉等），并结合大语言模型和深度学习算法，带领学员实现了对自然语言指令的理解、物体识别和抓取、路径规划以及任务执行的完整流程。

会议现场

参会对象

各高等院校大数据、人工智能、计算机科学技术、自动化、机器人工程、机电控制工程、电子信息工程、通信工程、网络工程、物联网工程、软件工程和信息工程相关专业的教师、教学带头人、教学科研管理人员；以及信息系统与管理、应用数学专业、经济管理、统计学等相关专业的教师、教学科研管理人员；从事计算机视觉、智能体、多模态、大模型科研工作的硕士生、博士生等科研人员；各高校教务处、科研处、信息中心、实验中心教科研人员和管理人员等；企业从事具身智能、大模型、人工智能相关的技术人员和管理人员等。

具身智能与大模型配置文档

一、硬件环境

3D 相机（实验所用 Gemini2 相机）

机械臂

二、软件环境

Ubuntu20.04 或 Win10

Python3.8 以上

Index of /anaconda/archive/ | 清华大学开源软件镜像站 | Tsinghua Open Source Mirror

Anaconda3 5.3（64-bit）

OpenCV-python4.8

Pytorch2.2.1

Jupyter notebook7.0.7

智能体Agent大语言模型：Yi-Large、Claude 3 Opus、

文心大模型 4.0 Turbo

多模态视觉理解大模型：GPT4v、GPT4o、Yi-Vision、

Claude 3 Opus、智谱 CogVLM2-Grounding、通义千问 Qwen-VL-Max

三、配置步骤

1.Conda

2.Python环境

3. Jupyter notebook

4. OpenCV环境

部分授课课件

会议议程与课程大纲

日期

时间

新一代人工智能“具身智能与大模型融合创新技术”议程安排

第

一

天

上午

授课内容

实验

1. 具身智能学习导论；

· 具身智能的发展概述

· 具身智能与大模型关系

· 具身智能（Embodied AI）和通用人工智能（GAI）概述

· 具身智能关键技术和领域

· ChatGPT与大模型的启示

2. 多模态感知层；

· 语音识别模块、视觉感知模块、

实验1：多模态感知层；

· 语音识别：通过LLM内置的语音识别工具，Whisper或开源的AppBuilder SDK将语音指令转化为文字

· 视觉感知：采用3D深度相机（Orbbec Gemini 335L和Femto

· 以及触觉传感模块

· Vision Transformer (ViT)技术

· 多模态融合感知技术

数据对齐技术

3. 自然语言处理与人机交互技术；

· 自然语言理解与生成的基本原理

· 语言数据的收集、标注与模型训练

· 自然语言与执行动作的交互

Bolt iToF），用于物体识别、三维定位和空间建图，为机械臂提供环境感知支持。

实验2：语音交互实验，人机对

话与任务调度；

· 测试机械臂在自然语言指令下的动作反应

· 根据语音指令进行任务规划和动作执行

第

一

天

下午

4. 大模型与多模态模型基础；

· 大模型与多模态模型概述

· LLaMA模型及其应用开发-学习LLaMA模型的部署和优化方法

· 大模型之模型架构：语言模型LLM,BERT, GPT系列模型比较,Transformer架构

· 大模型开发基础：大模型的训练与应用、大模型实操与API调用、提示工程技术；

· RAG基础与架构：RAG基础与架构、文档切分常见算法、向量数据库常见算法；

· 模型微调与私有化大模型：开源模型介绍、模型微调基础、GPU与算力、高效微调技术-LoRA

5. 多模态大模型开发；

· 多模态大模型基础

· 多模态模型项目剖析

· 多模态大模型开发的技术与关键技术

实验3：多模态模型实操：物体

识别与抓取；

· 环境搭建与硬件连接

· 使用3D相机、麦克风等设备采集多模态数据

· 使用语音、视觉、文本三模态数据进行交互实验

· 利用大模型算法，实现机器人对语音指令的识别与理解

· 基础任务实现：使用语音指令控制机械臂，实现物体识别并进行抓取

· 3D数据的预处理方法，提升物体定位与抓取的准确性和鲁棒性

· 使用相机进行体积视频捕捉和场景重建

· 基于视觉反馈的多步任务规划

第

二

天

上午

6. 3D视觉与物体识别技术；

· 3D视觉感知的工作原理及技术特点

· 实现不同场景下的3D数据采集与实时分析

· 系统集成后的数据融合与处理方法

· 深度相机识别形状复杂的物体

实验4：语音交互实验:人机对话

与任务调度

· 设计语音指令并编写指令解析代码

· 测试机械臂在自然语言指令下的动作反应

· 根据语音指令进行任务规划和动作执行

· 多任务处理和优先级调度算法

· 结合大模型算法生成空间语义信息，提升物体定位精度

7. 视觉-语言-动作模型简介；

· 多模态数据的标注与融合算法

· 结合3D场景重建实现视觉-语言互动

· 基于场景语义理解调整任务规划

· 使用大模型算法生成动作序列，并实现视觉引导；

· 分析并改进语音识别与理解的准确性和鲁棒性

实验5：视觉-语言-动作融合模型，

实现场景交互；

· 实现视觉与语言的匹配和动作响应

· 测试机械臂对语言指令的响应与反馈

· 调试在不同条件下的任务执行稳定性

· 多模态交互应用开发

· 复杂任务规划与视觉引导

第

二

天

下午

8. 智能体Agent开发；

· Agent开发基础、自定义工具、深入浅出ReAct框架、深度剖析Agent核心部件

· Agent案例分享和前沿应用

· 智能设备与小参数模型：智能设备上的模型优化基础、模型在智能设备上的部署、边缘计算中的大模型应用

9. 智能体控制技术；

· 智能体Agent基本概念、常见架构和组件

· 智能体协作机器人概述

· 智能体控制算法与应用

· 协作机器人控制策略

· 智能体精度与稳定性调优

· 使用反馈控制技术提升动作的准确性

实验6: 智能体Agent的搭建与应用

Agent架构设计
核心功能模块实现
性能测试和评估

实验7：编程实现智能体（机械臂）的高精度抓取与安全避障；

· 智能体控制接口编程

· 使用ROS和C++编程控制机械臂

· 控制机械臂实现复杂的动态交互

· 实现复杂轨迹规划与误差补偿

· 系统鲁棒性分析与优化

第

三

天

上午

10. 大模型微调；

· 大模型的基础技术理解

· 主流的底座模型

· 前沿的指令微调技术

· 高效的微调方法（参数高效、内存高效）

· 各类常用的对齐技术等

11. 大模型推理优化；

· 推理过程的概述与常见挑战

· 模型推理的性能瓶颈分析

实验8：llama3.1 405B模型的分布式推理实操

· 推理环境配置

· 分布式推理所需的硬件与软件环境搭建

· 基于NCCL和Horovod的分布式推理框架

· 推理演练

· 分布式推理流程解析与实操

第三天

· 多机多卡分布式推理的必要性与优势

· MindIE简介与多模态推理

· MindIE架构与工作原理

· 多模态推理的挑战与解决方案

· 推理优化的前沿技术与研究调技术

· 通过多机多卡进行推理的性能分析与优化

· 实操：在特定任务下的llama3.1 405B模型分布式推理

下午

12. 具身智能综合设计：工业制造领

域智能分拣Agent构建；

· 需求分析与场景定义：介绍工业制造中智能分拣的需求，定义具体应用场景。

· 数据准备与预处理：讲解如何收集和处理用于训练智能分拣系统的数据，包括图像数据的标注和处理。

· 模型选择与训练：介绍适用于智能分拣任务的模型，如卷积神经网络（CNN）和目标检测模型，并讲解如何训练这些模型。

· 智能分拣Agent架构设计：阐述如何结合大语言模型（LLM）和ReAct框架，设计一个能够理解和执行分拣任务的智能Agent。

· 集成与测试：说明如何将训练好的模型集成到智能分拣系统中，并进行实际测试。

· 性能评估与优化：讲解如何评估智能分拣系统的性能，并根据评估结果进行优化。

13. AIGC应用开发实践课程-多模态

大模型应用开发；

· AIGC相关的理论和技术，包括视觉大模型和多模态大模型的原理及应用

· AIGC工具，如ChatGPT、DALL-E等技术介绍、应用案例分析

实验9：工业制造产品智能分拣

系统开发；

· 系统需求分析与设计：学员根据所学知识，分析智能分拣系统的需求，并设计系统架构。

· 模型训练与调优：学员使用提供的数据集训练模型，并进行参数调优，以提高分拣准确率。

· 智能分拣Agent实现：学员利用LLM和ReAct框架，实现一个能够响应分拣指令的智能Agent。

· 系统集成与测试：学员将训练好的模型和智能Agent集成到系统中，进行整体测试。

· 性能评估与报告撰写：学员评估系统性能，并撰写实验报告，总结学习成果和经验教训。

实验10：AIGC应用；

· AIGC中文本生成图像、图像生成图像、视频生成、语音生成、音乐生成等领域的应用实践；

师资团队

肖老师资深多模态/具身智能算法专家

拥有超过 15 年的算法研究与实践经验。曾在世界五百强企业英特尔公司担任算法高级架构师，担任中国电子系统技术有限公司的算法 Leader，高性能计算技术专家，是一位经验丰富且技术精湛的资深 AI 基础设施操盘手。他拥有超过十年的高性能计算、算法研究和实践经验，曾在英特尔公司担任高性能计算架构师，并在多家 500 强企业中担任高性能计算和系统架构负责人。头部机器人公司担任视觉算法总架构师，直接参与了移动复合机器人和协作机器人的开发工作，通过引入大模型技术，成功地赋予了机器人自主导航、环境感知和决策规划的能力。并在高性能计算、人工智能和深度学习领域有着丰富的项目经验和卓越的技术能力，特别擅长高性能计算、图像处理、计算机视觉以及大规模计算系统的设计与优化，获得多项专利和荣誉。华中科技大学硕士，曾在多个国家重点实验室及顶尖企业从事高性能计算及算法研发工作，领导并参与了多个重大项目的开发和实施。

工作经历

2006 年，英特尔上海国际实验室，高性能计算系统架构设计，大型并行图形系统的架构与设计开发；

2009 年，头部安全公司，并发与安全架构和视频监控系统设计，公安安全系统的架构设计与开发；

2012 年，大型通信集团，大型应急通信系统和视频安全监控设计，确保了系统的安全性和可靠性；

2016 年，大数据公司，企业家数据的数据安全和系统安全设计，多家公司设计和实施了信息化安全管理方案，大规模数据的分析和优化；

2019 年，大型央企，GPU、CUDA 与算力平台：深入研究并应用了 GPU 和 CUDA 技术，开发了多种高效的深度学习模型，广泛应用于图像和视频分析、目标检测和分类等领域；应用调优与性能监测：在项目管理和研发过程中，带领团队完成了多个智能视频分析引擎和智能办公引擎的开发，擅长对复杂算法进行性能优化和实时监测，确保系统的高效运行；算力调度管理与网络调优：在多个大型项目中，成功实现了算力调度管理系统的设计与实施，具备出色的网络调优能力，能够优化高性能计算环境下的资源利用率和系统稳定性。

2022.10，头部机器人公司，移动复合机器人和协作机器人的开发，移动复合机器人的开发，在移动复合机器人的研发过程中，我主要负责了智能导航与控制系统的设计与实现。通过引入大模型技术，我们成功地赋予了机器人自主导航、环境感知和决策规划的能力。

1. 环境感知与建模：利用大模型对传感器数据进行高效处理和分析，机器人能够实时构建周围环境的精确三维模型，为后续的路径规划和避障提供有力支持。

2. 智能导航算法：结合大模型的强化学习算法，我们训练出了能够在复杂环境中灵活导航的机器人。这些机器人能够根据实时路况调整行进路线，确保任务的顺利完成。

3. 人机交互体验：借助大模型在自然语言处理方面的优势，我们实现了机器人与操作人员之间的流畅对话，极大提升了用户体验和工作效率。

协作机器人的开发，协作机器人作为新一代工业机器人，强调与人类工人的安全协同作业。在这一领域，我主要聚焦于通过具身智能提升机器人的灵活性与适应性。

1. 智能抓取与装配：利用大模型对物体形状、重量及材质等信息的快速识别与处理，协作机器人能够准确抓取并灵活装配各种工件，大幅提高了生产效率和质量。

2. 自适应学习能力：通过引入深度学习技术，我们使协作机器人具备了自适应学习能力。它们能够在实际工作中不断积累经验，自动优化作业策略以应对复杂多变的生产环境。

专业能力

并行计算和高性能计算；

深度学习模型设计和优化；

多模态大模型应用设计；

GPU 与 CUDA 编程；

城市大脑与智能交通；

工业机器人和复合机器人大模型；

数据挖掘与运行优化；

国产信创环境适配优化；

专利

基于生成式深度学习模型的文本识别模型的生成方法以及装置 (CN202110447608.9)  ；

大型语义分析方法及装置 (CN202110499308.5)  ；

奖项:  荣获2021年度集团优秀解决方案奖  ；

授课经历

重庆大学：深度学习模型在大型物流场景的应用；

头部能源上市公司：大型时序数据预测模型的应用；

头部音视频公司：图形和视频大模型的应用；

百度合作：分拣实训和智能眼实训；

985 高校：机器学习与数据挖掘分析；

主讲课程

《高性能图形图像计算与算法》

《计算机视觉中的图像处理技术》

《视觉和多模态大模型应用》

《具身智能与多模态大模型应用》

《机器学习中的知识自学习与数据优化挖掘》

《大规模分布式系统设计与实现》

《GPU、CUDA 与算力模型应用实战》

《华为昇腾芯片下的大模型迁移和训练课程》

蔡博士 LLM 和多模态技术研发专家

中科院计算机博士，现任北京邮电大学计算机学院硕导，多模态内容分析及多模态大模型研究领域的专家。蔡博士在多模态数据处理、机器学习和人工智能方面拥有丰富的研究经验和技术成果，致力于推动大模型技术在多个行业的应用，积累了深厚的理论基础和实践经验。

教育背景

2016.09—2020.06 中国科学院大学计算机科学与技术博士

可讲主题及培训内容

多模态内容分析技术与应用
大模型架构设计、优化与部署
计算机视觉与深度学习
自然语言处理与多模态融合
智能推荐系统与个性化服务
数据挖掘与机器学习

培训案例

中国电信：主持“大数据平台优化及开发应用实战”培训，提升了电信网络运维及开发团队的大数据应用实践能力，优化了多个数据分析应用软件的性能。
北京城建：开展“智能推荐系统与个性化服务”培训，提升华为研发团队在大数据处理和个性化推荐系统设计上的技术水平。
中科院软件研究所：负责“多模态内容分析技术及应用”培训，促进了科研团队在多模态数据处理和分析方面的技术提升。
京东集团：进行“计算机视觉与深度学习”培训，帮助京东 AI 团队在图像识别、物品分类等方面实现了技术突破。

个人资质

高级工程师职称
多模态内容分析及大模型技术专家
IEEE 高级会员
ACM 会员
发表 SCI 论文 10 篇，EI 会议论文 7 篇
作为项目负责人主持国家自然科学基金、省部级重点研发项目多项

发表论文与发明专利

论文：
- 发表在《IEEE Transactions on Circuits and Systems for Video Technology》的论文“Multimodal Content Analysis and Applications”
- 发表在《Pattern Recognition》的论文“Advanced Techniques in Image Recognition”
- 发表在《Neural Computing and Applications》的论文“Neural Networks in Multimodal Data Processing”
- 发表在《Neurocomputing》的论文“Deep Learning Models for Multimodal Data”
- 发表在《Multimedia Tools and Applications》的论文“Tools and Techniques for Multimedia Data Processing”
- 发表在 NeurIPS、AAAI、ACM MM 等顶级会议的多篇论文
专利：
- “一种基于多模态数据分析的智能推荐系统”发明专利
- “大规模数据处理与优化方法”实用新型专利

关于TsingtaoAI

TsingtaoAI拥有一支高水平的产学研一体的AI产品开发团队，核心团队主要来自清华大学、北京大学、中科院、北京邮电大学、复旦大学、中国农业大学、美团、京东、百度、中国技术创业协会和三一重工等产研组织。 TsingtaoAI核心团队擅长面向教育领域的LLM和AIGC应用开发。公司拥有近10项LLM/AIGC相关的知识产权。TsingtaoAI自研基于LLM大模型的AIGC应用开发实训平台、基于AI大模型的具身智能实训解决方案、面向CS专业的AI训练实训平台等产品方案，为高校提供实训解决方案和师资研修服务。