用于基于骨架的动作识别的空间时间图卷积网络 ST-GCN (代码+数据集+模型)

简介 本仓库包含论文《用于基于骨架的动作识别的空间时间图卷积网络》的相关代码、数据集和模型。

ST-GCN 动作识别演示 我们的基于骨架的动作识别演示展示了ST-GCN如何从人体骨架中提取局部模式和关联性。下图显示了我们ST-GCN最后一层中每个节点的神经响应幅度。

触摸头部 坐下 脱鞋 进食 投踢他人 掷锤 清洁与抓举 拉力器 太极拳 抛球 上一行结果来自NTU-RGB+D数据集,第二行来自Kinetics-skeleton数据集。

前提条件

  • Python3(版本大于3.5)
  • PyTorch
  • Openpose(带Python API,仅用于演示)
  • 其他Python库可以通过运行pip install -r requirements.txt来安装

安装

 
1git clone https://github.com/yysijie/st-gcn.git; cd st-gcn
2cd torchlight; python setup.py install; cd ..

获取预训练模型 我们提供了ST-GCN的预训练模型权重。可以通过运行以下脚本来下载模型:

 
1bash tools/get_models.sh

您也可以从GoogleDrive或百度云获取模型,并手动将其放入./models目录下。

演示 您可以使用以下命令运行演示:

  • 离线姿态估计

     
    1python main.py demo_offline [--video ${视频路径}] [--openpose ${Openpose路径}]
  • 实时姿态估计

     
    1python main.py demo [--video ${视频路径}] [--openpose ${Openpose路径}]

可选参数:

  • PATH_TO_OPENPOSE: 如果Openpose Python API不在PYTHONPATH中,则需要此路径。
  • PATH_TO_VIDEO: 输入视频的文件名。

数据准备 我们在两个基于骨架的动作识别数据集上进行了实验:Kinetics-skeleton 和 NTU RGB+D。为了方便快速加载数据,在训练和测试前,数据集应转换为合适的文件结构。您可以从GoogleDrive下载预处理后的数据并解压文件:

 
1cd st-gcn
2unzip <st-gcn-processed-data.zip路径>

否则,如果您想自己处理原始数据,请参考以下指南。

  • Kinetics-skeleton Kinetics是一个基于视频的动作识别数据集,只提供原始视频剪辑而无骨架数据。为了获得关节位置,我们首先将所有视频调整为340x256的分辨率并将帧率转换为30 fps,然后通过Openpose从每帧中提取骨架。提取的骨架数据(Kinetics-skeleton,7.5GB)可以从GoogleDrive或百度云直接下载。

     

    解压后,通过以下命令重建数据库:

    1python tools/kinetics_gendata.py --data_path <Kinetics-skeleton路径>
  • NTU RGB+D NTU RGB+D可以从其官方网站下载。我们的实验只需要3D骨架模态(5.8GB)。之后,使用以下命令构建训练或评估所需的数据库:

    1python tools/ntu_gendata.py --data_path <nturgbd+d_skeletons路径>

    其中 <nturgbd+d_skeletons路径> 是您下载的NTU RGB+D数据集中3D骨架模态的位置。

测试预训练模型

  • 评估在Kinetics-skeleton上预训练的ST-GCN模型:

    1python main.py recognition -c config/st_gcn/kinetics-skeleton/test.yaml
  • 在NTU RGB+D上的跨视角评估:

    1python main.py recognition -c config/st_gcn/ntu-xview/test.yaml
  • 在NTU RGB+D上的跨主体评估:

    1python main.py recognition -c config/st_gcn/ntu-xsub/test.yaml

为了加速评估或修改批处理大小以减少内存成本,可以设置 --test_batch_size--device

1python main.py recognition -c <配置文件> --test_batch_size <批次大小> --device <gpu0> <gpu1> ...

结果 提供的模型预期Top-1准确度如下:

模型Kinetics-skeleton (%)NTU RGB+D (Cross View) (%)NTU RGB+D (Cross Subject) (%)
基线模型[1]20.383.174.3
ST-GCN (我们的模型)31.688.881.6

[1] Kim, T. S., and Reiter, A. 2017. Interpretable 3d human action analysis with temporal convolutional networks. In BNMW CVPRW.

训练 要训练一个新的ST-GCN模型,运行:

1python main.py recognition -c config/st_gcn/<dataset>/train.yaml [--work_dir <工作目录>]

其中 <dataset> 必须是ntu-xsub、ntu-xview或kinetics-skeleton,取决于您要使用的数据集。默认情况下,训练结果(包括模型权重、配置文件和日志文件)将保存在 ./work_dir 目录下,或如果您指定了 <工作目录> 则保存在该目录下。

您可以在命令行或配置文件中修改训练参数,如work_dir、batch_size、step、base_lr和device。优先级顺序为:命令行 > 配置文件 > 默认参数。更多信息,请使用 main.py -h 查看帮助。

最后,可以通过以下命令自定义模型评估:

1python main.py recognition -c config/st_gcn/<dataset>/test.yaml --weights <模型权重路径>

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/416026.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【K8s】专题十三:Kubernetes 容器运行时之 Docker 与 Containerd 详解

本文内容均来自个人笔记并重新梳理&#xff0c;如有错误欢迎指正&#xff01; 如果对您有帮助&#xff0c;烦请点赞、关注、转发、订阅专栏&#xff01; 专栏订阅入口 Linux 专栏 | Docker 专栏 | Kubernetes 专栏 往期精彩文章 【Docker】&#xff08;全网首发&#xff09;Kyl…

VSCode连接SSH发生connection timeout

想用用实验室服务器连接vscode跑HM编码&#xff0c;今天突然连服务器连不到&#xff0c;报错&#xff1a;[13:47:13.068] Opening exec server for ssh-remotea406-server-lan [13:47:13.082] Initizing new exec server for ssh-remotea406-server-lan [13:47:13.089] Using c…

读软件开发安全之道:概念、设计与实施17读后总结与感想兼导读

1. 基本信息 软件开发安全之道&#xff1a;概念、设计与实施 [美] 洛伦科恩费尔德 &#xff08;LorenKohnfelder&#xff09;著 人民邮电出版社,2024年1月出版 1.1. 读薄率 书籍总字数349千字&#xff0c;笔记总字数58706字。 读薄率58706349000≈16.8% 1.2. 读厚方向 社…

(5) 归并排序

归并排序 归并排序是一种分治策略的排序算法。它是一种比较特殊的排序算法&#xff0c;通过递归地先使每个子序列有序&#xff0c;再将两个有序的序列进行合并成一个有序的序列。 归并排序首先由著名的现代计算机之父 John_von_Neumann 在 1945 年发明&#xff0c;被用在了 E…

swf怎么转成mp4?swf转mp4,掌握这3招就够了!

在制作动画时&#xff0c;大家经常会用到SWF&#xff08;Shockwave Flash&#xff09;格式。不过有时候&#xff0c;为了让swf格式的软件在播放器上播放&#xff0c;就需要把swf转mp4格式&#xff0c;方便分享和播放了。今天我就来给大家介绍三个简单易行的方法&#xff0c;让你…

2.10鼠标事件

目录 实验原理 实验代码 运行结果 文章参考 实验原理 在 OpenCV 中存在鼠标的操作&#xff0c;比如左键单击、双击等。对于 OpenCV 来讲&#xff0c;用户的鼠标操作被认为发生了一个鼠标事件&#xff0c;需要对这个鼠标事件进行处理&#xff0c;这就是事件的响应。下面我们…

Windows配置域名映射IP

一、找到 hosts 文件 打开 C:\Windows\System32\drivers\etc 二、添加hosts文件修改、写入权限 右击hosts文件&#xff0c;点击属性 -> 安全 -> Users -> 编辑 -> Users -> 添加修改、写入权限 -> 确定 -> 确定 三、添加映射规则 在文件尾部添加一行映射…

LLM agentic模式之multi-agent: ChatDev,MetaGPT, AutoGen思路

文章目录 Multi-agentChatDev设计阶段编码阶段测试阶段文档编写 MetaGPTSOP模式下的Agent通信协议带执行反馈的迭代编程 AutoGenconversable agentsConversation ProgrammingAutoGen的应用 参考资料 Multi-agent ChatDev ChatDev出自2023年7月的论文《ChatDev: Communicative…

华为 HCIP-Datacom H12-821 题库 (7)

有需要题库的可以看主页置顶 V群仅进行学习交流 1.配置 VRRP 跟踪物理接口状态的命令是在华为设备上&#xff0c;以下哪一项是配置 VRRP 跟踪物理接口状态的命令&#xff1f; A、track vrrp vrid 1 interface GigabitEthernet0/0/0 B、vrrp vrid 1 track interface GigabitE…

RK3588 13.0去掉SystemUI快速设置选项

Android13.0的SystemUI下拉菜单有很多快速设置选项&#xff0c;有些选项对我们设备来说是多余的&#xff0c;用户要求去掉无用的选项&#xff0c;只保留Internet Bluetooth Screen record 去掉之前&#xff1a; 去掉之后&#xff1a; 为了去掉这些快速设置选项&#xff0c;试…

早上醒来嗓子干、喉咙痛、咳嗽……快用这个润养好物,给嗓子做个spa,让身体润起来~

进入秋季&#xff0c;很多人出现了眼睛干涩、大便干燥、嘴唇干裂、咽喉疼痛等症状&#xff0c;虽说这些还能够忍受&#xff0c;但它却影响了正常的饮食和休息。 秋季气候干燥&#xff0c;外界燥邪侵犯肺部&#xff0c;易伤津液&#xff0c;肺失滋润&#xff0c;清肃失司&#x…

HtmlSanitizer: 一个保护你的网站免受XSS攻击的.Net开源项目

Html跨站脚本攻击&#xff08;XSS&#xff09;是非常常见的&#xff0c;比如博客评论、论坛帖子、社交媒体发布动态等一些用户提交文本的地方&#xff0c;都有可能遭受恶意提交Html代码。 为了确保用户提交内容的安全&#xff0c;我们就需要对用户提交内容进行过滤。 01 项目…

基于TensorFlow框架的手写数字识别系统(代码+论文+开题报告等)

手写数字识别 需安装Python3.X 64bit相关版本、Tensorflow 1.x相关版本 IDE建议使用Pycharm 打开main.py&#xff0c;运行即可 1.4 研究方法 实验研究表明&#xff0c;若手写体数字没有限制&#xff0c;几乎可以肯定没有一劳永逸的方法能同时达到90%以上的识别率和较快的识别…

大模型备案重难点最详细说明【评估测试题+附件】

2024年3月1日&#xff0c;我国通过了《生成式人工智能服务安全基本要求》&#xff08;以下简称《AIGC安全要求》&#xff09;&#xff0c;这是目前我国第一部有关AIGC服务安全性方面的技术性指导文件&#xff0c;对语料安全、模型安全、安全措施、词库/题库要求、安全评估等方面…

qmt量化交易策略小白学习笔记第59期【qmt编程之期权数据--获取指定期权品种的详细信息--原生Python】

qmt编程之获取期权数据 qmt更加详细的教程方法&#xff0c;会持续慢慢梳理。 也可找寻博主的历史文章&#xff0c;搜索关键词查看解决方案 &#xff01; 基于BS模型计算欧式期权理论价格 基于Black-Scholes-Merton模型&#xff0c;输入期权标的价格、期权行权价、无风险利率…

【技术分享】顶尖 GIS 技术

谈到 GIS&#xff0c;就不能不提到现代地理智能。是指基于 GIS、遥感和卫星定位技术的地理空间可视化、分析、决策、设计和控制的技术总称。地理智能是 GIS 区别于其他信息技术最重要的价值之一。它由地理可视化、地理决策、地理设计、地理控制四个层次组成。它们形成了一个地理…

ES6 day-03

目录 一. ES6 函数 1.1 函数参数的扩展 1.1.1 默认参数 1.1.2 不定参数 1.2 箭头函数 二. Iterator(迭代器) 三. ES6 Promise 对象(重点) 3.1 Promise前言 3.1.1 Promise概述 3.1.2 Promise 状态 3.1.3 then 方法 3.2 基本使用 3.2 promise结合数据请求 3.3 回调…

中国各省份-环境规制相关数据(2000-2022年)

环境规制&#xff0c;也称为环保政策和污染治理&#xff0c;是一系列由政府制定的旨在解决环境问题、保护生态环境和促进可持续发展的政策措施。这些措施包括法律法规、行政命令、经济激励和市场机制等&#xff0c;目的是约束和指导企业和个人行为&#xff0c;减少对环境的负面…

pikachu文件包含漏洞靶场通关攻略

本地文件包含 先上传一个jpg文件&#xff0c;内容写上<?php phpinfo();?> 上传成功并且知晓了文件的路径 返回本地上传&#xff0c;并../返回上级目录 可以看到我们的php语句已经生效 远程文件包含 在云服务器上创建一个php文件 然后打开pikachu的远程文件包含靶场&…

企业级RAG应用优化整合贴【上】:数据索引阶段的8个必知技巧 |建议收藏

基于大模型的RAG应用&#xff0c;一个普遍的认识是&#xff1a; 做原型很简单&#xff0c;投入生产很难 为什么我的RAG应用很难按预期工作&#xff1f;在之前的文章中我们曾经陆续的对RAG应用优化做过零星与局部的探讨&#xff0c;如融合检索、查询转换、多模态处理、Agentic…