用于基于骨架的动作识别的空间时间图卷积网络 ST-GCN (代码+数据集+模型)

简介本仓库包含论文《用于基于骨架的动作识别的空间时间图卷积网络》的相关代码、数据集和模型。

ST-GCN 动作识别演示 我们的基于骨架的动作识别演示展示了ST-GCN如何从人体骨架中提取局部模式和关联性。下图显示了我们ST-GCN最后一层中每个节点的神经响应幅度。

触摸头部坐下脱鞋进食投踢他人掷锤清洁与抓举拉力器太极拳抛球上一行结果来自NTU-RGB+D数据集，第二行来自Kinetics-skeleton数据集。

前提条件

Python3（版本大于3.5）
PyTorch
Openpose（带Python API，仅用于演示）
其他Python库可以通过运行pip install -r requirements.txt来安装

安装

1git clone https://github.com/yysijie/st-gcn.git; cd st-gcn
2cd torchlight; python setup.py install; cd ..

获取预训练模型 我们提供了ST-GCN的预训练模型权重。可以通过运行以下脚本来下载模型：

1bash tools/get_models.sh

您也可以从GoogleDrive或百度云获取模型，并手动将其放入./models目录下。

演示您可以使用以下命令运行演示：

离线姿态估计

1python main.py demo_offline [--video ${视频路径}] [--openpose ${Openpose路径}]

实时姿态估计

1python main.py demo [--video ${视频路径}] [--openpose ${Openpose路径}]

可选参数：

PATH_TO_OPENPOSE: 如果Openpose Python API不在PYTHONPATH中，则需要此路径。
PATH_TO_VIDEO: 输入视频的文件名。

数据准备 我们在两个基于骨架的动作识别数据集上进行了实验：Kinetics-skeleton 和 NTU RGB+D。为了方便快速加载数据，在训练和测试前，数据集应转换为合适的文件结构。您可以从GoogleDrive下载预处理后的数据并解压文件：

1cd st-gcn
2unzip <st-gcn-processed-data.zip路径>

否则，如果您想自己处理原始数据，请参考以下指南。

Kinetics-skeleton Kinetics是一个基于视频的动作识别数据集，只提供原始视频剪辑而无骨架数据。为了获得关节位置，我们首先将所有视频调整为340x256的分辨率并将帧率转换为30 fps，然后通过Openpose从每帧中提取骨架。提取的骨架数据（Kinetics-skeleton，7.5GB）可以从GoogleDrive或百度云直接下载。

解压后，通过以下命令重建数据库：
```
1python tools/kinetics_gendata.py --data_path <Kinetics-skeleton路径>
```
NTU RGB+D NTU RGB+D可以从其官方网站下载。我们的实验只需要3D骨架模态（5.8GB）。之后，使用以下命令构建训练或评估所需的数据库：
```
1python tools/ntu_gendata.py --data_path <nturgbd+d_skeletons路径>
```
其中 <nturgbd+d_skeletons路径> 是您下载的NTU RGB+D数据集中3D骨架模态的位置。

测试预训练模型

评估在Kinetics-skeleton上预训练的ST-GCN模型：

1python main.py recognition -c config/st_gcn/kinetics-skeleton/test.yaml

在NTU RGB+D上的跨视角评估：

1python main.py recognition -c config/st_gcn/ntu-xview/test.yaml

在NTU RGB+D上的跨主体评估：

1python main.py recognition -c config/st_gcn/ntu-xsub/test.yaml

为了加速评估或修改批处理大小以减少内存成本，可以设置 --test_batch_size 和 --device：

1python main.py recognition -c <配置文件> --test_batch_size <批次大小> --device <gpu0> <gpu1> ...

结果提供的模型预期Top-1准确度如下：

模型	Kinetics-skeleton (%)	NTU RGB+D (Cross View) (%)	NTU RGB+D (Cross Subject) (%)
基线模型[1]	20.3	83.1	74.3
ST-GCN (我们的模型)	31.6	88.8	81.6

[1] Kim, T. S., and Reiter, A. 2017. Interpretable 3d human action analysis with temporal convolutional networks. In BNMW CVPRW.

训练要训练一个新的ST-GCN模型，运行：

1python main.py recognition -c config/st_gcn/<dataset>/train.yaml [--work_dir <工作目录>]

其中 <dataset> 必须是ntu-xsub、ntu-xview或kinetics-skeleton，取决于您要使用的数据集。默认情况下，训练结果（包括模型权重、配置文件和日志文件）将保存在 ./work_dir 目录下，或如果您指定了 <工作目录> 则保存在该目录下。

您可以在命令行或配置文件中修改训练参数，如work_dir、batch_size、step、base_lr和device。优先级顺序为：命令行 > 配置文件 > 默认参数。更多信息，请使用 main.py -h 查看帮助。

最后，可以通过以下命令自定义模型评估：

1python main.py recognition -c config/st_gcn/<dataset>/test.yaml --weights <模型权重路径>

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/416026.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

用于基于骨架的动作识别的空间时间图卷积网络 ST-GCN (代码+数据集+模型)

相关文章

【K8s】专题十三：Kubernetes 容器运行时之 Docker 与 Containerd 详解

VSCode连接SSH发生connection timeout

读软件开发安全之道：概念、设计与实施17读后总结与感想兼导读

(5) 归并排序

swf怎么转成mp4？swf转mp4,掌握这3招就够了！

2.10鼠标事件

Windows配置域名映射IP

LLM agentic模式之multi-agent: ChatDev,MetaGPT, AutoGen思路

华为 HCIP-Datacom H12-821 题库 (7)

RK3588 13.0去掉SystemUI快速设置选项

早上醒来嗓子干、喉咙痛、咳嗽……快用这个润养好物，给嗓子做个spa，让身体润起来~

HtmlSanitizer: 一个保护你的网站免受XSS攻击的.Net开源项目

基于TensorFlow框架的手写数字识别系统（代码+论文+开题报告等）

大模型备案重难点最详细说明【评估测试题+附件】

qmt量化交易策略小白学习笔记第59期【qmt编程之期权数据--获取指定期权品种的详细信息--原生Python】

【技术分享】顶尖 GIS 技术

ES6 day-03

中国各省份-环境规制相关数据（2000-2022年）

pikachu文件包含漏洞靶场通关攻略

企业级RAG应用优化整合贴【上】：数据索引阶段的8个必知技巧｜建议收藏