CNN网络训练WISDM数据集:模型仿真及可视化分析

卷积神经网络(CNN)因其强大的特征提取能力和深度学习架构而备受推崇,CNN在处理图像数据时展现出的卓越性能,使其成为解决各种视觉识别任务的首选工具。WISDM数据集是一个广泛用于运动估计研究的基准数据集,它包含了多个视频序列,每个序列都记录了摄像头在不同方向上移动时捕捉到的图像。在本研究中,我们将探讨如何利用CNN来训练和优化WISDM数据集,以提高运动估计的准确性和鲁棒性。

一、WISDM数据集分析及介绍

WISDM数据集是一个用于人类活动识别(Human Activity Recognition, HAR)的公共数据集。它包含了从智能手机和智能手表收集的传感器数据,这些数据被用来识别多种不同的人类活动:

  1. 数据集来源与构成

    • WISDM数据集由福特汉姆大学计算机与信息科学系的Gary Weiss博士领导的团队创建。
    • 数据集包含了51名参与者进行的18种不同的活动,每种活动的数据都是通过佩戴在身体不同部位的智能手机和智能手表上的加速度计和陀螺仪以20Hz的频率收集得到的。
  2. 数据集特点

    • 数据集中的活动包括但不限于走路、跑步、上下楼梯、坐、站等。
    • 每个活动的数据长度为3分钟,为研究者提供了充足的时间序列数据进行分析。
  3. 数据集的应用

    • WISDM数据集适用于开发和测试各种HAR模型,尤其是基于深度学习的模型,如卷积神经网络(CNN)。

二、CNN网络结构及介绍

卷积神经网络是一种专门用来处理具有类似网格结构的数据的神经网络,如图像。CNN在图像识别、视频分析和自然语言处理等领域取得了巨大的成功。

核心思想:

· 局部感受野(Local Receptive Field) :通过卷积层提取局部特征,使得网络能够捕捉到图像的局部信息。

· 权重共享(Weight Sharing) :卷积核在整个输入数据上移动并应用相同的权重,大大减少了模型的参数数量。

· 池化层(Pooling Layer) :通过降采样操作减少数据的空间大小,减少计算量,同时保持特征的不变性。

优点:

· 能够有效地处理图像等高维数据。

· 通过局部感受野和权重共享减少了参数数量,降低了过拟合的风险。

缺点:

· 对于时间序列数据的处理能力有限。

· 对于非常深的网络结构,训练可能会变得困难。

网络结构:

image.png

  1. 输入层(Input Layer):网络的入口,通常接收原始图像数据。

  2. 卷积层(Convolutional Layer):执行卷积运算,使用可学习的过滤器(或称为卷积核)在输入图像上滑动以产生特征图(feature maps)。这些特征图能够捕捉输入数据中的局部特征,如边缘、角点等。

  3. 激活函数层(Activation Function Layer):通常使用ReLU(Rectified Linear Unit)作为激活函数,引入非线性,增强网络的表达能力。

  4. 池化层(Pooling Layer):进行下采样操作,减少特征图的空间尺寸,从而降低计算复杂性并保持重要特征。最大池化(Max Pooling)是常见的池化操作。

  5. 全连接层(Fully Connected Layer, FC):在网络的末端,将卷积层和池化层提取的特征映射平铺成一维向量,并进行分类或回归任务。

  6. 输出层(Output Layer):产生最终的输出,如分类任务中每个类别的概率。

除了这些基本层,根据应用场景的不同CNN还可以有这几种网络结构:

  • 归一化层(Normalization Layer):如批量归一化(Batch Normalization),用于提高训练稳定性和速度。

  • 残差连接(Residual Connections):帮助训练更深的网络,通过跳跃连接解决梯度消失问题。

  • Dropout层:随机丢弃一部分神经元的输出,用于减少过拟合。

三、WISDM数据集分割及处理

WISDM数据集下载链接:https://www.cis.fordham.edu/wisdm/includes/datasets/latest/WISDM_ar_latest.tar.gz

加载、预处理和准备WISDM数据集,以便用于人类活动识别(HAR)任务:

  1. 参数设定
    • dataset_dir: 指定原始数据存放的目录。
    • WINDOW_SIZE: 定义滑窗的大小。
    • OVERLAP_RATE: 定义滑窗的重叠率。
    • SPLIT_RATE: 定义训练集和验证集的分割比例。
    • VALIDATION_SUBJECTS: 定义留一法验证时使用的特定主题(subject)集合。
    • Z_SCORE: 决定是否进行标准化处理。
    • SAVE_PATH: 定义预处理后数据保存的路径。
def WISDM(dataset_dir='./WISDM_ar_v1.1', WINDOW_SIZE=200, OVERLAP_RATE=0.5, SPLIT_RATE=(8, 2), VALIDATION_SUBJECTS={}, Z_SCORE=True, SAVE_PATH=os.path.abspath('D:/PycharmProjects/xyp-task')):
  1. 数据集下载
  • 使用download_dataset函数,从福特汉姆大学提供的URL下载WISDM数据集,并将其存储在dataset_dir指定的目录中。
download_dataset(dataset_name='WISDM',file_url='https://www.cis.fordham.edu/wisdm/includes/datasets/latest/WISDM_ar_latest.tar.gz', dataset_dir=dataset_dir
)
  1. 数据清洗与读取
  • 从指定路径的文本文件中读取原始数据,该文件包含了多个以逗号分隔的条目。
  • 清洗数据,移除不完整的条目,确保每行数据都包含参与者ID、活动标签和三个传感器信号。
  • 将清洗后的数据转换为NumPy数组,便于后续处理。
  1. 标签编码
  • 使用category_dict字典,将活动标签的字符串表示(如’Walking’、'Jogging’等)映射为整数ID,以便于机器学习模型处理。
  1. 滑窗处理
  • 对清洗并编码后的数据应用滑窗分割,生成固定大小的样本窗口。这些窗口将用于训练和测试机器学习模型。
  1. 分割数据集
  • 根据是否提供了VALIDATION_SUBJECTS,选择留一法或平均法来分割数据集。留一法是为每个参与者ID分别创建训练集和测试集,而平均法则是按照SPLIT_RATE比例分割数据。
  1. 数据整合
  • 将分割后的数据和标签分别整合到xtrainxtestytrainytest列表中,这些列表将包含所有训练和测试数据。
  1. 标准化处理
  • 如果Z_SCORE参数为True,则对整合后的xtrainxtest进行Z分数标准化处理,以消除不同传感器信号量级的影响。
  1. 数据保存
  • 如果提供了SAVE_PATH,则使用save_npy_data函数将预处理后的训练集和测试集数据保存为.npy格式的文件,这有助于后续加载和使用数据。

准备WISDM数据集,使其适合用于CNN网络模型的训练和测试。通过滑窗处理,可以将原始的长时间序列传感器数据转换为固定大小的短时间序列数据,这有助于训练卷积神经网络等模型进行人类活动识别。此外,通过留一法或平均法分割数据集,可以为模型提供训练集和验证集,以评估模型性能。最后,通过Z分数标准化,可以提高模型对数据分布变化的鲁棒性。

四、CNN网络训练WISDM数据集

1.常用的仿真指标

1.1 准确率 (Accuracy)

准确率是所有正确预测样本数占总样本数的比例。它是最直观的性能指标,计算公式如下:

image.png

1.2 精确率 (Precision)

精确率是所有预测为正类中真正为正类的比例,它关注的是预测为正类的结果的准确性。计算公式如下:

image.png

1.3 召回率 (Recall)

召回率是所有实际为正类中被正确预测为正类的比例,它衡量的是模型捕捉正类样本的能力。计算公式如下:

image.png

1.4 F1分数 (F1-Score)

F1分数是精确率和召回率的调和平均值,它在两者之间取得平衡,是评价分类模型性能的一个重要指标。计算公式如下:

image.png

1.5 参数量 (Parameters)

参数量指的是网络模型中需要训练的参数总数。参数量越多,模型的容量越大,但也越容易过拟合。

1.6 推理时间 (Inference Time)

推理时间指的是模型对数据进行预测的时间。它可以是单个样本的推理时间,也可以是整个数据集推理所需的总时间。推理时间是评估模型在实际应用中效率的重要指标,尤其是在需要实时响应的应用场景中。

2.具体的训练过程

image.png

1.数据集加载

根据选择的数据集和模型,加载数据集,并进行必要的预处理。

2.模型实例化

根据选择的模型,实例化一个模型对象,并将其移动到选定的设备上。

3.创建数据加载器

使用DataLoader创建训练和测试数据的加载器,允许在训练中以小批量方式加载数据。

4.优化器和学习率调度器设置

定义了AdamW优化器和学习率调度器,用于在训练过程中更新模型参数和调整学习率。

5.混合精度训练设置

实例化GradScaler对象,用于在训练中使用混合精度,可以提高训练效率和精度。

6.训练循环

对于每个训练轮次,执行以下步骤:

  • 设置模型为训练模式。
  • 在每个小批量数据上执行前向传播、计算损失、执行反向传播并更新模型参数。
  • 学习率调度器步进。
  • 设置模型为评估模式。
  • 在测试集上进行预测,并计算模型的准确率、精确率、召回率和F1分数。
  • 打印每个轮次的训练损失、测试准确率和其他评估指标。
for i in range(EP):net.train()inference_start_time = time.time()for data, label in train_loader:data, label = data.to(device), label.to(device)# 前向过程(model + loss)开启 autocast,混合精度训练with autocast():out = net(data)loss = loss_fn(out, label)optimizer.zero_grad()  # 梯度清零scaler.scale(loss).backward()  # 梯度放大scaler.step(optimizer)  # unscale梯度值scaler.update()lr_sch.step()

3.结果展示

在每个训练轮次结束时,打印出当前轮次的训练信息和模型评估指标。

image.png
从训练结果中可以看出,基于CNN网络训练得到的以上六种指标数据分别为:

CNN0.97290.97340.97290.97325283900.0008 0.7563

五、可视化维度分析

将CNN网络训练WISDM数据集的结果进行可视化维度分析:

image.png

1.混淆矩阵图

混淆矩阵是一个N×N的矩阵,N代表的是你的分类标签个数。混淆矩阵的横纵坐标轴分别为模型预测值和真实值,在图中纵轴是真实值而横轴代表模型预测值。

image.png

2.雷达图

雷达图可以反映多个行为的某个指标值映射在坐标轴上,可以更直观的观察出每个行为的指标值大小。

image.png

3.准确率和损失率的收敛曲线图

准确率和损失率的收敛曲线图横坐标是训练轮次,纵坐标是模型的准确率以及损失率,这个图可以直观的看出你的模型在训练以及测试过程中的准确率和损失率走向和模型收敛以后的准确率的数值范围,也可以反映出你的模型在训练过程中是否稳定。

image.png

4.仿真指标柱状图

仿真指标柱状图是一种以长方形的长度为变量来表示各个行为的指标值,例如可以表示你的模型在WISDM数据集中的每个行为精确率的值,通过由一系列高度不等的纵向条纹表示数据分布的情况。

image.png

5.仿真指标折线图

仿真指标折线图是一种用来表示超参数设置大小对模型效果影响的可视化方式,可以表示我们的CNN网络模型在WISDM数据集中Batch size对加权F1分数的影响。

image.png

六、总结

在本研究中,我们深入探讨了卷积神经网络(CNN)在处理WISDM数据集时的应用,该数据集是一个用于人类活动识别(HAR)的公共数据集。通过一系列数据处理步骤,我们将原始的长时间序列传感器数据转换为适合CNN模型训练的固定大小的短时间序列数据。此外,我们还介绍了CNN的核心思想、优点、缺点以及基本的网络结构,并通过可视化方法对训练结果进行了全面的分析。
通过本研究,我们证明了CNN在处理时间序列数据和人类活动识别任务中的有效性。未来的工作可以探索更先进的网络结构和训练策略,以进一步提高模型的性能和应用范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/431582.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯邮箱上传附件卡、慢、无法上传问题处理

1、检查文件中转站容量是否已满 2、建议用户打开链接https://exmail.qq.com/qy_mng_logic/wasmHelper?typehashv2,看是否可以正常访问。(能打开下载就表示可以正常访问) 3、让用户切换到4G或者其他网络再重新上传附件是否会重现问题&#xf…

(14)关于docker如何通过防火墙做策略限制

关于docker如何通过防火墙做策略限制 1、iptables相关问题 在Iptables防火墙中包含四种常见的表,分别是filter、nat、mangle、raw。 filter:负责过滤数据包。 filter表可以管理INPUT、OUTPUT、FORWARD链。 nat:用于网络地址转换。 nat表…

FTP服务搭建

FTP服务搭建 yum install vsftp匿名用户模式 备份配置文件,并重新生成一个 mv /etc/vsftpd/vsftpd.conf /etc/vsftpd/vsftpd.conf_bak cat /etc/vsftpd/vsftpd.conf_bak | grep -v "#" > /etc/vsftpd/vsftpd.conf{local_enableYES write_enableYES …

Redis 分布式缓存服务(集群)

作者:程序那点事儿 日期:2023/11/17 13:05 准备6台虚拟机,ip分别是 192.168.10.101 192.168.10.102 192.168.10.103 192.168.10.104 192.168.10.105 192.168.10.106 创建6个节点 mkdir -p /usr/local/cluster/redis-node1 #对应192.168.10.…

【微服务即时通讯系统】——etcd一致性键值存储系统,etcd的介绍,etcd的安装,etcd使用和功能测试

文章目录 etcd1. etcd的介绍1.1 etcd的概念 2. etcd的安装2.1 安装etcd2.2 安装etcd客户端C/C开发库 3. etcd使用3.1 etcd接口介绍 4. etcd使用测试4.1 原生接口使用测试4.2 封装etcd使用测试 etcd 1. etcd的介绍 1.1 etcd的概念 Etcd 是一个基于GO实现的 分布式、高可用、一致…

Linux 进程与进程状态

目录 1.进程。 1.进程的概念 2.并行和并发 3.并行和并发的区别: 4.PCB(程序控制块) 5.进程组与会话。 6.进程状态。 1.进程。 1.进程的概念 进程是操作系统进行资源分配和调度的一个独立单位。每个进程都运行在操作系统的控制之下&…

心觉:如何重塑高效学习的潜意识(1)两种方法的优缺点

Hi,我是心觉,与你一起玩转潜意识、脑波音乐和吸引力法则,轻松掌控自己的人生! 挑战每日一省写作180/1000天 你的学习习惯是什么呢 学习的时候是感到轻松吗 很多人感觉现在是知识大爆炸的时代,每天都会产生海量的知…

人工智能助力阿尔茨海默症治疗:微软与上海精神卫生中心的新研究

最近,微软研究院与上海市精神卫生中心合作,基于微软 Azure OpenAI 服务中的多模态大模型,开发了一种名为“忆我”(ReMe)的个性化认知训练框架。这一创新项目旨在通过数字化手段扩展自动化认知训练的范围,为…

Spring MVC 参数校验 总结

1. 简介 Sping MVC提供了参数校验的方便注解。 2.代码 在pom.xml中添加依赖&#xff1a; <dependency><groupId>org.hibernate.validator</groupId><artifactId>hibernate-validator</artifactId><version>8.0.0.Final</version&g…

如何提升亚马逊与速卖通的关键词搜索排名?

在电商平台上&#xff0c;一个不可忽视的事实是&#xff0c;大部分消费者&#xff08;超过80%&#xff09;在搜索产品时&#xff0c;主要集中在搜索结果的前两页。如果你的产品未能跻身这些显眼的位置&#xff0c;很可能就会错失大量的潜在客户。因此&#xff0c;提升关键词搜索…

PG duckdb插件 pg_quack部署与使用

一.pg_quack简介 pg_quack 是一个创新的 PostgreSQL扩展&#xff0c;它将 DuckDB-—一个嵌入式列式数据库 管理系统集成到PostgreSQL中。这个开源项目为开发者提供了一种在同一个数据 库环境中利用高性能数据处理和存储的新方式,使得在PostgreSQL在OLAP的性能 上得到了很大的提…

Docker容器常用命令详解

Docker容器常用命令&#xff0c;我们经常使用&#xff0c;又经常忘记&#xff0c;今天我们系统分析一下&#xff1a; 1、查看运行的进程 #列出所有运行的容器 sudo docker ps#列出所有容器&#xff0c;包括运行和停止的 docker ps -a #列出所有容器&#xff0c;并过滤 docker…

【Docker】解决Docker Engine stopped

解决Docker Engine stopped 解决Docker Engine stopped1.检查虚拟设置2 安装wslwindows安装wsl 解决Docker Engine stopped 在安装完docker之后不少用户会遇到Docker Engine stopped。下面就下给出解决方法让docker正常运行起来 1.检查虚拟设置 打开任务管理器查看cpu页面&a…

行业展望:线缆行业发展

线缆行业作为国民经济中最大的配套行业之一&#xff0c;在我国机械工业的细分行业中占据举足轻重的地位&#xff0c;仅次于汽车整车制造和零部件及配件制造业。作为电气化、信息化、智能化社会中重要的基础性配套产业&#xff0c;电线电缆被誉为国民经济的"血管"与&q…

【Python】遇见的问题:为项目选择的 Python 解释器无效

一、问题说明 导入项目文件后&#xff0c;提示“为项目选择的 Python 解释器无效” 二、问题原因 暂时不知道 三、解决办法 第一步&#xff1a;添加本地解释器 第二步&#xff1a;点击确定 位置&#xff1a;当前项目所在目录 基础解释器&#xff1a;python.exe所在目录 第三…

SpringBoot的应用

目录 一、springboot的应用 1、创建springboot项目 2、乱码问题配置 3、springboot日志配置 4、springboot整合mybatis 二、配置文件讲解及测试 1、全局配置文件参数读取 1.1 全局配置文件的位置 1.2 配置文件的读取 1.2.1 导包 1.2.2 编写配置对象Bean 1.2.3 编写配置文件 1.2…

创建单链表

一、完成单链表操作&#xff0c;要求节点构造类型。 1、建立学生结构体&#xff08;学号&#xff0c;姓名&#xff0c;成绩&#xff09; 2、循环调用头插法创建整表 3、遍历单链表 4、任意位置插入一个完整的学生信息 5、任意位置删除一个学生。 6、单链表逆置 7、单链表按照学…

[通信原理]确知信号1:傅里叶分析 × 确知信号

傅里叶分析 对于周期函数可以用直流分量、正弦函数和余弦函数构成的无穷级数来表示&#xff0c;这些函数是正交的&#xff0c;意味着它们之间没有任何相关性。‌ 必须指出&#xff0c;并非任意周期信号都能进行傅里叶级数展开&#xff0c;函数需满足狄利赫里条件才能被展开。…

RAG的文档拆分策略

目录 Langchain支持的文档拆分 智谱AI采用的文档拆分策略 Meta KDD Cup24 Qanything 总结 Langchain支持的文档拆分 名字具体教程分割字符是否添加metadata描述递归式RecursiveCharacterTextSplitter、RecursiveJsonSplitter用户自定义的字符递归拆分文本。这种拆分是试图…

使用 UWA Gears 测试小游戏性能

UWA Gears 是UWA最新发布的无SDK性能分析工具。针对移动平台&#xff0c;提供了实时监测和截帧分析功能&#xff0c;帮助您精准定位性能热点&#xff0c;提升应用的整体表现。 随着小游戏的规模和用户量持续增长&#xff0c;玩家对于小游戏的性能要求也越来越高。为了能够给玩…