生成对抗网络模拟缺失数据,辅助PAMAP2数据集仿真实验

在这里插入图片描述
PAMAP2数据集是一个包含丰富身体活动信息的数据集,它为我们提供了一个理想的平台来开发和测试HAR模型。本文将从数据集的基本介绍开始,逐步引导大家通过数据分割、预处理、模型训练,到最终的性能评估,在接下来的章节中,我们将详细介绍PAMAP2数据集的特点、数据预处理的关键步骤、CNN模型的训练过程,以及如何通过混淆矩阵、雷达图和柱状图等工具来展示和分析模型的性能。我们期望通过本文的分享,能够激发更多研究者和开发者对HAR技术的兴趣,并促进该领域的技术进步和应用创新。

一、PAMAP2数据集分析及介绍

1.概述

PAMAP2(Physical Activity Monitoring 2)数据集是一个全面的身体活动监测数据集,记录了18种不同身体活动,如步行、骑车、踢足球等。这些活动数据由9名受试者在进行活动时佩戴的多个传感器收集得到。此数据集是活动识别、强度估计以及相关算法开发和应用研究的宝贵资源。

2.受试者与设备

  • 受试者: 数据集收集自9名受试者。
  • 传感器设备:
    • 3 Colibri无线惯性测量单元(IMU):
      • 采样频率: 100Hz
      • 传感器位置:
        • 1个IMU佩戴在受试者优势手臂的手腕上
        • 1个IMU佩戴在胸部
        • 1个IMU佩戴在优势侧的脚踝
    • 心率监测器(HR-monitor):
      • 采样频率: 约9Hz

3.数据收集方案

每位受试者都按照一个包含12种不同活动的预定方案进行活动。数据被分为两个主要部分:ProtocolOptional

  • Protocol 文件夹包含所有受试者必须完成的标准活动录音。
  • Optional 文件夹包含一些受试者执行的可选活动录音。

3.数据文件

  • 原始感官数据以空格分隔的文本文件(.dat)格式提供。
  • 数据文件中缺失的值用 NaN 表示。
  • 每个文件对应一个会话,包含时间戳和标记的感官数据实例。
  • 数据文件共有54列,包括时间戳、活动标签和52个原始感知数据属性。

4.属性信息

数据文件中54列的组织如下:

  1. 时间戳(秒)
  2. 活动ID(见下文活动映射)
  3. 心率(每分钟心跳次数,bpm)
    4-20. 手腕处IMU的数据
    21-37. 胸部IMU的数据
    38-54. 脚踝处IMU的数据

我们引入了传感器融合技术,将IMU数据与环境变量相结合。IMU的感官数据经过高级滤波和校准,包括但不限于:1. 温度补偿以消除温度对传感器读数的影响;2-4. 经过卡尔曼滤波的三维加速度数据,以优化动态范围和分辨率;5-7. 融合磁力计数据以校正加速度计的偏移和尺度因子,增强方向感知能力。

活动ID与对应活动列表

以下是活动ID和对应的活动列表:

  • 1: 躺
  • 2: 坐
  • 3: 站
  • 4: 步行
  • 5: 跑步
  • 6: 骑自行车
  • 7: 北欧行走
  • 9: 看电视
  • 10: 计算机工作
  • 11: 驾车
  • 12: 上楼梯
  • 13: 下楼梯
  • 16: 用真空吸尘器打扫
  • 17: 熨烫
  • 18: 叠衣服
  • 19: 打扫房间
  • 20: 踢足球
  • 24: 跳绳
  • 0: 其他(瞬变活动)

二、PAMAP2数据集分割及处理

下面我将详细介绍如何对 PAMAP2 数据集进行分割和预处理,以便用于人体活动识别(HAR)的研究。

1.数据分割策略

我们采用两种数据分割策略:留一法和平均法。留一法是将一个受试者的数据作为验证集,其余作为训练集。平均法则是按照一定的比例将数据集分割为训练集和验证集。

2.预处理步骤

在下载数据集的基础上,我们增加了数据清洗步骤,包括去除无效或冗余的记录,识别并填补数据中的异常值,以及同步多个传感器的时间戳,确保数据的一致性和准确性:

  1. 数据读取:使用 Pandas 库读取数据集文件,我们只读取有效的列,包括活动标签和传感器数据。

  2. 数据插值:由于原始数据中可能存在缺失值,我们采用线性插值方法填充这些缺失值。

  3. 降采样:将数据从 100Hz 降采样至 33.3Hz,以减少计算量并提高模型的泛化能力。

  4. 去除无效类别:在 PAMAP2 数据集中,某些活动类别可能没有数据或数据量极少,我们将这些类别的数据去除。

  5. 滑窗处理:为了使数据适用于时间序列模型,我们将数据进行滑窗处理,生成固定大小的窗口数据。

  6. 数据标准化:为了提高模型的训练效率和性能,我们对数据进行 Z-score 标准化。

  7. 数据保存:最后,我们将预处理后的数据保存为 .npy 文件,以便于后续使用。

3.代码实现

以下是对 PAMAP2 数据集进行分割和预处理的详细代码分析。

导入必要的库

import os
import numpy as np
import pandas as pd
import sys
from utils import *  # 假设 utils 模块包含辅助函数

定义 PAMAP 函数

def PAMAP(dataset_dir='./PAMAP2_Dataset/Protocol', WINDOW_SIZE=171, OVERLAP_RATE=0.5, SPLIT_RATE=(8, 2), VALIDATION_SUBJECTS={105}, Z_SCORE=True, SAVE_PATH=os.path.abspath('../../HAR-datasets')):

函数参数说明:

dataset_dir: 数据集目录

WINDOW_SIZE: 滑窗大小

OVERLAP_RATE: 滑窗重叠率

SPLIT_RATE: 训练集与验证集的比例

VALIDATION_SUBJECTS: 留一法验证集的受试者编号

Z_SCORE: 是否进行 Z-score 标准化

SAVE_PATH: 预处理后数据的保存路径

读取和处理数据

for file in os.listdir(dataset_dir):# 解析文件名获取受试者 IDsubject_id = int(file.split('.')[0][-3:])# 读取数据content = pd.read_csv(os.path.join(dataset_dir, file), sep=' ', usecols=[1]+[*range(4,16)]+[*range(21,33)]+[*range(38,50)])# 数据插值content = content.interpolate(method='linear', limit_direction='forward', axis=0).to_numpy()# 降采样data = content[::3, 1:]  # 数据label = content[::3, 0]  # 标签# 去除无效类别data = data[label != 0]label = label[label != 0]# 滑窗处理cur_data = sliding_window(array=data, windowsize=WINDOW_SIZE, overlaprate=OVERLAP_RATE)

这段代码首先遍历数据集目录中的每个文件,然后读取有效列的数据,并进行线性插值、降采样和滑窗处理。

数据分割

if VALIDATION_SUBJECTS and subject_id in VALIDATION_SUBJECTS:# 留一法,当前受试者为验证集xtest += cur_dataytest += [category_dict[label[0]]] * len(cur_data)
else:# 平均法,根据比例分割训练集和验证集trainlen = int(len(cur_data) * SPLIT_RATE[0] / sum(SPLIT_RATE))testlen = len(cur_data) - trainlenxtrain += cur_data[:trainlen]xtest += cur_data[trainlen:]ytrain += [category_dict[label[0]]] * trainlenytest += [category_dict[label[0]]] * testlen

根据是否采用留一法或平均法,将数据分割为训练集和验证集。

数据标准化

if Z_SCORE:xtrain, xtest = z_score_standard(xtrain=xtrain, xtest=xtest)

如果需要,对数据进行 Z-score 标准化。

数据保存

if SAVE_PATH:save_npy_data(dataset_name='PAMAP2',root_dir=SAVE_PATH,xtrain=xtrain,xtest=xtest,ytrain=ytrain,ytest=ytest)

将预处理后的数据保存为 .npy 文件。

训练结果

经过对数据集训练之后,我们发现结果并不尽如人意, CNN模型在PAMAP2数据集上的准确率不足80%!这对于实验来说是非常失败的!

PAMAP2数据集虽然是一个宝贵的资源,但在实际应用中,数据集的完整性和一致性对于训练有效的人体活动识别(HAR)模型至关重要,缺失数据会降低模型的泛化能力和准确性,我们观察发现其数据中很多为NaN的缺失情况:

在这里插入图片描述

在现实世界中,尤其是在移动设备或可穿戴设备收集的人体活动监测数据中,数据缺失是一个常见问题。这可能是由于传感器故障、电池耗尽、用户未正确佩戴设备等原因造成的。这时我们可通过生成对抗网络(GAN)来模拟缺失数据,提高模型对未见数据的泛化能力。

三、生成对抗网络(GAN)模拟缺失数据

在这里插入图片描述

GAN由两部分组成:生成器(Generator)和判别器(Discriminator)。生成器的目标是产生逼真的数据,而判别器的目标是区分生成的数据和真实的数据。

生成器架构:通常包含若干层转置卷积(用于数据的上采样)和批量归一化层。在HAR数据集中,生成器将学习如何填补缺失的传感器数据。

class Generator(nn.Module):def __init__(self, input_size, output_size):super(Generator, self).__init__()self.main = nn.Sequential(nn.Linear(input_size, 128),nn.LeakyReLU(0.2, inplace=True),nn.Linear(128, 256),nn.LeakyReLU(0.2, inplace=True),nn.Linear(256, output_size),nn.Tanh())def forward(self, noise):return self.main(noise)
  • 判别器架构:通常包含若干层卷积和池化层,以及全连接层,用于评估数据的真实性。
class Discriminator(nn.Module):def __init__(self, input_size):super(Discriminator, self).__init__()self.main = nn.Sequential(nn.Linear(input_size, 256),nn.LeakyReLU(0.2, inplace=True),nn.Linear(256, 128),nn.LeakyReLU(0.2, inplace=True),nn.Linear(128, 1),nn.Sigmoid())def forward(self, input):return self.main(input)

生成器和判别器在对抗过程中同时训练。生成器试图“欺骗”判别器,而判别器则不断学习以更好地区分真假数据,交替训练生成器和判别器,生成器产生数据,判别器评估数据并提供反馈。

class Autoencoder(nn.Module):def __init__(self, input_size, encoding_dim):super(Autoencoder, self).__init__()self.encoder = nn.Sequential(nn.Linear(input_size, encoding_dim),nn.ReLU(True),nn.Linear(encoding_dim, encoding_dim // 2),nn.ReLU(True))self.decoder = nn.Sequential(nn.Linear(encoding_dim // 2, encoding_dim),nn.ReLU(True),nn.Linear(encoding_dim, input_size),nn.Sigmoid())def forward(self, x):x = self.encoder(x)x = self.decoder(x)return x

GAN模型训练

选择PAMAP2数据集中的部分数据作为训练集,人为引入缺失值以模拟数据缺失情况,定义生成器和判别器的网络结构,选择合适的损失函数和优化器,执行生成器和判别器的对抗训练,调整超参数以获得最佳性能。

latent_dim = 100  # 潜在维度
generator = Generator(latent_dim, input_size)  # input_size 是数据的维度
discriminator = Discriminator(input_size)
criterion = nn.BCELoss()train_gan(generator, discriminator, dataloader, latent_dim, n_epochs=50, batch_size=64)

对PAMAP2数据集进行预处理,包括归一化和去除无关特征,设计自编码器的编码器和解码器部分,选择合适的层数和神经元数量,训练自编码器并使用其编码器部分提取特征,这些特征随后用于HAR模型的训练。

encoding_dim = 64  # 编码维度
autoencoder = Autoencoder(input_size, encoding_dim)train_autoencoder(autoencoder, dataloader, n_epochs=50, batch_size=64)

经过GAN和自编码器来增强过的PAMAP2数据集,很多为NaN缺失的数据已经变成了正常的数据:
在这里插入图片描述

四、训练结果

  • 使用增强后的数据集训练HAR模型,并评估其性能;

1.评估及结果展示

具体评估代码:

# 计算评估指标
accuracy = accuracy_score(all_labels, all_preds)
report = classification_report(all_labels, all_preds, output_dict=True, zero_division=1)
precision = report['weighted avg']['precision']
recall = report['weighted avg']['recall']
f1_score = 2 * precision * recall / (precision + recall)
# 计算推理时间
inference_end_time = time.time()
inference_time = inference_end_time - inference_start_time# 打印结果
print(f'Epoch: {i}, Train Loss: {loss}, Test Acc: {accuracy:.4f},Precision: {precision:.4f}, Recall: {recall:.4f}, F1 Score: {f1_score:.4f}, Inference Time: {inference_time:.4f} seconds')

结果展示:

image.png

模型名称准确率(Accuracy)精确率(Precision)召回率(Recall)F1分数(F1-score)参数量(Parameters)推理时间(Inference Time)
CNN0.90670.91210.90670.90947403640.00060.6517

通过比较使用原始数据集和增强数据集训练的模型,可以验证GAN在模拟缺失数据方面的效果非常好,CNN模型在PAMAP2数据集上表现出色,准确率达到了90.67%,并且具有均衡的精确率(91.21%)、召回率(90.67%)和F1分数(90.94%),同时模型参数量为740364,推理时间仅为0.6517毫秒,显示出了高效的实时预测能力。

2.可视化结果展示

混淆矩阵图

混淆矩阵是一个非常重要的工具,它可以展示模型在各个类别上的性能,特别是错误分类的情况。

conf_matrix = confusion_matrix(all_labels, all_preds, normalize='true')
# print(conf_matrix)# 自定义类别标签列表
class_labels = ['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping']plt.figure(figsize=(12, 12))  # 可以根据需要调整这里的值
# 使用 seaborn 的 heatmap 函数绘制归一化的混淆矩阵
ax = sns.heatmap(conf_matrix, annot=True, fmt='.4f', cmap='Blues',xticklabels=class_labels, yticklabels=class_labels,square=True, linewidths=.5)# 确保 x 轴和 y 轴的标签是字符串类型
ax.set_xticklabels(class_labels, rotation=45)
ax.set_yticklabels(class_labels)

image.png

雷达图

雷达图可以展示模型在多个维度上的性能:

fig, ax = plt.subplots(figsize=(12, 12), subplot_kw=dict(polar=True))# 绘制每个行为的雷达图
ax.plot(angles, beh, linestyle='-', linewidth=2)
ax.fill(angles, beh, alpha=0.25)# 设置雷达图的刻度和标签
ax.set_xticks(angles)
#ax.set_xticklabels(['Walking', 'Walking Upstairs', 'Walking Downstairs', 'Sitting', 'Standing', 'Laying'])
ax.set_xticklabels(['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping'])

image.png

仿真指标柱状图

柱状图可以用于展示各个类别的精确率,帮助我们快速识别模型在哪些类别上表现更好或需要改进:

class_labels = ['Lying', 'Sitting', 'Standing', 'Walking', 'Running', 'Cycling','Nordic walking','Ascending stairs','Descending stairs','Vacuum cleaning','Ironing','Rope jumping']# 计算每个类别的精确率
precisions = {}
for label in unique_labels:# 为当前类别创建一个二进制的标签数组y_true = np.where(all_labels == label, 1, 0)y_pred = np.where(all_preds == label, 1, 0)precision = precision_score(y_true, y_pred, average='binary')precisions[label] = precision

image.png

通过这种方式,GAN不仅解决了数据缺失的问题,还提高了数据集的质量和多样性,从而为训练更准确、更鲁棒的HAR模型提供了支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/478136.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

使用ChatGPT生成和优化电子商务用户需求规格说明书

在电子商务项目开发中,用户需求规格说明书(User Requirement Specification, URS)是团队沟通与项目成功的基石。然而,面对复杂多变的需求,如何快速生成清晰、完整且具备说服力的文档?这正是AI工具的用武之地…

12-表的约束

知识背景 表的约束,就是在表中的数据上加上约束,也被称为数据完整性约束。数据完整性约束的目的是为了不被规定的、不符合规范的数据进入数据库 在录入数据库或数据发生变化时,DBMS(数据库管理系统)会按照一定的约束条件对数据进行监测&…

美创科技入选2024数字政府解决方案提供商TOP100!

11月19日,国内专业咨询机构DBC德本咨询发布“2024数字政府解决方案提供商TOP100”榜单。美创科技凭借在政府数据安全领域多年的项目经验、技术优势与创新能力,入选收录。 作为专业数据安全产品与服务提供商,美创科技一直致力于为政府、金融、…

微信小程序与公众号关联(同一主体),获取unionId并关联公众号openid

背景 有一些同学在实际开发中,会有通过微信的openid获取公众号的openid,或者其他内容,这几天正好在研究这个功能的实现(已实现),现做思路上的简单分享,希望能对需要解决该问题的同学有所帮助&a…

SplatFormer: Point Transformer for Robust3D Gaussian Splatting 论文解读

目录 一、概述 二、相关工作 1、NVI新视角插值 2、稀疏视角重建 3、OOD-NVS 4、无约束重建下的正则化技术 5、基于学习的2D-to-3D模型 6、3D点云处理技术 三、SplatFormer 1、Point Transformer V3 2、特征解码器 3、损失函数 四、数据集 五、实验 一、概述 该论…

c++视频图像处理

打开视频或摄像头 打开指定视频 /*VideoCapture(const String &filename, apiPreference);filename:读取的视频或者图像序列的名称apiPreference:读取数据时设置的属性*/ VideoCapture video; //定义一个空的视频对象 video.open("H:/BaiduNetdiskDownlo…

前端三剑客(二):CSS

目录 1. CSS 基础 1.1 什么是 CSS 1.2 语法格式 1.3 引入方式 1.3.1 行内样式 1.3.2 内部样式 1.3.3 外部样式 1.4 CSS 编码规范 2. 选择器 2.1 标签选择器 2.2 id 选择器 2.3 class 选择器(类选择器) 2.4 复合选择器 2.5 通配符选择器 3. 常用 CSS 样式 3.1 c…

udp_socket

文章目录 UDP服务器封装系统调用socketbind系统调用bzero结构体清0sin_family端口号ip地址inet_addrrecvfromsendto 新指令 netstat -naup (-nlup)包装器 的两种类型重命名方式包装器使用统一可调用类型 关键字 typedef 类型重命名系统调用popen关于inet_ntoa UDP服务器封装 系…

【LLM训练系列02】如何找到一个大模型Lora的target_modules

方法1:观察attention中的线性层 import numpy as np import pandas as pd from peft import PeftModel import torch import torch.nn.functional as F from torch import Tensor from transformers import AutoTokenizer, AutoModel, BitsAndBytesConfig from typ…

解!决!vscode!Path Intellisense 失效!不起作用问题!!

第一步:找到path Intellisense插件 点击设置 第二步:打开settings.json文件: 第三步:配置settings.json文件内容: "path-intellisense.mappings": {"": "${workspaceRoot}/src",&qu…

力扣 LeetCode 110. 平衡二叉树(Day8:二叉树)

解题思路: 等于 -1 时,直接 return -1 class Solution {public boolean isBalanced(TreeNode root) {return getHeight(root) ! -1;}public int getHeight(TreeNode root) {if (root null) return 0;int leftDepth getHeight(root.left);if (leftDep…

ros2学习日记_241124_ros相关链接

前言 提醒: 文章内容为方便作者自己后日复习与查阅而进行的书写与发布,其中引用内容都会使用链接表明出处(如有侵权问题,请及时联系)。 其中内容多为一次书写,缺少检查与订正,如有问题或其他拓展…

【TEST】Apache JMeter + Influxdb + Grafana

介绍 使用Jmeter发起测试,测试结果存入Influxdb,Grafana展示你的测试结果。 环境 windows 10docker desktopJDK17 安装 Apache JMeter 访问官网(Apache JMeter - Apache JMeter™)下载JMeter(目前最新版本5.6.3&a…

【隐私计算大模型】联邦深度学习之拆分学习Split learning原理及安全风险、应对措施以及在大模型联合训练中的应用案例

Tips:在两方场景下,设计的安全算法,如果存在信息不对等性,那么信息获得更多的一方可以有概率对另一方实施安全性攻击。 1. 拆分学习原理 本文介绍了一种适用于隐私计算场景的深度学习实现方案——拆分学习,又称分割…

汽车HiL测试:利用TS-GNSS模拟器掌握硬件性能的仿真艺术

一、汽车HiL测试的概念 硬件在环(Hardware-in-the-Loop,简称HiL)仿真测试,是模型基于设计(Model-Based Design,简称MBD)验证流程中的一个关键环节。该步骤至关重要,因为它整合了实际…

Vue——响应式数据,v-on,v-bind,v-if,v-for(内含项目实战)

目录 响应式数据 ref reactive 事件绑定指令 v-on v-on 鼠标监听事件 v-on 键盘监听事件 v-on 简写形式 属性动态化指令 v-bind iuput标签动态属性绑定 img标签动态属性绑定 b标签动态属性绑定 v-bind 简写形式 条件渲染指令 v-if 遍历指令 v-for 遍历对象的值 遍历…

Redis 常用数据类型插入性能对比:循环插入 vs. 批量插入

Redis 是一款高性能的键值数据库,其支持多种数据类型(String、Hash、List、Set、ZSet、Geo)。在开发中,经常会遇到需要插入大量数据的场景。如果逐条插入,性能会显得较低,而采用 Pipeline 批量插入 能大幅提…

开源动态表单form-create-designer 扩展个性化配置的最佳实践教程

在开源低代码表单设计器 form-create-designer 的右侧配置面板里,field 映射规则为开发者提供了强大的工具去自定义和增强组件及表单配置的显示方式。通过这些规则,你可以简单而高效地调整配置项的展示,提升用户体验。 源码地址: Github | G…

Java语言编程,通过阿里云mongo数据库监控实现数据库的连接池优化

一、背景 线上程序连接mongos超时,mongo监控显示连接数已使用100%。 java程序报错信息: org.mongodb.driver.connection: Closed connection [connectionId{localValue:1480}] to 192.168.10.16:3717 because there was a socket exception raised by…

深入浅出分布式缓存:原理与应用

文章目录 概述缓存分片算法1. Hash算法2. 一致性Hash算法3. 应用场景Redis集群方案1. Redis 集群方案原理2. Redis 集群方案的优势3. Java 代码示例:Redis 集群数据定位Redis 集群中的节点通信机制:Gossip 协议Redis 集群的节点通信:Gossip 协议Redis 集群的节点通信流程Red…