数据挖掘——数据预处理

数据挖掘——数据预处理

  • 数据预处理
    • 数据预处理 ——主要任务
    • 数据清洗
      • 如何处理丢失的数据
      • 如何处理噪声数据
      • 如何处理不一致数据
    • 数据集成
      • 相关分析
        • 相关系数(也成为皮尔逊相关系数)
        • 协方差
    • 数据规约
      • 降维法:PCA主成分分析
      • 降数据——抽样法
      • 数据压缩

数据预处理

数据预处理 ——主要任务

  • 数据清理
    • 填写缺失值,平滑噪声数据,识别或删除离群,并解决不一致问题
  • 数据集成
    • 整合多个数据库,多维数据集或文件
  • 数据规约
    • 降维
    • 降数据
    • 数据压缩
  • 数据转换
    • 规范化
    • 离散化

数据清洗

  • 属性值缺失:
    • 例如,职业=“ ”(丢失)
  • 噪音,错误或离群
    • 例如,工资=“-10”(错误)
  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“03/07/1997”
    • 曾经评级“1,2,3”,现在评级“A,B,C”

如何处理丢失的数据

  • 忽略元组:当类标号缺少时通常这么做(监督式机器学习中训练集缺乏类标签)。当每个属性缺少值比例比较大时,效果比较差
  • 手动填写遗漏值:工作量大
  • 自动填写
    • 使用属性的平均值填充空缺值
    • 最有可能的值:基于诸如贝叶斯公式或决策树推理

如何处理噪声数据

箱线图检测离群数据:删除离群点
在这里插入图片描述

如何处理不一致数据

  • 不一致的代码或不符的名称
    • 年龄=“42”生日=“09/24/1998”
    • 曾经评级“1,2,3”,现在评级“A,B,C”
  • 方法
    • 计算推理、替换
    • 全局替换

数据集成

将来自多个数据源的数据组合成一个连贯的数据源
在这里插入图片描述

  • 整合多个数据库经常发生数据冗余
    • Object identification:相同的属性或对象可能有不同的名字在不同的数据库中
    • Derivable data:一个属性可能是“派生”的另一个表中的属性,例如,跑步能力
  • 通过相关性分析和协方差分析可以检测到冗余的属性
  • 仔细集成来自多个数据源,可能有助于减少/避免冗余和不一致的地方,并提高读取速度和质量

相关分析

相关系数(也成为皮尔逊相关系数)

r p , q = ∑ ( p − p ˉ ) ( q − q ˉ ) ( n − 1 ) σ p σ q = ∑ ( p q ) − n p q ‾ ( n − 1 ) σ p σ q r_{p, q}=\frac{\sum(p-\bar{p})(q-\bar{q})}{(n-1) \sigma_{p} \sigma_{q}}=\frac{\sum(p q)-n \overline{p q}}{(n-1) \sigma_{p} \sigma_{q}} rp,q=(n1)σpσq(ppˉ)(qqˉ)=(n1)σpσq(pq)npq
其中 n n n是元组的数目,而 p p p q q q是各属性的具体值, σ p σ_p σp σ q σ_q σq是各自的标准偏差。

  • 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
  • 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
  • 当r=0时,表示两变量间无线性相关关系。
  • 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1, 两
    变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
  • 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;
    0.7≤|r|<1为高度线性相关。
协方差

Cov ⁡ ( p , q ) = E ( ( p − p ˉ ) ( q − q ˉ ) ) = ∑ i = 1 n ( p i − p ˉ ) ( q i − q ˉ ) n r p , q = Cov ⁡ ( p , q ) σ p σ q \begin{array}{c}\operatorname{Cov}(p, q)=E((p-\bar{p})(q-\bar{q}))=\frac{\sum_{i=1}^{n}\left(p_{i}-\bar{p}\right)\left(q_{i}-\bar{q}\right)}{n} \\r_{p, q}=\frac{\operatorname{Cov}(p, q)}{\sigma_{p} \sigma_{q}}\end{array} Cov(p,q)=E((ppˉ)(qqˉ))=ni=1n(pipˉ)(qiqˉ)rp,q=σpσqCov(p,q)

  • 其中n是元组的数目,p和q是各自属性的具体值, σp和σq是各自的标准差
    • 正相关: C o v ( p , q ) > 0 Cov(p,q)>0 Covp,q>0
    • 负相关: C o v ( p , q ) < 0 Cov(p,q) <0 Covp,q<0
    • 不相关: C o v ( p , q ) = 0 Cov(p,q) =0 Covp,q=0
  • 可具有某些对随机变量的协方差为0,但不是独立的。一些额外的假设(例如,数据是否服从多元正态分布)做了协方差为0意味着独立。

它可以简化计算:
C o v ( A , B ) = E ( ( A − A ˉ ) ( B − B ˉ ) ) = ∑ i = 1 n ( a i − A ˉ ) ( b i − B ˉ ) n = E ( A B ) − A ˉ B ˉ Cov(A,B)=E((A-\bar{A})(B-\bar{B}))=\frac{\sum_{i=1}^n(a_i-\bar{A})(b_i-\bar{B})}{n}=E(AB)-\bar{A}\bar{B} Cov(A,B)=E((AAˉ)(BBˉ))=ni=1n(aiAˉ)(biBˉ)=E(AB)AˉBˉ

数据规约

为什么数据规约(datareduction)
由于数据仓库可以存储TB的数据,因此在一个完整的数据集上运行时,复杂的数据分析可能需要一个很长的时间。

数据规约三种方法

  1. 降维
  2. 降数据
  3. 数据压缩

降维法:PCA主成分分析

在这里插入图片描述

  • PCA主成分分析法核心idea
    • 数据中很多属性之间可能存在这样或那样的相关性
    • 能不能找到一个方法,将多个相关性的属性组合仅仅形成一个属性

降数据——抽样法

在这里插入图片描述

  • 简单随机抽样(SimpleRandomSampling)
    • 相等的概率选择
    • 不放回抽样(Samplingwithout replacement)
      • 一旦对象被选中,则将其删除
    • 有放回抽样(Samplingwithreplacement)
      • 选择对象不会被删除
  • 分组抽样
    • 每组抽相近个数
    • 用于偏斜数据

样本大小对数据质量的影响:

  • 从8000个点分别抽2000和500个点
    • 2000个点的样本保留了数据集的大部分结构
    • 500个点的样本丢失了许多结构
      在这里插入图片描述

数据压缩

在这里插入图片描述

  • 函数映射:给定的属性值更换了一个新的表示方法,每个旧值与新的值可以被识别
  • 方法
    • 规范化:按比例缩放到一个具体区间
      • 最小 - 最大规范化
      • Z-得分正常化
      • 小数定标规范化
    • 离散化

最小-最大规范化
v ′ = v − min ⁡ A m a x A − min ⁡ A ( n e w _ m a x A − n e w − min ⁡ A ) + n e w − min ⁡ A v^{\prime}=\frac{v-\min A}{max A-\min A}\left(\right. \left.new\_max A-n e w_{-} \min A\right)+ new_{-} \min A v=maxAminAvminA(new_maxAnewminA)+newminA
v v v即需要规范的数据

z-分数规范化
v ′ = v − 均值 A 标准 差 A v'=\frac{v-均值A}{标准差_A} v=标准Av均值A

离散化方法

  • 非监督离散化法
    • 等宽法:根据属性的值域来划分,使每个区间的宽度相等
    • 等频法:根据取值出现的频数来划分,将属性的值域划分成个小区间,并且要求落在每个区间的样本数目相等
    • 聚类:利用聚类将数据划分到不同的离散类别

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/503217.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

我在广州学 Mysql 系列——有关数据表的插入、更新与删除相关练习

ℹ️大家好&#xff0c;我是练小杰&#xff0c;今天是星期四了&#xff0c;明天就是星期五了&#xff01;&#xff01;这周过得真快啊&#xff01;&#xff01; 本文将针对MYSQL数据表内容的插入&#xff0c;更新以及删除&#xff0c;相关命令的各种练习~~ 复习&#xff1a;&am…

OpenGL —— 流媒体播放器 - ffmpeg解码rtsp流,opengl渲染yuv视频(附源码,glfw+glad)

效果 说明 FFMpeg和OpenGL作为两大技术巨头,分别在视频解码和图形渲染领域发挥着举足轻重的作用。本文将综合两者实战视频播放器,大概技术流程为:ffmpeg拉取rtsp协议视频流,并经过解码、尺寸格式转换为yuv420p后,使用opengl逐帧循环渲染该yuv实时视频。 核心源码 vertexSh…

彻底学会Gradle插件版本和Gradle版本及对应关系

看完这篇&#xff0c;保你彻底学会Gradle插件版本和Gradle版本及对应关系&#xff0c;超详细超全的对应关系表 需要知道Gradle插件版本和Gradle版本的对应关系&#xff0c;其实就是需要知道Gradle插件版本对应所需的gradle最低版本&#xff0c;详细对应关系如下表格&#xff0…

【学习笔记】数据结构(十)

内部排序 文章目录 内部排序10.1 概述10.2 插入排序10.2.1 直接插入排序10.2.2 其他插入排序10.2.2.1 折半插入排序(Binary Insertion Sort)10.2.2.2 2-路插入排序&#xff08;Two-Way Insertion Sort&#xff09;10.2.2.3 表插入排序&#xff08;Table Insertion Sort&#xf…

论文解读 | NeurIPS'24 IRCAN:通过识别和重新加权上下文感知神经元来减轻大语言模型生成中的知识冲突...

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入&#xff01; 点击 阅读原文 观看作者讲解回放&#xff01; 作者简介 史丹&#xff0c;天津大学博士生 内容简介 大语言模型&#xff08;LLM&#xff09;经过海量数据训练后编码了丰富的世界知识。最近的研究表明&#xff0c…

Python编程实例-特征向量与特征值编程实现

特征向量与特征值编程实现 文章目录 特征向量与特征值编程实现1、什么是特征向量2、特征向量背后的直觉3、为什么特征向量很重要?4、如何计算特征向量?4、特征向量Python实现5、可视化特征向量6、总结线性代数是许多高级数学概念的基石,广泛应用于数据科学、机器学习、计算机…

密码学原理技术-第十一章-Hash Functions

文章目录 总结Why we need hash functionsDigital Signature with a Hash FunctionBasic Protocol for Digital Signatures with a Hash FunctionPrincipal input–output behavior of hash functions Security propertiesThe three security requirements of hash functionsWh…

支付宝手机网站支付

1.订单码支付&#xff0c;首先下载官方网站提供的sdk包到你的项目中。 2.部署到服务器上后&#xff0c;在根目录的config.php上配置好你的appId、公钥私钥和同步异步回调路径及日志文件后&#xff0c;就直接能访问到他们给的示例网页。 3.选择第一项手机网站支付&#xff0c;提…

【网络安全设备系列】9、WAF(Web应用防火墙)

0x00 定义: Web应用防火墙是通过执行一系列针对HTTP/HTTPS的安全策略来专门为Web应用提供保护的一种设备。 WAF需要部署在Web服务器的前面&#xff0c;串行接入&#xff0c;不仅在硬件性能上要求高&#xff0c;而且不能影响Web服务&#xff0c;所以HA功能、Bypass功能都是必…

【HarmonyOS应用开发——ArkTS语言】购物商城的实现【合集】

目录 &#x1f60b;环境配置&#xff1a;华为HarmonyOS开发者 &#x1f4fa;演示效果&#xff1a; &#x1f4d6;实验步骤及方法&#xff1a; 一、在src/main/ets文件中创建components文件夹并在其中创建Home.ets和HomeProduct.ets文件。​编辑 二、在Home.ets文件中定义 …

unity学习8:unity的基础操作 和对应shortcut

目录 1 unity的基础操作的工具&#xff0c;就在scene边上 1.1 对应shortcut快捷键 2 物体的重置/ 坐标归到0附近 3 F&#xff1a;快速找到当前gameobject 4 Q&#xff1a;小手和眼睛&#xff0c;在场景中移动 5 W&#xff1a;十字箭头&#xff0c;移动gameobject 6 …

Harmony开发【笔记1】报错解决(字段名写错了。。)

在利用axios从网络接收请求时&#xff0c;发现返回obj的code为“-1”&#xff0c;非常不解&#xff0c;利用console.log测试&#xff0c;更加不解&#xff0c;可知抛出错误是 “ E 其他错误: userName required”。但是我在测试时&#xff0c;它并没有体现为空&#xff0c;…

(leetcode算法题)面试题 17.19. 消失的两个数字

可以在O(n)的时间复杂度下得到这两个消失的数字的异或的结果&#xff0c;或者得到这两个数字的和 但是怎么从上面的结果中得到这两个数字&#xff1f; 比如对于异或的结果&#xff0c;可以知道这两个数字在哪一位的置位是不同的 然后再根据这一位把 [1, n] 分为两个不同的数…

Go Ebiten随机迷宫生成示例

引言 迷宫生成是计算机科学中一个经典的问题&#xff0c;常用于算法教学和游戏开发。本文将介绍如何使用 Go 语言和 Ebiten 游戏引擎实现一个基于深度优先搜索&#xff08;DFS&#xff09;的随机迷宫生成算法&#xff0c;并通过可视化的方式展示迷宫的生成过程。 技术栈 Go …

Flutter 鸿蒙化 flutter和鸿蒙next混和渲染

前言导读 这一个节课我们讲一下PlatformView的是使用 我们在实战中有可能出现了在鸿蒙next只加载一部分Flutter的情况 我们今天就讲一下这种情况具体实现要使用到我们的PlatformView 效果图 具体实现: 一、Native侧 使用 DevEco Studio工具打开 platform_view_example\oho…

《一文读懂PyTorch核心模块:开启深度学习之旅》

《一文读懂PyTorch核心模块&#xff1a;开启深度学习之旅》 一、PyTorch 入门&#xff1a;深度学习的得力助手二、核心模块概览&#xff1a;构建深度学习大厦的基石三、torch&#xff1a;基础功能担当&#xff08;一&#xff09;张量操作&#xff1a;多维数组的神奇变换&#x…

jenkins入门6 --拉取代码

Jenkins代码拉取 需要的插件&#xff0c;缺少的安装下 新建一个item,选择freestyle project 源码管理配置如下&#xff1a;需要添加git库地址&#xff0c;和登录git的用户密码 配置好后执行编译&#xff0c;成功后拉取的代码在工作空间里

【2025最新计算机毕业设计】基于SpringBoot+Vue智慧养老医护系统(高质量源码,提供文档,免费部署到本地)【提供源码+答辩PPT+文档+项目部署】

作者简介&#xff1a;✌CSDN新星计划导师、Java领域优质创作者、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和学生毕业项目实战,高校老师/讲师/同行前辈交流。✌ 主要内容&#xff1a;&#x1f31f;Java项目、Python项目、前端项目、PHP、ASP.NET、人工智能…

51c自动驾驶~合集45

我自己的原文哦~ https://blog.51cto.com/whaosoft/13020031 #运动控制和规划控制需要掌握的技术栈~ 各大垃圾家电造车厂又要开始了~~~​ 1、ROS的通信方式 李是Lyapunov的李&#xff1a;谈谈ROS的通信机制 话题通信和服务通信&#xff0c;其中话题通信是通过发布和订阅…

【Qt】控件概述和QWidget核心属性1(enabled、geometry、windowTitle、windowIcon、QRC机制)

一、控件概念 界面上各种元素、各种部分的统称&#xff08;如按钮、输入框、下拉框、单选复选框...&#xff09; Qt作为GUI开发框架&#xff0c;内置了各种的常用控件&#xff0c;并支持自定义控件。 二、控件体系发展 1.没有完全的控件&#xff0c;需要使用绘图API手动绘制…