数据挖掘(3)特征化

从数据分析角度,DM分为两类,描述式数据挖掘,预测式数据挖掘。描述式数据挖掘是以简介概要的方式描述数据,并提供数据的一般性质。预测式数据挖掘分析数据建立模型并试图预测新数据集的行为。

DM的分类:

  • 描述式DM:以简洁、概要的方式描述数据、提供数据的有趣的一般性质。
    • 用以产生数据的特征化和比较描述:
      • 特征化:提供给定数据集的简洁汇总(一个数据集)。
      • 比较(区分):提供两个或多个数据集的比较描述,其中一个为主数据集,其他数据集与其进行对比分析。
  • 预测式DM:分析数据,建立模型,试图预测新数据集的行为。

一、数据概化与基于汇总的特征化

1. 数据概化

  1. 更一般的(而不是较低的) 抽象层描述数据。
  2. 将大量的相关数据从一个较低的概念层次转化到一个比较高的层次。
    • 例如:把location维度上将地区概化为城市,甚至是省份
  3. 方法
    • 数据立方体(或OLAP)方法
    • 面向属性的归纳方法

 

2. 数据立方体(OLAP)方法

  1. 在数据立方体上进行计算和存储结果
  2. 优点:
    1. 数据概化的一种有效实现。
    2. 能计算多种不同的度量值。(count、ave、sum、min、max)
    3. 概化与特征分析通过一系列的数据立方体操作完成,上钻、下钻操作。
  3. 限制:
    * 只能为 非数值类型(离散的)维产生的概念分层。
    * 非数值类型:名义型、序数型(属于离散化的属性)。
    缺乏智能分析,不能自动确定分析中该使用哪些维,概化到哪个层次。

3. 面向属性归纳(AOI)(重点)

  1. 前提:有大量不同的取值
  2. 可处理连续性数据,比数据立方体更加智能
  3. 基本思想:
    1. 首先使用DB 收集任务相关的数据。
    2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    3. 基本思想:
      1. 首先使用DB 收集任务相关的数据。
      2. 每个属性的不同值的个数进行概化(属性删除、属性概化)。
    4. 属性删除(重点)
      1. 一个属性有许多不同数值:且
        • 该属性没有定义概化操作符(没有概念分层)。
          • 一个属性拥有许多不同的数值,却没有定义对他的泛化操作。
        • 或较高层概念可以用其他属性表示。
          • eg:出生日期:birth_date:1995-1-1,出生日期是年龄的更高层次,可以将其表现,所以可以将birth_date删除。
    5. 属性概化(重点)
      1. 若一个属性有许多不同数值,且:在该属性上存在概化操作符(有概念分层),则应当选择该概化操作符,并逐层进行概化。
      2. 概化操作符:层次性,比如birth_day:年月日。

4.特征化(面向属性归纳)

两种方法:

  1. 属性概化阈值控制:(控制属性取值个数)
    • 取值范围:[2-8]
    • 属性的不同值个数大于属性概化阈值,则应当删除或概化。
    • 概化层次太高,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
  2. 概化关系阈值控制:(控制最后的广义元组数量)
    • 控制最后关系、规则的大小。(最后生成广义元组)
    • 设置阈值:[10-30]
    • 概化关系中不同元组的个数超过属性概化阈值,则概化。
    • 概化关系太少,可加大阈值(属性下钻);反之,减小阈值(属性上卷)。
    • 概化到最高层(最底层)也不满足,则需要将其删除。

 

5.例子分析

 

 二、属性相关分析(重点)

  1. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  2. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。
  3. 在处理数据中,包含很多与挖掘任务不相关或弱相关的属性,引入属性相关分析。
  4. 如果某个属性可以很好区分该类与其他类,则该属性是任务高度相关的。

1. 属性相关分析法基本思想

  1. 基本思想:给定的数据集,计算某种度量,用于量化属性与给定的类或概念间的相关性。
  2. 常用的度量:信息增益、相关系数、GINI索引、不确定性

2.信息增益法(重点)

  1. 信息增益法:

    1. 决策树归纳学习算法(ID3,C4.5),删除信息量较少的属性,保留信息量较大的属性。
  2. ID3算法

    1. 概念为启发函数。
      •    
      • 熵越大、携带的信息量越大、越不容易被预测

    2. 选择具有最大信息增益的属性作为当前划分节点。
    3. 基本原理:
      • 根据类别已知的训练数据集构造一颗决策树;根据决策树再对类别未知的数据对象进行分类。
      • 每一步选择都是选择最大信息增益。
    4. 决策树:每个节点的选择:选择信息增益最大的属性为当前节点。
    5. 本步骤只是求出不确定性

 

3. 通过熵来进行选择

 

4.属性相关分析步骤

  1. 数据收集:建立目标数据集,以及对比数据集,目标数据集与对比数据集不相交。
  2. 利用保守的AOI方法进行属性相关分析。对初始的数据集进行删除、概化等操作形成候选数据集。
  3. 删除不相关、弱相关的属性。如信息增益度量
  4. 使用AOI产生概念描述:利用更严格的属性概化控制阈值进行属性的归纳。
    • 任务是:概念描述,使用初始目标数据集。
    • 任务是:比较概念描述,使用初始目标数据集,对比数据集。

三、挖掘类比较:区分不同的类

 

  1. 比较概念中,同一个属性要概化到同一个层次。
  2. d—权
    • qa所包含的Cj中数据行数与qa所涵盖的所有数据行数(包括目标数据集及所有对比数据集)之比

四、常见的统计度量指标

  1. 中心趋势:均值、中位数、模(众数)
    • 众数:如果每个数值仅出现1次则无众数
  2. 数据分布:四分位数、方差、标准差
    • 四分位数:
      • 数值下数据集合的第k个百分位数。
      • 中位数:第50个百分位数
      • 第一个四分位数Q_1第25个百分位数;第三个百分位数 Q_3:第75个百分位数
      • 中间四分位区间IQR=Q_3-Q_1
      • 识别孤立点: x \leq Q_1-1.5IQR || x \geq Q_3 + 1.5IQR

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/150279.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

为什么企业都在申报“高新技术”?有以下十大好处!

随着信息技术时代的迅速发展,很多企业为了能够在同行中脱颖而出,都会选择办理一些和企业相关的资质证书,以便提升企业的核心竞争力,今天同邦信息科技的小编就告诉大家为什么那么多企业都选择申报“高新技术”企业? 首先…

Cocos Creator3.8 项目实战(四)巧用九宫格图像拉伸

一、为什么要使用九宫格图像拉伸 相信做过前端的同学都知道,ui (图片)资源对包体大小和内存都有非常直接的影响。 通常ui 资源都是图片,也是最占资源量的资源类型,游戏中的ui 资源还是人机交互的最重要的部分&#xff…

若依分离版-前端使用

1 执行 npm install --registryhttps://registry.npm.taobao.org,报错信息如下 npm ERR! code ERESOLVE npm ERR! ERESOLVE unable to resolve dependency tree npm ERR! npm ERR! While resolving: ktg-mes-ui3.8.2 npm ERR! Found: vue2.6.12 npm ERR! node_modu…

张量-规约计算

作为Tensorflow中常见的一种计算方式,规约计算在操作时会有降维的功能。在所有规约计算系列的操作函数中,都是以reduce开头来命名,以函数名所命名的手段来降维。 每个函数都有axis参数,即沿哪个方向使用函数名所命名的方法对输入的tensor进行降维。axis的默认值是None,即把inp…

Ubuntu 2204 搭建 nextcloud 个人网盘

Nextcloud是一套用于创建网络硬盘/云盘以存放文件的客户端-服务器软件,Nextcloud 完全开源并且免费。 一、搭建 ubuntu apache2 mysql php (lamp)环境 因为 nextcloud 服务是使用 php 语言和 mysql 数据库的web服务,因此需要…

TS中Class类的继承

我们有下面一个代码,其中创建了一个Dog类和Cat类,这两个类中都有姓名和年龄属性和bark方法 class Dog {name: string;age: number;constructor(name: string, age: number) {this.name name;this.age age;}bark() {console.log(this.name "汪汪…

计算机竞赛 题目:基于深度学习卷积神经网络的花卉识别 - 深度学习 机器视觉

文章目录 0 前言1 项目背景2 花卉识别的基本原理3 算法实现3.1 预处理3.2 特征提取和选择3.3 分类器设计和决策3.4 卷积神经网络基本原理 4 算法实现4.1 花卉图像数据4.2 模块组成 5 项目执行结果6 最后 0 前言 🔥 优质竞赛项目系列,今天要分享的是 基…

ElasticSearch更新数据后查不到的问题

一、前言 上一篇文章还是2个星期前写的,近段时间有点懒,本来这篇也不太愿意动笔写,但这两天关注数据,发现新的一年已经收获了4个粉丝,首先感谢大家的关注,我以后还是会尽量多写一点。这篇文章讲一下今天我…

组件的挂载和渲染

React的挂载和渲染 React的生命周期中包括三个主要的阶段:挂载、渲染以及卸载。 很多小伙伴包括我自己可能对挂载和渲染的概念比较模糊,今天这篇文章主要的目的是为了解答我们的这个小疑惑~ 这张图是从其他地方搬运过来的,这张图中描述的主…

1358. 包含所有三种字符的子字符串数目

1358. 包含所有三种字符的子字符串数目 C代码:滑动窗口、前缀 // 只存在abc // 存在三种字符的子串数量、左边窗口满足,窗口后边的也就满足 int numberOfSubstrings(char * s){int hash[3] {0};int n strlen(s);int ans 0;int l 0;for (int i -1; …

Zookeeper经典应用场景实战(二)

文章目录 1、 Zookeeper 分布式锁实战1.1、 什么是分布式锁1.2、 基于数据库设计思路1.3、 基于Zookeeper设计思路一1.4、 基于Zookeeper设计思路二 1、 Zookeeper 分布式锁实战 1.1、 什么是分布式锁 在单体的应用开发场景中涉及并发同步的时候,大家往往采用Sync…

新基建智慧铁路:高铁沿线综合视频监控及风险智能预警管理方案

一 、方案背景 铁路沿线安全环境直接关系铁路运输安全畅通。随着我国铁路特别是高速铁路运营里程不断增加,改善铁路沿线安全环境对保障铁路高质量发展和人民群众生命财产安全的作用更加突出。为了保障高铁的安全运营,高铁对安防尤其是视频监控的需求不断…

数字化转型频频失败?一体化模式提供新的思考

数字化连续6年出现在政府报告中,从《中小企业数字化赋能专项行动方案》到《关于推进“上云用数赋智”行动》、《“十四五” 规划和 2035 年远景目标建议》、《中小企业数字化转型指南》,再到2023年2月《数字中国建设整体布局规划》,加快数字化…

好奇喵 | Tor浏览器——如何拥有一颗洋葱并使用

前言 在之前的博客中: 1.Surface Web —> Deep Web —> Dark Web,我们解释了表层网络、深层网络等的相关概念; 2.Tor浏览器——层层剥开洋葱,我们阐述了Tor的历史和基本工作原理; 本篇博客介…

重庆建筑模板厂家:选择桉木模板,智慧之选

随着城市化进程的不断加速,建筑业也呈现出蓬勃发展的势头。而作为建筑过程中不可或缺的材料之一,建筑模板的选择将直接影响到工程质量和工期。在重庆这样一个气候多变、地形复杂的地区,如何选择适合当地情况的建筑模板显得尤为重要。 一、常规…

pmql基本使用

简介 Prometheus 通过指标名称(metrics name)以及对应的一组标签(labelset)唯一 定义一条时间序列。指标名称反映了监控样本的基本标识,而 label 则在这个基本特征上为 采集到的数据提供了多种特征维度。用户可以基于…

FFmpeg 基础模块:AVIO、AVDictionary 与 AVOption

目录 AVIO AVDictionary 与 AVOption 小结 思考 我们了解了 AVFormat 中的 API 接口的功能,从实际操作经验看,这些接口是可以满足大多数音视频的 mux 与 demux,或者说 remux 场景的。但是除此之外,在日常使用 API 开发应用的时…

vtk之【vtkPolyData、vtkCell、vtkPoints】

文章目录 一,vtkPolyData、cell、point1) 例子2) vtkPolyData、vtkCell、vtkPoints 二,vtkNew<>与vtkSmartPointer<>的区别:三&#xff0c;补充 一,vtkPolyData、cell、point 1) 例子 /*** vtkNew 是一个类模板* vtkNew<> 是一个简单的 RAII&#xff08;Res…

策略模式与模板方法结合案例

一、背景 上周在迁移项目MQ工程的时候&#xff0c;重新Review代码&#xff0c;发现有一段代码综合使用了策略模式和模板方法&#xff0c;下面讲解一下具体场景应用的思路。 二、模板方法 策略模式前段时间有一个关于库存具体案例&#xff0c;详见 库存管理与策略模式。 模板…

基于FastAPI的文件上传和下载

基于FastAPI的文件上传和下载 一、前言 为了实现ASR的可视化界面&#xff0c;在各个博客中寻觅了一波找找文件上传和下载的例子&#xff0c;没有找到能完整实现这个功能的&#xff0c;有也只是有一部分&#xff08;菜菜求捞捞&#xff09;&#xff0c;看了甚是烦恼&#xff0…