大数据挖掘期末复习

大数据挖掘

数据挖掘

数据挖掘定义

技术层面:

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中、人们事先不知道的、但又==潜在有用的信息==的过程。

数据准备环节

数据选择 质量分析 数据预处理

数据仓库

从多个数据源搜集的信息存放在一致的模式之下

特征化

对目标数据的一般特性和特征汇总

聚类分析

最大化类内相似度 最小化类间相似性

数据准备

大数据定义

超出正常处理范围

海量数据+复杂类型的数据 构成

数据对象

组成数据集的元素,每个数据对象均为一个实体

数据对象由属性描述

数据的正确性分析

缺失值

数据错误

度量标准错误

编码不一致

处理缺失数据

忽视

较小缺失率 有缺失值的样本或属性

人工补全缺失值

重新采样

领域知识

自动补全缺失值

固定值

均值

基于算法

插补法

均值插补

回归插补

极大似然估计

噪声过滤

回归法

均值平滑法

离群点分析

处理噪声数据

局部离群因子LOF计算

数据量

子集选择

数据量太大

减小时间复杂度

数据聚合

尺度变换

数据更稳定

调整类分布

不平衡数据

哈尔小波交换

通过调整分辨率

数据标准化

最小最大标准化

Z-score标准化

大数据挖掘与分析

邻近性

相似性和相异性统称为邻近性

数据矩阵

存放数据对象

相异性矩阵

存放数据对象的相异性值

二元属性邻近性

数值数据距离

闵可夫斯基距离

h=1 2 正无穷

维度诅咒

基于距离的聚类在高纬度下无效

在高维情况下 P(0,1)更有效

逆文档频率

IDF 或 Goodall度量

基本思路:

将基本词汇看做全部属性的集合

每个词频是属性的值

余弦度量

余弦相似度

逆文档频率 阻尼系数

累计距离矩阵(大概率)

计算等图

算法题目APRIORI

基本的Apriori算法
Apriori算法的基本思路是采用层次搜索的迭代方法,由候选(k-1)-项集来寻找候选k-项集,并逐一判断产生的候选k-项集是否是频繁的。
  设C k 是长度为k的候选项集的集合,L k 是长度为k的频繁项集的集合。为了简单,设最小支持度阈值min_sup为最小元组数,即采用最小支持度计数。

输入:事务数据库D,最小支持度阈值min_sup。
输出:所有的频繁项集集合L。
方法:其过程描述如下:
通过扫描D得到1-频繁项集L1;
for (k=2;Lk-1!=Ф;k++)
{      Ck=由Lk-1通过连接运算产生的候选k-项集;for (事务数据库D中的事务t){	求Ck中包含在t中的所有候选k-项集的计数;Lk={c | c∈Ck and c.sup_count≥min_sup};//求Ck中满足min_sup的候选k-项集}
}
return L=∪kLk;

image-20241117205741890

这是通过Apriori计算最大频繁项集 和 计算强关联规则的题目

要求为超过最小支持度 最小支持度的计算很简单

即为

image-20241117210643736

Apriori优化

基于散列的Apriori

基于散列的Apriori技术基于Apriori算法, 为了解决此算法在数据集较大的情况下候选项集数量爆炸的问题 以及支持度计数效率低下的问题

基于散列的优化:

在生成候选项集时,通过哈希函数映射分桶 每个桶记录频数 如果桶中的频数小于最小支持度的阈值 则该桶中所有项集可以直接剪枝

因为通过哈希函数可以快速找到相应的桶,所以计算效率较高

h(x,y)=(hash(x)+hash(y))modn

哈希树分组

算法题目FPgrowth

image-20241117221313668

image-20241117213402342

条件模式基的寻找

在FPtree的项目里倒着找,沿着虚线将出现的频次进行统计,,写出条件模式基

条件FP Tree

沿着条件模式基画FP Tree

记得剪去最小支持度不够的项

频繁项集

将条件FPtree与项进行组合 得到频繁项集

列式计数Apriori算法

使用垂直数据格式挖掘频繁项集

image-20241117221755170

关联模式挖掘

超集

包含了另一个集合中所有元素的集合为超集

闭模式

一个频繁项集 没有任何它的超集具有与他相同的支持度

也就是不被冗余覆盖的核心模式

闭模式显著减少了需要存储的频繁模式数量

可以推导出所有频繁模式及其支持度

极大模式

没有频繁的超集

极大模式只保留频繁模式中“最大”的部分

无法还原所有频繁模式的支持度信息

序列模式

序列模式是指诸如此类的模式,其项中包含多个项,在计数时,相同项仅计数一次

image-20241118094806740

聚类

好的聚类方法产生高质量的聚类结果

要求

高类内相似性 高内聚

低类间相似性 低耦合

能够发掘隐藏模式 有价值

聚类的好坏在于:

相似度测量方法

不同尺度 不同类型的距离函数设计不同

主要聚类方法

基于代表点的聚类

代表性方法:kmeans kmedians kmedoids CLARANS

层次方法

基于准则对数数据层次分解

代表性方法:Diana Agnes BIRCH CAMELEON

基于密度的方法

代表性方法:DBSCAN OPTICS DENClue

基于网格的方法

代表方法:STING WaveCluster CLIQUE

基于模型的方法

代表性方法:EM SOM COBWEB

聚类评估方法(概率低)

熵不考哈

:可以反馈特征子集的聚类质量

经验法
肘方法
交叉验证

基于代表点聚类

K means

image-20241118121730712

image-20241118122407713

kmedians

选取代表点选取中值 对异常点不那么敏感

Kmedoids

从非代表点中随机选取点代替中心点集合中的某个点,重新划分 诸葛尝试 选择最优

PAM

image-20241118122925394

1不受离群点数据影响

2适于处理小数据集

CLARA(小概率)

基于抽样的方法 找到最优中心点集为目标

CLAEANS(小概率)

采样并随机选择

层次聚类

AGNES凝聚法

image-20241118145416412

不断将簇进行合并 最后得到所有合并后的集合为止

image-20241118145626975

DIANA法

分裂法

image-20241118145720858

Birch

CHAMELEON

基于密度聚类

  1. 发现任意形状簇Discover clusters of arbitrary shape
  2. 能容忍噪音Handle noise
  3. 一边扫描One scan
  4. 需要以密度相关的参数作为终止条件

DBSCAN

原理

​ 对象的密度可以用靠近该对象的节点数量表示。

​ 找出核心对象和其邻域,形成稠密区为簇

参数:

Eps : 邻域半径

MinPts : 邻域半径内的最小节点数 判断是否为核心节点的阈值

核心节点q 满足

|N_Eps (q) | ≥ MinPts

核心节点扩展区域 边缘节点定义边界

image-20241118203559698

或者

image-20241118203808368

OPTICS(可能不考)

定义了两种距离,核心距离与可达距离

对于不同对象可能有不同的可达距离

DENCLUE(大概率不考)

引入影响函数与密度函数的概念进行聚类

离群点检测

离群点Outlier:

以一种不同机制产生的不同于大多数据表现的不正常的数据。

:虚假行为,电信诈骗,医药分析,网络攻击,等。

与噪音数据区别

噪音数据是错的数据

是一个测量变量中的随机错误或误差 包括错误的值 偏离期望的孤立点

噪音数据在数据处理前已经被移除。

分类

全局离群点

情境(条件)离群点

今天的最高温度是-15度

集体离群点

数据对象的子集形成集体离群点

例如:一些计算机之间频繁发送信息

离群点特征

有趣的 少量的

基于离群点方法检测出的离群点不能对应真正的异常行为

只能为用户提供可疑数据

基于密度的方法

直方图

通过直方图找到

核密度估计

确定数据中的稀疏区域以便报告异常点

基于概率的方法

极值:对应概率分布的统计尾部

识别模型低概率区域中的对象

一元离群点检测

根据概率密度函数进行

基于距离的方法

基本思路

数据集中显著偏离其他对象的点

根据每个点在局部区域上的密度和其邻近点的密度来判断异常程度

基于聚类的方法

检测方法

建立正常模型

离群点为不能正常符合这个模型的数据点

将异常数据度量为数值

分数越大越可能是离群点

形式

基于聚类产生簇

寻找远离簇的数据点

考虑对象和它最近簇之间的距离

半监督学习

结合聚类与分类检测离群点

先基于聚类识别正常簇,然后使用这个簇的一类模型识别离群点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/475735.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Anomaly Detection论文阅读记录】Resnet网络与WideResNet网络

Resnet网络 网络结构:(层数计算不包括max pool、average pool、softmax等操作) 层数计算(以Resnet-18为例子): conv1conv2_xconv3_xconv4_xconv5_xfc1(22)(22)(22)(22)118 WideResNet网络 WideResNet提出了一种新的体系结构&#…

基于YOLOv8深度学习的汽车车身车损检测系统研究与实现(PyQt5界面+数据集+训练代码)

本文研究并实现了一种基于YOLOV8深度学习模型的汽车车身车损检测系统,旨在解决传统车损检测中效率低、精度不高的问题。该系统利用YOLOV8的目标检测能力,在单张图像上实现了车身损坏区域的精确识别和分类,尤其是在车身凹痕、车身裂纹和车身划…

【前端学习笔记】Javascript学习二(运算符、数组、函数)

一、运算符 运算符(operator)也被称为操作符,是用于实现赋值、比较和执行算数运算等功能的符号。 JavaScript中常用的运算符有: 算数运算符、递增和递减运算符、比较运算符、逻辑运算符、赋值运算符 算数运算符: 、-…

python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具

python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具 文章目录 python实战案例----使用 PyQt5 构建简单的 HTTP 接口测试工具项目背景技术栈用户界面核心功能实现结果展示完整代码总结 在现代软件开发中,测试接口的有效性与响应情况变得尤为重要。本文将指导…

网络安全之信息收集-实战-1

请注意,本文仅供合法和授权的渗透测试使用,任何未经授权的活动都是违法的。 实战:补天公益src“吉林通用航空职业技术学院” 奇安信|用户登录https://www.butian.net/Loo/submit?cid64918 域名或ip:https://www.jlth…

鸿蒙实战:使用隐式Want启动Ability

文章目录 1. 实战概述2. 实现步骤2.1 创建鸿蒙应用项目2.2 修改Index.ets代码2.3 创建LuzhouAbility2.4 创建Luzhou页面2.5 设置模块配置文件 3. 测试效果4. 实战总结 1. 实战概述 本次鸿蒙应用实战,先创建项目“ImplicitWantStartAbility”,接着修改In…

STM32低功耗设计NFC与无线距离感应智能钥匙扣-分享

目录 目录 前言 一、本设计主要实现哪些很“开门”功能? 二、电路设计原理图 1.电路图采用Altium Designer进行设计: 2.实物展示图片 三、程序源代码设计 四、获取资料内容 前言 智能钥匙扣作为一种小巧而实用的智能设备,凭借其便携性…

【Node.js】Node.js 和浏览器之间的差异

Node.js 是一个强大的运行时环境,它在现代 JavaScript 开发中扮演着重要角色。然而,许多开发者在使用 Node.js 时常常会感到困惑,尤其是与浏览器环境的对比。本文将深入探讨 Node.js 和浏览器之间的差异,帮助你全面理解两者的设计…

qt之telnet连接目标设备在线调试功能

一、前言 在QT下使用telnet连接目标设备,进行在线命令调试,也可配合ftp或ssh使用。 telnet某些库在qt5下不可用,无法获取登录信息,只能获取到连接信息,这里我用自己的方式判断是否成功登录 二、环境 window qt5.7…

小熊派Nano接入华为云

一、华为云IoTDA创建产品 创建如下服务,并添加对应的属性和命令。 二、小熊派接入 根据小熊派官方示例代码D6完成了小熊派接入华为云并实现属性上传命令下发。源码:小熊派开源社区/BearPi-HM_Nano 1. MQTT连接代码分析 这部分代码在oc_mqtt.c和oc_mq…

Hbuilder X/Uniapp 关于app运行调试及mumu模拟器运行问题

Hbuilder X 关于app调试问题及mumu模拟器链接问题 Hbuilder 关于app调试问题1. app运行配置2. adb路径配置3. 模拟器端口查询4. 运行 Hbuilder 关于app调试问题 1. app运行配置 Hbuilder > 工具 > 设置 > 运行配置 adb路径配置(见2) Android模…

MySQL-关键字执行顺序

&#x1f496;简介 在MySQL中&#xff0c;SQL查询语句的执行遵循一定的逻辑顺序&#xff0c;即使这些关键字在SQL语句中的物理排列可能有所不同。 &#x1f31f;语句顺序 (8) SELECT (9) DISTINCT<select_list> (1) FROM <left_table> (3) <join_type> JO…

【SpringBoot】26 实体映射工具(MapStruct)

Gitee 仓库 https://gitee.com/Lin_DH/system 介绍 现状 为了让应用程序的代码更易于维护&#xff0c;通常会将项目进行分层。在《阿里巴巴 Java 开发手册》中&#xff0c;推荐分层如下图所示&#xff1a; 每层都有对应的领域模型&#xff0c;即不同类型的 Bean。 DO&…

RPC-健康检测机制

什么是健康检测&#xff1f; 在真实环境中服务提供方是以一个集群的方式提供服务&#xff0c;这对于服务调用方来说&#xff0c;就是一个接口会有多个服务提供方同时提供服务&#xff0c;调用方在每次发起请求的时候都可以拿到一个可用的连接。 健康检测&#xff0c;能帮助从连…

Enterprise Architect 16 下载、安装与无限30天操作

文章目录 Enterprise Architect 16 简介&#xff08;一&#xff09;支持多种建模语言和标准&#xff08;二&#xff09;强大的版本控制、协作和文档管理功能&#xff08;三&#xff09;增强的技术和用户体验&#xff08;四&#xff09;高级功能和扩展性 一&#xff0c;下载软件…

小程序租赁系统开发为企业提供高效便捷的租赁服务解决方案

内容概要 在这个数字化飞速发展的时代&#xff0c;小程序租赁系统应运而生&#xff0c;成为企业管理租赁业务的一种新选择。随着移动互联网的普及&#xff0c;越来越多的企业开始关注如何利用小程序来提高租赁服务的效率和便捷性。小程序不仅可以为用户提供一个快速、易用的平…

定时器的小应用

第一个项目 第一步&#xff0c;RCC开启时钟&#xff0c;这个基本上每个代码都是第一步&#xff0c;不用多想&#xff0c;在这里打开时钟后&#xff0c;定时器的基准时钟和整个外设的工作时钟就都会同时打开了 RCC_APB1PeriphClockCmd(RCC_APB1Periph_TIM2, ENABLE);第二步&…

JVM--内存结构

目录 1. PC Register&#xff08;程序计数器&#xff09; 1.1 定义 1.2 工作原理 1.3 特点 1.4 应用 2.虚拟机栈 2.1定义与特性 2.2内存模型 2.3工作原理 2.4异常处理 2.5应用场景 2.6 Slot 复用 2.7 动态链接详解 1. 栈帧与动态链接 动态链接的作用&#xff1a…

一文读懂Redis6的--bigkeys选项源码以及redis-bigkey-online项目介绍

一文读懂Redis6的--bigkeys选项源码以及redis-bigkey-online项目介绍 本文分为两个部分&#xff0c;第一是详细讲解Redis6的--bigkeys选项相关源码是怎样实现的&#xff0c;第二部分为自己对--bigkeys源码的优化项目redis-bigkey-online的介绍。redis-bigkey-online是自己开发的…

Go语言跨平台桌面应用开发新纪元:LCL、CEF与Webview全解析

开篇寄语 在Go语言的广阔生态中&#xff0c;桌面应用开发一直是一个备受关注的领域。今天&#xff0c;我将为大家介绍三款基于Go语言的跨平台桌面应用开发框架——LCL、CEF与Webview&#xff0c;它们分别拥有独特的魅力和广泛的应用场景。通过这三款框架&#xff0c;你将能够轻…