数据挖掘——关联规则挖掘

数据挖掘——关联数据挖掘

  • 关联数据挖掘
    • 关联规则
    • 关联规则挖掘问题:
    • 具体挖掘过程
      • Apriori
    • 产生关联规则

关联数据挖掘

关联分析用于发现隐藏在大型数据集中的令人感兴趣的联系,所发现的模式通常用关联规则或频繁项集的形式表示。

关联规则反映一个事物与其它事物之间的相互依存性和关联性。如果两个或者多个事物之间存在一定的关联关系,那么,其中一个事物发生就能够预测与它相关联的其它事物的发生。
在这里插入图片描述
定义:频繁项集

项集(Itemset)

  • 包含0个或多个项的集合
    • 例子:{Milk, Bread, Diaper}
  • k-项集
    • 如果一个项集包含k个项

支持度计数(Supportcount)( σ \sigma σ)

  • 包含特定项集的事务个数
  • 例如: σ \sigma σ({Milk,Bread,Diaper}) = 2

支持度(Support)

  • 包含项集的事务数与总事务数的比值
  • 例如: s({Milk,Bread, Diaper}) = 2/5

频繁项集(FrequentItemset)

  • 满足最小支持度阈值(minsup )的所有项集

频繁闭项集

  • 所谓闭项集,就是指一个项集X,它的直接超集的支持度计数都不等于它本身的支持度计数。如果闭项集同时是频繁的,也就是它的支持度大于等于最小支持度阈值,那它就称为闭频繁项集。

最大频繁项集
最大频繁项集是这样的频繁项集,它的直接超集都不是频繁的
在这里插入图片描述

关联规则

关联规则是形如X →Y的蕴含表达式, 其中 X 和 Y 是不相交的项集

  • 例子:{Milk, Diaper} →{Beer}

关联规则的强度

  • 支持度 Support (s)
    确定项集的频繁程度
  • 置信度 Confidence (c)
    确定Y在包含X的事务中出现的频繁程度

在这里插入图片描述

关联规则挖掘问题:

给定事务的集合 T, 关联规则发现是指找出支持度大于等于minsup并且置信度大于等于minconf的所有规则, minsup和minconf是对应的支持度和置信度阈值

具体挖掘过程

大多数关联规则挖掘算法通常采用的一种策略是,将关联规则挖掘任务分解为如下两个主要的子任务:

  • 频繁项集产生(Frequent Itemset Generation)
    • 其目标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。
  • 规则的产生(Rule Generation)
    • 其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则(strong rule)。

降低产生频繁项集计算复杂度的方法

  1. 减少候选项集的数量
    • 先验原理:(Apriori)
  2. 减少比较的次数
    • 替代将每个候选项集与每个事务相匹配,可以使用更高级的数据结构,或存储候选项集或压缩数据集,来减少比较次数(FPGrowth)

Apriori

先验原理

  • 如果一个项集是频繁的,则它的所有子集一定也是频繁的
  • 相反,如果一个项集是非频繁的,则它的所有超集也一定是非频繁的

在这里插入图片描述
需要一提的是Apriori中所运用到的项的连接准则:

项的连接准则:去掉尾项之后如果二者一样则可以连接
例如本例中{A,C},{B,C},{B,E},{C,E}四者,只有{B,C},{B,E},两者去掉尾项后的B是相等的,所以是可以连接的{B,C,E}

Apriori算法特点

优点

  • 使用先验性质,大大提高了频繁项集逐层产生的效率
  • 简单易理解;数据集要求低

缺点

  • 多次扫描数据库
  • 候选项规模庞大
  • 计算支持度开销大

Apriori算法需要反复的生成候选项,如果项的数目比较大,候选项的数目将达到组合爆炸式的增长

提高Apriori算法性能的方法
在这里插入图片描述

产生关联规则

任务描述:给定频繁项集Y, 查找Y的所有非空真子集 X ∈ Y X \in Y XY,使得 X → Y – X X \rightarrow Y –X XYX 的置信度超过最小置信度阈值minconf

  • 例子:If {A,B,C} is a frequent itemset, 候选规则如下:
    A B → C A → B C A C → B B → A C B C → A C → A B AB \rightarrow C\\ A\rightarrow BC\\ AC \rightarrow B\\ B \rightarrow AC\\ BC \rightarrow A\\ C \rightarrow AB ABCABCACBBACBCACAB
    如果 |Y| = k, 那么会有 2k–2 个候选关联规则 (不包括 Y → ∅ 、 ∅ → Y Y→\emptyset、 \empty →Y YY

如何高效地从频繁项集中产生关联规则?

  • 通常置信度不满足反单调性(anti-monotone property ),例如:
  • c(ABC →D) 可能大于也可能小于 c(AB →D)
  • 但是,针对同一个频繁项集的关联规则,如果规则的后件满足子集关系,那么这些规则的置信度间满足反单调性
  • e.g., Y = A , B , C , D c ( A B C → D ) ≥ c ( A B → C D ) ≥ c ( A → B C D ) Y= {A,B,C,D}\\ c(ABC → D) \geq c(AB → CD) \geq c(A → BCD) Y=A,B,C,Dc(ABCD)c(ABCD)c(ABCD)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/501747.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

启航数据结构算法之雅舟,悠游C++智慧之旅——线性艺术:顺序表之细腻探索

人无完人,持之以恒,方能见真我!!! 共同进步!! 文章目录 一、线性表的概念二、顺序表1.概念与结构2.顺序表的分类静态顺序表动态顺序表 三、顺序表的实现1.顺序表的结构2.顺序表的初始化和销毁初…

数据库进阶教程之DDL语句(万字详解)

文章目录 一、数据库操作-上1.1、DDL概述1.2、创建数据库1.3、查看数据库 二、数据库操作-下2.1、修改数据库2.2、删除数据库2.3、使用数据库 三、数据库表操作-上3.1、创建表3.2、数据类型(mysql)3.3、查看表 四、数据库表操作-中4.1、快速建表4.2、删除…

自动驾驶三维重建

大概八成估计是未来的科研方向了 文章目录 自动驾驶中的NeRF[4]CLONeR:Urban Radiance Fields[6]S-NERFBlock-NeRFSwitch-NeRFSceneRFBehind the Scenes 大规模与自动驾驶场景重建:3D高斯VastGaussianPeriodic Vibration Gaussian(复旦大学)…

OWASP ZAP之API 请求基础知识

ZAP API 提供对 ZAP 大部分核心功能的访问,例如主动扫描器和蜘蛛。ZAP API 在守护进程模式和桌面模式下默认启用。如果您使用 ZAP 桌面,则可以通过访问以下屏幕来配置 API: Tools -> Options -> API。 ZAP 需要 API 密钥才能通过 REST API 执行特定操作。必须在所有 …

【小程序开发】- 小程序版本迭代指南(版本发布教程)

一,版本号 版本号是小程序版本的标识,通常由一系列数字组成,如 1.0.0、1.1.0 等。版本号的格式通常是 主版本号.次版本号.修订号 主版本号:当小程序有重大更新或不兼容的更改时,主版本号会增加。 次版本号&#xff1a…

电子应用设计方案85:智能 AI门前柜系统设计

智能 AI 门前柜系统设计 一、引言 智能 AI 门前柜系统旨在提供便捷、安全和智能的物品存储与管理解决方案,适用于家庭、公寓或办公场所的入口区域。 二、系统概述 1. 系统目标 - 实现无接触式物品存取,减少交叉感染风险。 - 具备智能识别和分类功能&am…

CG顶会论文阅读|《科技论文写作》硕士课程报告

文章目录 一、基本信息1.1 论文基本信息1.2 课程基本信息1.3 博文基本信息 二、论文评述(中英双语)2.1 研究问题(Research Problem)2.2 创新点(Innovation/Contribution)2.3 优点(Why this pape…

Deepseek v3 的笔记

基本概述 Deepseek v3是Deepseek发布的旗舰模型,属于607B的混合专家(MoE)模型,其中活跃参数为37B。在当前的模型领域,它堪称最佳的开源模型,性能超越了Llama 3.1 405b、Qwen和Mistral等知名模型。根据基准…

基于单片机的家庭智能垃圾桶(论文+源码)

1系统整体方案设计 本次课题为基于单片机的家庭智能垃圾桶,在此将目标功能设计如下: (1)实现垃圾桶的智能开关盖当检测到有人停留三秒以上自动开启,并当人走后自动关闭开关盖; (2&#xff0…

Niushop商城商业插件_cps联盟_包装转换_视频购物_同城配送_上门预约等插件的安装方法

一.简介 使用Niushop已经多年,积累下很多有用的常识,有人让我评价下这个系统!怎么说呢!系统是好系统因为它开源!且更新也很及时几乎是一周一更新,开发团队也很尽职,在用户群内得到很高的评价&am…

一文讲清楚HTTP常见的请求头和应用

文章目录 一文讲清楚HTTP常见的请求头和应用1. 啥是个HTTP请求头2. 常见的请求头,作用和示例3.协商缓存4.会话状态 一文讲清楚HTTP常见的请求头和应用 1. 啥是个HTTP请求头 一句话,说白了就是限定HTTP传输的一些规则参数,比如Accept&#xf…

vim 的基础使用

目录 一:vim 介绍二:vim 特点三:vim 配置四:vim 使用1、vim 语法格式2、vim 普通模式(1)保存退出(2)光标跳转(3)文本删除(4)文本查找&…

RocketMQ面试题:进阶部分

🧑 博主简介:CSDN博客专家,历代文学网(PC端可以访问:https://literature.sinhy.com/#/?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编…

设计模式之桥接设计模式

简介 与适配器模式类似,桥接设计模式也是结构型模式将抽象部分与实现部分分离,使它们都可以独立的变化通俗来说,是通过组合来桥接其它的行为/维度 应用场景举例 传统方式 使用桥接设计模式之后 编码示例 /*** 抽象角色:手机*/ …

个人健康信息系统|Java|SSM|VUE| 前后端分离

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、VUE、jquery,html 5⃣️数据库可…

个人交友系统|Java|SSM|JSP|

【技术栈】 1⃣️:架构: B/S、MVC 2⃣️:系统环境:Windowsh/Mac 3⃣️:开发环境:IDEA、JDK1.8、Maven、Mysql5.7 4⃣️:技术栈:Java、Mysql、SSM、Mybatis-Plus、JSP、jquery,html 5⃣️数据库可…

每天40分玩转Django:Django Celery

Django Celery 一、知识要点概览表 模块知识点掌握程度要求Celery基础配置、任务定义、任务执行深入理解异步任务任务状态、结果存储、错误处理熟练应用周期任务定时任务、Crontab、任务调度熟练应用监控管理Flower、任务监控、性能优化理解应用 二、基础配置实现 1. 安装和…

canvas+fabric实现时间刻度尺+长方形数据展示

前言 我们前面实现了时间刻度尺&#xff0c;现在在时间刻度尺里面画一个长方形&#xff0c;长方形里面有数据展示。 效果 实现 1.先实现时间刻度尺 2.鼠标移动、按下事件监听并画出对应效果 3.在刻度尺里面画对应的长方形数据展示 <template><div><canvas…

网络安全【C10-2024.10.1】-sql注入基础

1、利用宽字节注入实现“库名-表名”的注入过程&#xff0c;写清楚注入步骤&#xff1b; 宽字节概念 1、如果一个字符的大小是一个字节的&#xff0c;称为窄字节&#xff1b; 2、如果一个字符的大小是两个及以上字节的&#xff0c;称为宽字节&#xff1b;像GB2312、GBK、GB1803…

【Domain Generalization(2)】领域泛化在文生图领域的工作之——PromptStyler(ICCV23)

系列文章目录 【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解第一篇大概了解了 DG 的概念&#xff0c;那么接下来将介绍 DG 近年在文生图中的应用/代表性工作。本文介绍的是 PromptStyler: Prompt-driven Sty…