四.数据关联性分析

数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例

一.基本概念

通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度

  • 运动器的历史购买数据
TID网球拍网球运动鞋羽毛球
11110
21100
31000
41010
50111
61100
  • TID: 表示每一次购物单的序号
  • 0和1: 表示是否在本购物单中存在该商品

符号设置:

  • D: 交易数据库,实例中的表格
  • T: 每次交易事务,实例中一列的购买数据
  • I: 项的集和{I1,I2,…,In}

1.项集概念

项集: 在集和中,包含k个项的集和称为k项集

  • 实例如下
TID集和项集
1{网球拍,网球,运动鞋}3项集
2{网球拍,网球}2项集
3{网球拍,}1项集
4{网球拍,运动鞋}2项集
5{网球,运动鞋,羽毛球}3项集
6{网球拍,网球}2项集

2.关联规则

A=网球拍,B=网球
p ( A = > B ) = p ( A B ) = c o u n t ( A U B ) ∣ D ∣ p(A=>B)=p(AB)=\frac{count(AUB)}{|D|} p(A=>B)=p(AB)=Dcount(AUB)

3.支持度和置信度概念

支持度: 表示数据集D中出现项集A的概率
公 式 : s u p p o r t ( A ⊆ T ) = c o u n t ( A b a o h a n ) ∣ D ∣ 公式: support(A⊆T)=\frac{count(Abaohan)}{|D|} :support(AT)=Dcount(Abaohan)
置信度: 表示关联规则前价出现时后价查询的概率。
s u p p o r t ( A = > B ) = c o u n t ( A ∪ B ) ∣ D ∣ support(A=>B)=\frac{count(A∪B)}{|D|} support(A=>B)=Dcount(AB)

  • 实例如下
    探究网球拍和网球的支持度
    x=买网球拍事务集,y=买网球事务集求p(x=>y)=p(xy)
    x=5,y=4,x∪y=3,D=6
    支 持 度 : x ∪ y ∣ D ∣ = 3 / 6 = 0.5 支持度:\frac{x∪y}{|D|}=3/6=0.5 :Dxy=3/6=0.5
    置 信 度 : x ∪ y x = 3 / 5 = 0.6 置信度:\frac{x∪y}{x}=3/5=0.6 :xxy=3/5=0.6

4.频繁项集

自行数组阈值,若支持度>=阈值就是频繁项集
设阈值为=0.4
p(网球拍=》网球)支持度=0.5 是频繁
p(网球拍=》运动鞋)支持度=0.33 不是频繁

5.超项集

S1={ABC} ,S2={ABC?} ,?: 量子叠加态

  • S1中所有元素在S2中存在
  • S2可能包含S1中没有的元素

S2是S1的超项集
S1是S2的子集

6.闭频繁集

?: 量子叠加态

S1BC
S2ABCD
S3BCD
S4AD

S2是S1的超项集
S1支持度=3/4
S2支持度=1/4
S1!=S2则S1是闭项集
若S1>阈值S1是闭频繁集

7.极大频繁集

S1BC
S2ABCD
S3BCD
S4AD

阈值=0.6

  • S1的所有真超项集:S2,S3
  • S1是频繁项集,S2不是频繁项集S3不是频繁项集
  • S1是极大频繁项集。声明S1项集进一步扩展就不是频繁项集
    S 1 ⊆ S 1 所 有 的 真 超 项 集 , S 1 是 频 繁 项 集 , S 1 所 有 的 真 超 项 集 不 是 频 繁 项 集 , S 1 是 极 大 频 繁 项 集 S_1⊆S_1所有的真超项集,S_1是频繁项集,S_1所有的真超项集不是频繁项集,S_1是极大频繁项集 S1S1S1,S1,S1

8.反单调性

若项集A是频繁项集,则其所有子集为频繁项
若项集A不是频繁项集,则A所有超项集为不频繁项集

9.APriori算法

  • 连接步:
  • 减枝步:

示例

S1ABC
S2BCD
S3CE
S4ABC

阈值=0.3

N项集N=1N=2N=3
频繁项集{A}{B}{C}{D}{AC}{BC}{ABC}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/63325.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

不同数据类型的相关性分析总结

在进行数据建模之前,我们一般会进行数据探索和描述性分析,发现数据规律及数据之间的相关性,本文主要从检验方法和可视化图形两个方面对不同数据类型的相关性分析方法进行总结,以加强对数据的了解和认识,为建模打下基础…

(9)数据分析-相关性分析

文章目录 1、运用场景2、图形描述相关性2.1使用场景2.2 代码实现2.3 效果呈现 3、正态资料相关性分析3.1 使用场景3.2 皮尔森相关系数3.3 代码实现3.4 结果分析 4、非正太资料的相关分析4.1 使用场景4.2 斯皮尔曼等级相关系数4.3 代码实现4.4 结果分析 1、运用场景 相关性分析是…

数据分析之数据相关性分析

相关性分析 作者:学者科技 时间:2022/12/25 应用场景 发现数据之间的关联性 比如 啤酒 和 尿布 删减统计指标 比如 城市里的温度传感器,相关性强的可以去掉以节约成本 挑选回归建模的变量 选择与因变量相关性高的自变量自变量间如果有高度…

数据特征分析技能—— 相关性检验

数据特征分析技能—— 相关性检验 相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度 一般常用四种方法: - 画图判断 - pearson(皮尔逊)相关系数 - sperman(斯皮尔曼&a…

印刷品的排版技巧

印刷品的精美离不开精美的排版,排版设计能够让书本杂志标题规整好看。随着设计素材的丰富,现在设计师可以有越来越多的选择,不过有时候过多的元素在设计并不能起到画龙点睛的作用,相反经常会发现一些排版设计十分杂乱,…

微信公众号排版方法及相关素材网站

作者:杨坤龙 链接:https://www.zhihu.com/question/23640203/answer/375921114 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 关于排版 前段时间我发了条朋友圈:有哪些东西是你…

关于文案排版的一些基本技巧

一、主文案 1. 什么是主文案 关于首页,会涉及到主文案,副文案,装饰性文案等。一个文案中最重要的是主文案,所谓主文案就是你想突出什么,什么就是主文案,主文案一般就是口号类的,标语&#xff0c…

一些实用排版工具

三年前我什么都不懂的时候,就听闻了高大上的LaTeX,还去听了图书馆某工科博士开的LaTeX入门讲解,听的天花乱坠毫无头绪,回去兴冲冲地装上,运行,出现bug,然后傻眼了,解决不了&#xff…

【工具】用PPT排版打印海报时图片分辨率问题

版本:PPT 2013 PPT用来排版做海报也许不是那么好,但是可以用,也方便。【工具】PPT插入高清图片保存后图片变模糊的解决方法,这里解决了高清图片在PPT中被压缩的问题,但用PPT打印还会碰到问题。 将PPT打印为pdf时&…

135编辑器点击换图html,这5种换图姿势,只有排版高手才会!

换图教程 胖友们,欢迎来看二条! 最近客服小姐姐一直催我写一篇关于换图的教程,我就不明白了!去年答应你的事,我怎么能拖那么久...你怎么还记得那么清楚! 好吧,教程开始。 135编辑器给图片/图片样…

ChatGLM的搭建过程

本次搭建的是清华大学开源的ChatGLM。源码地址。模型地址。 1、开启BBR加速 如何开启BBR加速可以去看我的这篇文章,Linux开启内核BBR加速。 2、拉取ChatGLM源码和ChatGLM模型 点击这里跳转到源码处。 点击这里跳转到模型下载处。 我这里在下载之前创建了一个目…

道指30只成分股的股价及历史股价抓取分析

1.获取数据: 想要获得道指30只成分股的最新股价 import requests import re import pandas as pddef retrieve_dji_list():try:r requests.get(https://money.cnn.com/data/dow30/)except ConnectionError as err:print(err)search_pattern re.compile(class"wsod_sym…

短信验证码接口的实现

代码: sendsms.java //接口类型:互亿无线触发短信接口,支持发送验证码短信、订单通知短信等。 // 账户注册:请通过该地址开通账户http://sms.ihuyi.com/register.html // 注意事项: //(1)调试…

交友项目【手机号验证码发送】功能实现

目录 1:注册登录需求分析 1.1:业务说明 1.2:需求分析 1.3:数据库表 1.4:实体类 2:发送短信验证码 2.1:登录验证码 2.2:接口说明 2.3:流程分析 2.4:…

免费的短信验证码接口

免费的短信验证码接口 改了唯ID的东西,大家可以用来玩玩,该服务明年6月到期,也希望大家能文明使用! 不说废话了,直接上接口。 1、发送短信验证码接口 POST http://sms.usts.top/sms/sendCode?phone手机号2、…

短信验证码平台有哪些比较好用?

现如今,要想分辨短信验证码平台哪些比较好用,需要从速度、到达率、稳定性等几个方面来决定。短信验证码平台是很讲究时效性,所以速度快、到达率高是很关键的。另外,在选择短信验证码平台的时候,还要注意短信发送、接收…

短信验证码的实现

需求 发送验证码短信然后接收验证码再完成注册 具体操作 1>点击"获取验证码"的按钮,会发送sendVerifyCode的异步请求并带上参数phone(number) 查看前端代码html 查看对应的js代码 2>后端接口的实现 接口接收请求,获取到手机号,生成验证码code,拼接出短信,并…

目前可以用的短信验证码平台哪个比较好?

目前短信验证码大家应该都很熟悉了,尤其当你在一些购物网站等注册会员或者修改信息时都需要验证码。而短信验证码是商家为了降低重复注册或者非法注册,就需要短信验证码来帮忙用户的真实性。那么,目前可以用的短信验证码平台哪个比较好呢&…

短信验证码登录的实现

原理说明开发环境具体实现过程 原理说明 在网站登录时经常会遇到短信验证码登录的情况,其原理如下:首先我们需要一个短信发送接口,前端发送手机号码到后端,后端随机生成一个验证码并存入redis,并且设置该key的过期时间。(这里可以…

低代码真的是“行业毒瘤”?

低代码/零代码到底是“行业毒瘤”还是“大势所趋”?碰瓷“码农”万年户,低代码火了这些年,你还觉得是毒瘤吗? 低代码/零代码作为比较有争议的话题,常年被拿来碰瓷码农,也是很多行业大佬关注的对象。 阿里云…