数据关联分析用于挖掘数据对象之间的关系,例如啤酒和尿布的案例
一.基本概念
通过实例认识项集,支持度,频繁项集,关联规则,置信度,强关联规则,支持度,置信度
- 运动器的历史购买数据
TID | 网球拍 | 网球 | 运动鞋 | 羽毛球 |
---|---|---|---|---|
1 | 1 | 1 | 1 | 0 |
2 | 1 | 1 | 0 | 0 |
3 | 1 | 0 | 0 | 0 |
4 | 1 | 0 | 1 | 0 |
5 | 0 | 1 | 1 | 1 |
6 | 1 | 1 | 0 | 0 |
- TID: 表示每一次购物单的序号
- 0和1: 表示是否在本购物单中存在该商品
符号设置:
- D: 交易数据库,实例中的表格
- T: 每次交易事务,实例中一列的购买数据
- I: 项的集和{I1,I2,…,In}
1.项集概念
项集: 在集和中,包含k个项的集和称为k项集
- 实例如下
TID | 集和 | 项集 |
---|---|---|
1 | {网球拍,网球,运动鞋} | 3项集 |
2 | {网球拍,网球} | 2项集 |
3 | {网球拍,} | 1项集 |
4 | {网球拍,运动鞋} | 2项集 |
5 | {网球,运动鞋,羽毛球} | 3项集 |
6 | {网球拍,网球} | 2项集 |
2.关联规则
A=网球拍,B=网球
p ( A = > B ) = p ( A B ) = c o u n t ( A U B ) ∣ D ∣ p(A=>B)=p(AB)=\frac{count(AUB)}{|D|} p(A=>B)=p(AB)=∣D∣count(AUB)
3.支持度和置信度概念
支持度: 表示数据集D中出现项集A的概率
公 式 : s u p p o r t ( A ⊆ T ) = c o u n t ( A b a o h a n ) ∣ D ∣ 公式: support(A⊆T)=\frac{count(Abaohan)}{|D|} 公式:support(A⊆T)=∣D∣count(Abaohan)
置信度: 表示关联规则前价出现时后价查询的概率。
s u p p o r t ( A = > B ) = c o u n t ( A ∪ B ) ∣ D ∣ support(A=>B)=\frac{count(A∪B)}{|D|} support(A=>B)=∣D∣count(A∪B)
- 实例如下
探究网球拍和网球的支持度
设x=买网球拍事务集,y=买网球事务集
求p(x=>y)=p(xy)
x=5,y=4,x∪y=3,D=6
支 持 度 : x ∪ y ∣ D ∣ = 3 / 6 = 0.5 支持度:\frac{x∪y}{|D|}=3/6=0.5 支持度:∣D∣x∪y=3/6=0.5
置 信 度 : x ∪ y x = 3 / 5 = 0.6 置信度:\frac{x∪y}{x}=3/5=0.6 置信度:xx∪y=3/5=0.6
4.频繁项集
自行数组阈值,若支持度>=阈值就是频繁项集
设阈值为=0.4
p(网球拍=》网球)支持度=0.5 是频繁
p(网球拍=》运动鞋)支持度=0.33 不是频繁
5.超项集
S1={ABC} ,S2={ABC?} ,?: 量子叠加态
- S1中所有元素在S2中存在
- S2可能包含S1中没有的元素
S2是S1的超项集
S1是S2的子集
6.闭频繁集
?: 量子叠加态
S1 | BC |
S2 | ABCD |
S3 | BCD |
S4 | AD |
S2是S1的超项集
S1支持度=3/4
S2支持度=1/4
S1!=S2则S1是闭项集
若S1>阈值S1是闭频繁集
7.极大频繁集
S1 | BC |
S2 | ABCD |
S3 | BCD |
S4 | AD |
阈值=0.6
- S1的所有真超项集:S2,S3。
- S1是频繁项集,S2不是频繁项集S3不是频繁项集
- S1是极大频繁项集。声明S1项集进一步扩展就不是频繁项集
S 1 ⊆ S 1 所 有 的 真 超 项 集 , S 1 是 频 繁 项 集 , S 1 所 有 的 真 超 项 集 不 是 频 繁 项 集 , S 1 是 极 大 频 繁 项 集 S_1⊆S_1所有的真超项集,S_1是频繁项集,S_1所有的真超项集不是频繁项集,S_1是极大频繁项集 S1⊆S1所有的真超项集,S1是频繁项集,S1所有的真超项集不是频繁项集,S1是极大频繁项集
8.反单调性
若项集A是频繁项集,则其所有子集为频繁项
若项集A不是频繁项集,则A所有超项集为不频繁项集
9.APriori算法
- 连接步:
- 减枝步:
示例
S1 | ABC |
S2 | BCD |
S3 | CE |
S4 | ABC |
阈值=0.3
N项集 | N=1 | N=2 | N=3 |
---|---|---|---|
频繁项集 | {A}{B}{C}{D} | {AC}{BC} | {ABC} |