目录
基本概念
评估指标
支持度
置信度
提升度
规则发现
Apriori算法
原理
案例
Python中实现Apriori算法
FP-Growth
案例
Python中实现FP-Growth
模拟题
CDA LEVEL III 模拟题(一)
CDA LEVEL III 模拟题(二)
Apriori算法是一种经典的关联规则数据挖掘算法,主要用于在给定数据集中发现频繁项集和关联规则。该算法最早是由Rakesh Agrawal等人在1993年提出的。最初提出的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。这些规则可以刻画顾客的购买行为模式,对于商家来说,可以用来指导科学地安排进货、库存以及货架设计等。Apriori算法的名字来源于算法基于先验知识(prior knowledge)来压缩搜索空间,提高算法效率。
基本概念
由于Apriori算法最初提出的动机是是为了发现交易数据库中不同商品之间的联系规则。所以其很多概念都和数据库记录有关。如图:
图中是数据库中的一些交易记录。
(1)事务:每一行表示一次交易,称为事务(Transaction),记作