数据挖掘(四)
文章目录
- 数据挖掘(四)
- 亲和性分析
- 电影推荐问题
- Apriori算法的实现
- 抽取关联规则
本文介绍如何使用亲和性分析方法找出在什么情况下两个对象经常一起出现(购物篮分析),数据挖掘任务的目标是找出对象同时出现的情况,也就是寻找用户同时喜欢几部电影的情况。
亲和性分析
亲和性分析用来找出两个对象共同出现的情况,使用的数据通常类似于交易信息的数据。从直观上来看,这些数据就像是商店的交易数据,我们可以从中看出哪些商品是顾客一起购买的,应用场景有欺诈检测、顾客区分、软件优化和产品推荐等。亲和性分析比分类更具有探索性,因为通常我们无法拿到像在很多分类任务中所用的那样完整的数据集。比如在电影推荐任务中,我们拿到的是不同用户对不同电影的评价,但每个用户不可能评价过所有电影,如果用户没有评价过一部电影,是因为不喜欢还是出于其他原因还没有评价?我们要思考类似这样的潜在问题要怎么样解决。
- 在之前的基础的亲和性分析算法中,尝试了所有可能的规则组合,计算了每条规则的置信度和支持度,并根据这两个标准进行排序,选取最佳规则。然而这个方法效率不高。好在所用的数据集每条交易数据只涉及五种商品,但现实中即便是小卖铺出售的商品也达上百种之多。随着商品数量的增加,计算所有规则需要的时间增长得很快。所有可能的规则数量是2的n次幂-1。数据集有5个特征,可能的规则就有31条。
- Apriori算法是经典的亲和性分析算法,只从数据集中频繁出现的商品中选取出现的商品组成频繁项集,避免了上述复杂度呈指数级增长的问题。一旦找到频繁项集,生成关联规则就容易了。首先确保了规则在数据集中有足够的支持度,一个重要参数就是最小支持度。生成频繁项集后,将不再考虑其他可能的却不够频繁的项集,从而减少测试新规则所需要的时间。此外还有Eclat和频繁项集挖掘算法FP-growth,这些算法较Apriori算法有很多改进,性能也进一步提升。
- 挖掘亲和性分析所用的关联规则之前,我们先用Apriori算法生成频繁项集,然后通过检测频繁项集中前提和结论的组合,生成关联规则。第一个阶段需要为Apriori算法指定一个项集要成为频繁项集所需要的最小支持度。任何小于最小支持度的项集将不再考虑。如果最小支持度过小,算法需要检测大量的项集,会拖慢的运行速度。第二阶段是根据置信度选取关联规则,可以设定最小置信度,返回一部分规则,或返回所有规则让用户自己选。
电影推荐问题
产品推荐技术是门大生意。网点经常用它向潜在用户推荐他们可能购买的产品。好的推荐算法能够带来更高的销售业绩。
- 获取数据集,自从Netflix Prize奖项设立以来,Grouplens研究团队公开了一系列用于测试推荐算法的数据集。其中包括几个大小不同的电影评分数据集,分别有10万、100万和1000万条电影评分数据。我们使用包含10万条数据的MovieLens数据集,下载数据集好解压到当前文件夹。
import os
import pandas as pd
data_folder = os.path.join(os.getcwd(), 'ml-latest-small')
ratings_filename = os.path.join(data_folder, 'ratings.csv')
# 数据集有表头看可以直接读取解析时间戳数据
all_ratings = pd.read_csv(ratings_filename)
all_ratings['timestamp'] = pd.to_datetime(all_ratings['timestamp'], unit='s')
print(all_ratings[:5])
- 稀疏数据格式,我们可以将稀疏数据集每一行看成巨大特征矩阵的一个格子,在矩阵中每一行表示一个用户,每一列为一部电影。第一列为每个用户给第一部电影的打分,第二列为第一个用户给第二部电影的打分,依此类推。数据集中有很多用户和电影,也就是说矩阵很大,如果把矩阵读到内存中及在它基础上进行计算可能存在难度。然而这个矩阵的很多格子都是空的。
- 任何没有出现在数据集中的用户和电影组合表示它们实际上是不存在的。如果数据集中60%或以上的数据为0,就应该考虑使用稀疏矩阵,从而节省不少的空间。在对系数矩阵进行计算时,我们关注的时现有数据并对它们进行比较。
Apriori算法的实现
- 作为规则“如果用户喜欢某些电影,那么他们也会喜欢这部电影”的扩展,我们可以讨论喜欢某几部电影的用户是否喜欢另一部电影。首先要确定用户是不是喜欢某一部电影。从数据集中选取一部分数据用作训练集,能有效减少搜索空间,提升Apriori算法的速度。
all_ratings['Favorable'] = all_ratings['rating'] > 3
# 取前200名用户的打分数据
ratings = all_ratings[all_ratings['userId'].isin(range(200))]
# 只包括用户喜欢某部电影的数据行
favorable_ratings = ratings[ratings['Favorable']]
# 生成项集时需要搜索用户喜欢的电影,按照userId分组,获取每个用户喜欢哪些电影
favorable_reviews_by_users = dict((k, frozenset(v.values)) for k, v in favorable_ratings.groupby('userId')['movieId'])
# 获取每部电影的影迷数量
num_favorable_by_movie = ratings[['movieId', 'Favorable']].groupby('movieId').sum()
# 查看最受欢迎的五部电影
num_favorable_by_movie.sort_values('Favorable', ascending=False)[:5]
- Apriori算法是亲和性分析的一部分,专门用于查找数据集中的频繁项集。基本流程是从前一步找到频繁项集中找到新的备选集合,接着检测备选集合的频繁程度是否够高,然后算法像下面这样进行迭代。