案例来源:@Bowen Du
案例地址:http://www.kdd.org/kdd2016/papers/files/adf0629-duA.pdf
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 目标:根据公交卡出行记录识别小偷
2. 数据:
1)automated fare collection (AFC) systems的数据集(即北京智能公交一卡通数据),包括地铁与公交刷卡记录,在2014年4-6月共有600w用户的16亿条记录
2)根据新浪微博搜索,匹配到一些小偷的公交卡id
3)各个站点附近的POI数据,将其划入home、word、education等类别
3. 特征提取
1)出行时间
2)出行频率
3)短途出行占比(<3站的出行次数占所有出行次数的比例):因为小偷会经常换路线避免被乘客抓到
4)出行模式:大部分出行都是有模式的,如早高峰是 住宅区→中转站→工作区,而小偷的出行会缺乏这种模式
5)高频访问地图:一些地区容易偷窃,而且小偷也喜欢在自己熟悉的区域下手
6)与常规出行的背离程度:给定出发点和目的,大部分人的路线差别不大,一般是距离最短或者时间最短,而小偷则不符合这个模式
7)历史行为:七日历史行为的中位数、平均数等
4. 识别小偷:因为正例负例规模差距大,一些监督学习算法会有苦难;使用无监督学习方法,容易产生大量误报
1)无监督学习:采用无监督学习做异常检测,如果是正常样本,则过滤掉,下一步骤中只对可能的异常样本做检测。这里采用正常的用户行为做one-class SVM,实现无监督的异常检测
2)有监督学习:缩小了样本后,征服例比例规模差距缩小,因此可以做有监督学习。这里采用SVM做有监督学习
5. 效果