数据分析案例(三):基于RFM分析的客户分群

实验2 基于RFM分析的客户分群

Tips:"分享是快乐的源泉💧,在我的博客里,不仅有知识的海洋🌊,还有满满的正能量加持💪,快来和我一起分享这份快乐吧😊!

喜欢我的博客的话,记得点个红心❤️和小关小注哦!您的支持是我创作的动力!"

一、实验目的

1掌握RFM分析方法和k-means聚类的方法,能够进行价值识别

2掌握Python 聚类的方法

3.EM聚类(基于高斯混合模型的EM聚类)

二、知识准备

RFM模型是衡量客户价值和客户创利能力的重要工具和手段。在客户分类中,RFM模型是一个经典的分类模型利用通用交易环节中最核心的三个维度——最近消费(Recency)、消费频率(Frequency)、消费金额(Monetary)细分客户群体,从而分析不同群体的客户价值。

三、实验准备

1.使用算法:RFM模型、聚类算法

2. 数据来源

RFM数据集为英国在线零售商在2010年12月1日至2011年12月9日间发生的所有网络交易订单信息。该公司主要销售礼品为主,并且多数客户为批发商。

数据集介绍及来源:

https://www.kaggle.com/carrie1/ecommerce-data

https://archive.ics.uci.edu/ml/datasets/online+retail#

特征说明:

InvoiceNo:订单编号,由六位数字组成,退货订单编号开头有字母C

StockCode:产品编号,由五位数字组成

Description:产品描述

Quantity:产品数量,负数表示退货

InvoiceDate:订单日期与时间

UnitPrice :单价(英镑)

CustomerID:客户编号,由5位数字组成

Country:国家2. 操作环境

"This is a transnational data set which contains all the transactions occurring between 01/12/2010 and 09/12/2011 for a UK-based and registered non-store online retail.The company mainly sells unique all-occasion gifts. Many customers of the company are wholesalers."

3.后续学习:客户分类

Customer Segmentation | Kaggle

四、实验步骤

1、提出问题,确定目标

对。。。。。客户数据,探讨如何利用KMeans算法(EM聚类)对客户群体进行细分,以及细分后如何利用RFM模型对客户价值进行分析,并识别出高价值客户。主要希望实现以下三个目标:

1)对客户进行群体分类

2)对不同的客户群体进行特征分析,比较各细分群体的客户价值

3)对不同价值的客户制定相应的运营策略

2、数据获取

3、数据预处理

数据清洗缺失值异常值

变量转换、属性规约、标准化处理

(1)删除重复值

(2)查看缺失值比例

(3)删除缺失值严重的列

(4)删除订单异常值

根据官网https://www.kaggle.com数据介绍,InvoiceNo如果前缀是C,则表示退单号,且此时的Quantity(数量)是负数,因此需要删除这些数据!

(5)属性规约

(6)变量转换

(7)RFM——计算逻辑

R:最近一次购买时间R(Recency)

F:购买频率F(Frequency)

M:购买金额M(Money)

4、数据探索性分析(可视化显示)

(1)RFM-数量-季度,三维分析

(2)RFM组别数量关系

3RFM组别比例关系

(4)RFM字段相关性系数

5、建立模型和评价模型(聚成几类,效果好),聚类可视化

(1)数据提取

(2)数据标准化

(3)肘部法确定k值

(4)建立模型和评估模型

(5)聚类可视化

6、模型应用

会员升级?===============> 我觉得需要关注会员群体的比例!

积分兑换?===============> 普通群体也可以给少量积分兑换机制!

交叉销售?===============> 推荐的产品,可从rfm中r占比大的群体!

7、拓展思考(不用做)

本实验只针对客户价值进行分析,但客户流失并没有提出具体的分析,对客户流失有兴趣的,自己查阅资料学习

五、实验问题和体会

1、实验总结

        在本次实验过程中,由于本人想要探究RFM-季度-数量之间的关系,而数据集是2010年12月1日到2011年12月9日的数据,导致在划分季度的时候,2011年12月的数据是4季度,2011年12月的数据也是4季度。导致在计算R(Frequency)的时候,即季度最大时间-当前日期时间出现时间差=365天(1年)>90天(1季度)。

        这时候我反复检验之前实验记录,发现原来数据中的数据出现了跨年(即不同年的数据12月),因此导致即使同一个季度,时间差可以超过90天。因此本人采取数据规约的方式,抽取时间2011年01月01日到2011年12月01日的数据最为本次实验数据源。但是,这个决定也会导致一个问题,就是12月份的数据不全面,还差21天数据。

        本着尝试的心态,本人进行了一系列实验流程,进行数据标准化和k-means聚类后,最终发现实验准确率62.3%,而如果加上PCA降维,准确率会降低5%左右,因此本实验没有加上PCA降维,不知道会不会不妥?

        在探索性可视化实验过程中,我发现了原来RFM分组和季度没有明显关系(相关性系数显示:不足0.2),而其中RFM占比很大部分是222组合,最低的是331组合。

2结论建议

        经过上面的分析,得到了要分析的重点客户群体。可根据用户的量级分为两类:

        第1类是用户群体占比超过10%的群体;

        第2类是占比在个位数的群体。

        这两类人由于量级不同,因此需要分别有针对性的策略场景;

        第3类人群,虽然从用户量级上小,但是单个人的价值度非常高。

>>>第1类人群:

占比超过10%的群体。由于这类人群基数大,必须采取批量操作和运营的方式落地运营策略,一般需要通过系统或产品实现,而不能主要依赖于人工

222(占比17.1%):中等价值客户,企业可以通过提供个性化的优惠、加强客户关系维护等方式,进一步提升他们的满意度和忠诚度,进而增加他们的消费频次和金额,提升客户价值。

>>>第2类人群:

占比为1%~10%的群体。这部分人群数量适中,在落地时无论是产品还是人工都可接入

112(占比8.6%):可挽回的一般性群体。这类群体购买新近度低,说明距离上次购买时间较长,很可能用户已经处于沉默或预流失、流失阶段;购物频率低,说明对网站的忠诚度一般;订单金额处于中等层级,说明其还可能具有可提升的空间。因此,对这部分群体的策略首先是通过多种方式(例如邮件、短信等)触达客户并挽回,然后通过针对流失客户的专享优惠(例如流失用户专享优惠券)措施促进其消费。在此过程中,可通过增加接触频次和刺激力度的方式,增加用户的回访、复购以及订单价值回报

333(占比8%):绝对忠诚的高价值群体。虽然用户绝对数量只有355,但由于其各方面表现非常突出,因此可以倾斜更多的资源,例如设计VIP服务、专享服务、绿色通道等。另外,针对这部分人群的高价值附加服务的推荐也是提升其价值的重点策略

211(占比7.8%):可发展的低价值群体。这类群体相对于212群体在订单金额上表现略差,因此在211群体策略的基础上,可以增加与订单相关的刺激措施,例如组合商品优惠券发送、积分购买商品等

322(占比7.5%)、323(占比2.8%)和332(占比2.3%):有潜力的普通群体。这类群体最近刚完成购买,需要提升的是购买频次及购买金额。因此可通过交叉销售、个性化推荐、向上销售、组合优惠券、打包商品销售等策略,提升其单次购买的订单金额及促进其重复购买

212(占比4.1%):可发展的一般性群体。购买新近度和订单金额一般,且购买频率低。考虑到其最大的群体基础,以及在新近度和订单金额上都可以,因此可采取常规性的礼品兑换和赠送、购物社区活动、签到、免运费等手段维持并提升其消费状态。

233(占比6.6%)、223(占比3.6%)和133(占比1.2%):一般性的高价值群体。这类群体的主要着手点是提升新近购买度,即促进其实现最近一次的购买,可通过DM、电话、客户拜访、线下访谈、微信、电子邮件等方式直接建立用户挽回通道,以挽回这部分高价值用户

312(占比1.6%):有潜力的一般性群体。这类群体购买新近度高,说明最近一次购买发生在很短时间之前,群体对于公司尚有比较熟悉的接触渠道和认知状态;购物频率低,说明对网站的忠诚度一般;订单金额处于中等层级,说明其还具有可提升的空间。因此,可以借助其最近购买的商品,为其定制一些与上次购买相关的商品,通过向上销售等策略提升购买频次和订单金额

311(占比2.7%):有潜力的低价值群体。这部分用户与211群体类似,但在购物新近度上更好,因此对其可采取相同的策略。除此以外,在这类群体的最近接触渠道上可以增加营销或广告资源投入,通过这些渠道再次将客户引入网站完成消费。

111(占比6.4%):这是一类在各个维度上都比较差的客户群体。一般情况下,会在其他各个群体策略和管理都落地后才考虑他们。主要策略是先通过多种策略挽回客户,然后为客户推送与其类似的其他群体,或者当前热销的商品或折扣非常大的商品。在刺激消费时,可根据其消费水平、品类等情况,有针对性地设置商品暴露条件,先在优惠券及优惠商品的综合刺激下使其实现消费,再考虑消费频率以及订单金额的提升。

>>>第3类群体:

占比非常少,但却是非常重要的群体

213(占比0.8%):可发展的高价值群体。这类人群发展的重点是提升购物频率,因此可指定不同的活动或事件来触达用户,促进其回访和购买,例如不同的节日活动、每周新品推送、高价值客户专享商品等。

313(占比0.5%):有潜力的高价值群体。这类群体的消费新近度高且订单金额高,但购买频率低,因此只要提升其购买频次,用户群体的贡献价值就会倍增。提升购买频率上,除了在其最近一次的接触渠道上增加曝光外,与最近一次渠道相关的其他关联访问渠道也要考虑增加营销资源。另外,213中的策略也要组合应用其中

113(占比0.3%):可挽回的高价值群体。这类群体与112群体类似,但订单金额贡献更高,因此除了应用112中的策略外,可增加部分人工的参与来挽回这些高价值客户,例如线下访谈、客户电话沟通等

231(占比0.3%):较活高频低价值群体。企业应通过提供定制化的优惠和服务、加强互动沟通、了解客户需求并提供精准推荐等手段,来刺激他们的购买欲望并提升他们的消费价值。

131(占比0.2%):近期不活跃高频低价值群体,需要思考吸引该群体的商品种类,重新启动激活消费策略。

331(占比0.2):近期活跃高频低价值群体,企业应加强与他们的互动和沟通,提供个性化的优惠和推荐,深入分析他们的消费需求和习惯,并提供优质的客户服务,以维持和提升他们的消费价值和忠诚度。

 数据源在下载区啦!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/308986.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RabbitMQ-死信队列常见用法

目录 一、什么是死信 二、什么是死信队列 ​编辑 三、第一种情景:消息被拒绝时 四、第二种场景:. 消费者发生异常,超过重试次数 。 其实spring框架调用的就是 basicNack 五、第三种场景: 消息的Expiration 过期时长或队列TTL…

【Linux】序列化与反序列化{服客编程/守护进程/JSON}

文章目录 1.引入2. 静态成员函数3.TCP:传输控制协议4.守护进程4.0前台进程4.1介绍4.2认识4.3会话4.3ps axj4.4理解4.5/dev/null4.6守护进程和孤儿进程 5.JSON6.完整代码6.1Makefile6.2Socket.hpp6.3Protocol.hpp6.4Log.hpp6.5Daemon.hpp6.6TcpServer.hpp6.7Client.c…

【3GPP】【核心网】核心网/蜂窝网络重点知识面试题二(超详细)

1. 欢迎大家订阅和关注,3GPP通信协议精讲(2G/3G/4G/5G/IMS)知识点,专栏会持续更新中.....敬请期待! 目录 1. 对于主要的LTE核心网接口,给出运行在该接口上数据的协议栈,并给出协议特征 2. 通常…

C++11 设计模式2. 简单工厂模式

简单工厂(Simple Factory)模式 我们从实际例子出发,来看在什么情况下,应用简单工厂模式。 还是以一个游戏举例 //策划:亡灵类怪物,元素类怪物,机械类怪物:都有生命值&#xff0…

内网渗透-Windows内网渗透

内网渗透-Windows内网渗透 文章目录 内网渗透-Windows内网渗透前言一、信息收集 1.1、SPN1.2、端口连接1.3、配置文件1.4、用户信息1.6、会话收集1.7、凭据收集 navicat:SecureCRT:Xshell:WinSCP:VNC: 1.8、DPAPI1.9、域信任1.10、…

3d怎么按路径制作模型---模大狮模型网

在3D建模中,按路径制作模型是一种常见的技术,特别适用于创建曲线、管道、绳索等线性形状的物体。虽然这项技术可能对初学者来说有些复杂,但通过一步步的指导和实践,你将能够掌握它。本文将详细介绍按路径制作模型的步骤&#xff0…

深拷贝总结

JSON.parse(JSON.stringify(obj)) 这行代码的运行过程,就是利用 JSON.stringify 将js对象序列化(JSON字符串),再使用JSON.parse来反序列化(还原)js对象;序列化的作用是存储和传输。&#xff08…

认识OpenEuler操作系统

引言 在信息技术日新月异的时代,开源软件已成驱动创新的核心动能,其中,OpenEuler作为一款冉冉升起的开源操作系统典范,凭借其对开源精神的坚守与技术创新的不懈追求,自亮相以来便引发了全球关注。本文将全方位深挖Open…

一站式开源持续测试平台 MerterSphere 之测试跟踪操作详解

一、MeterSphere平台介绍 MeterSphere是一站式的开源持续测试平台,遵循 GPL v3 开源许可协议,涵盖测试跟踪、接口测试、UI 测试和性能测试等功能,全面兼容JMeter、Selenium 等主流开源标准,有效助力开发和测试团队充分利用云弹性…

一分钟学会旋转一个矩阵

😎 作者介绍:我是程序员行者孙,一个热爱分享技术的制能工人。计算机本硕,人工制能研究生。公众号:AI Sun,视频号:AI-行者Sun 🎈 本文专栏:本文收录于《深入浅出算法》系列…

荔枝派LicheePi 4A RISCV板子支持的好玩的AI模型

荔枝派LicheePi 4A 是基于 Lichee Module 4A 核心板的 高性能 RISC-V Linux 开发板,以 TH1520 为主控核心(4xC9101.85G, RV64GCV,4TOPSint8 NPU, 50GFLOP GPU),板载最大 16GB 64bit LPDDR4X&…

【Linux】账号和权限管理

目录 一、用户账号与组账号 二、添加用户账号-useradd 三、修改用户账号的属性-usermod 四、更改用户命令-passwd 五、删除用户账号-userdel 六、添加组账号-groupadd 七、添加删除组成员-gpasswd 八、删除组账号-groupdel 九、查询账号信息-groups、id、finger、w、w…

Ubuntu-22.04安装KVM虚拟机并安装Windows10

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、KVM是什么?二、安装步骤1.检查虚拟化2.查看KVM虚拟化3.安装KVM4.启用后台进程5.添加用户组6.重启电脑 三、使用步骤1.添加虚拟机2.配置虚拟机3.…

直播弹幕系统设计

本文仅提供思路参考,并非完备的详细设计。 特点 其实很类似IM即时通讯系统,是个变种,本质也是在一个空间内收发消息 消息及时性强,过期消息意义不大用户松散,随时来随时走可能有瞬时大批量弹幕(比如比赛精…

GET与POST:详述HTTP两大请求方法的语义、数据处理机制、安全特性与适用场景

GET和POST方法在HTTP请求中具有明确的角色分工和特性差异。GET适用于读取操作和不敏感数据的传递,强调可缓存性和安全性,而POST适用于写入操作和敏感数据的提交,提供了更大的数据承载能力和更强的隐私保护。本文详细介绍了GET与POST请求方法的…

XTTS数据迁移

文章目录 一、全量迁移1、源端和目标端都需要配置XTTS脚本(源库和目标库都需要进行下列配置)2、源端调用 xttdriver.pl -p做迁移准备3、将源端的数据文件副本和rmanconvert.cmd传到目标端4、在目标端对数据文件拷贝进行字节序的转换 二、XTTS 第1~n次增量…

Web前端 Javascript笔记3

1、垃圾回收机制 内存中的生命周期 1、内存分配 2、内存使用(读写) 3、内存回收,使用完毕之后,垃圾回收器完成 内存泄漏:该回收的,由于某些未知因素,未释放,叫做内存泄漏 栈&#xf…

【DNS】

文章目录 DNS域名解析系统(Domain Name System)DNS系统需要解决的问题DNS域名解析系统(Domain Name System)问题1:DNS名字空间(The DNS Name Space)DNS名字空间(The DNS Name Space)DNS名字空间(The DNS Na…

云手机提供私域流量变现方案

当今数字营销领域,私域流量是一座巨大的金矿,然而并非人人能够轻易挖掘。一家营销公司面临着利用社交、社区、自媒体等应用积累私域流量,并通过销售产品、推送广告等方式实现流量变现的挑战与困境。本文将详细介绍这家公司是如何通过云手机&a…

【MATLAB】基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据(附代码)

基于Wi-Fi指纹匹配的室内定位-仿真获取WiFi RSSI数据 WiFi指纹匹配是室内定位最为基础和常见的研究,但是WiFi指纹的采集可以称得上是labor-intensive和time-consuming。现在,给大家分享一下我们课题组之前在做WiFi指纹定位时的基于射线跟踪技术仿真WiFi…