作为一名数据分析师,你又没有发现,自己经常碰到一些棘手的问题就没有思路,甚至怀疑自己究竟有没有好好学过分析?
在上篇文章里,我们讲到了数据分析中的流程、分类、对比三大块,今天,我们继续讲剩下的3块内容。
4、关联
看数据指标不要只看一个“点”,还要看一条“线”上的前后连接的环节,进而从“面”或“体”的角度去看整个大环境中都有哪些因素相互作用。
对现象的分析可以参考简单的调节模型:
其中:X是自变量,Y是因变量,M是调节变量。
寻找关联关系时,不仅仅要找出对Y有直接影响的X(一个或者多个),还要找出影响X对Y作用的调节因素M。关联也可以分为同时关联和延时关联两类。
4.1同时关联
即多个因素(X)同时发生作用一起促成了现象(Y)的发生。
e.g. 电商网站销售的变化可能考虑的因素:
用户:用户结构是否发生变化,是否有新的注册渠道,新渠道导流进来的用户质量如何;
商品:品类结构是否有变化,e.g. 随着四季变化,服装类的种类也会发生变化;
产品:多少用户使用旧版本或者新版本,产品某个环节有没有改版,产品的策略(商品推荐策略等)是否有变化;
运营:前期的线上或者线下预热,商城的优惠力度,优惠涉及的人群等;
4.2延时关联
现象的产生可能存在延迟效应,要考虑当前现象(环节)的前置的“因”和后置的“果”。
e.g. 今天上线的营销方案可能在几天甚至几十天后才会有显著的效应,今天交易量上出现的波动也可能是因为一段时间前产品或者运营策略上有改动。
5、层级
要有结构化、系统化的思维,对影响因素自上而下的拆解和自下而上的组合。
5.1自上而下的拆解
可以理解为“分级钻取”,如同金字塔结构一样,先从总体看到二级分支,然后再看更细的分支。
e.g. 支付成功率的影响,可以对新老客、订单来源、支付方式、银行通道一层一层拆解,细化各个分支对整体变化的贡献率;
e.g. 销售额 = 下单人数*客单价 (a)
从登录到下单是层层转化后的,所以
下单人数 = 访客人数浏览转化率购物车转化率*支付转化率 (b)
公式(b)代入公式(a),得到:
销售额 = 访客人数浏览转化率购物车转化率支付转化率客单价
5.2自下而上的组合
就是将个体组成群体,将小的指标组合成一个综合指标。
e.g. 用户的标签分为基础标签和复合标签,基础标签就是单个用户属性来定义的(例如性别、婚否等),复合标签则是考虑多个基础标签的组合(例如,某个典型的用户群体画像是:女性+单身+白领+一线城市);
e.g. 规划用户标签时,先用头脑风暴想出一批指标,然后进行归类、筛选、组合;
e.g. 风控业务中累计坏账计提的计算,是将不同的逾期资金规定不同的风险计提比例,最后再把所有类别的风险计提资金汇总起来,作为公司所有贷出款项的风险计提资金,从而对公司贷款业务风险进行评估;
举个形象的例子,自上而下好比国家财政拨款,从中央到省会再到各市县区;自下而上则像是国家征税,就是从各市县区、各企业层层汇总,直到报送国库。
6、优化
分析的最终目标无非两种:寻找解决方案,寻找更好的解决方案。第一步是保证数据的准确性和稳定性,第二步就是优化,提高准确性、提高效率和效益。
优化包含两部分的内容:缩小当前和目标的差距,直到达成并超越目标;在成本或者预算固定的前提下,使收益最大化。
6.1缩小当前和目标的差距
e.g. 全公司各部门各业务线的同事们都在追逐和超越KPI的路上;
e.g. 机器学习建模时,尝试多种方案,调试各种参数,使模型的精确度逐渐提高。
6.2成本固定,最大化收益
e.g. 对于信用贷款产品而言,如果把“最安全”放在首位,那么极端的方式就是不给任何人发放贷款,这样就不会出现坏账了。正确的信贷模型思维是将坏账控制在业务上可以接受的范围内,并使利息覆盖坏账,进而最大化收益。
任何商业模式都是追逐利益的,首要目标是收益最大化,参考如下公式:
利润 = 收入 - 投入成本 - 风险损失
优化的过程就是寻找利润最大化的过程。
小结:
以上总结了常见的6种数据分析思路,涉及具体的业务场景还要结合业务特点适当变通。精通方法,深入业务,勤于实践,多加总结,最终就能踏上描述–>解释–>预测–>控制,步步高升的数据分析师精进之路。
文章来源:网络 版权归原作者所有
上文内容不用于商业目的,如涉及知识产权问题,请权利人联系小编,我们将立即处理