1.采购三方数据一般有调研、测试评估、签约和对接四个流程
2.测试评估分为测试样本选取和数据可用性评估两个阶段
3.测试样本选取遵循风险释放性、样本代表性和横向可比性三个原则
4.从查得率、稳定性和有效性评估数据可用性
5.黑名单类数据评测指标有五个:查得率、覆盖率、误拒率、无效差异率和有效差异率
6.如果有效差异率、无效差异率都很高,表面该数据源定义是一种广撒网式的黑名单,黑名单质量不高
互联网金融公司在利用大数据进行风控的同时,会根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。
小编借用一张图来诠释金融风控数据的逻辑。
图片来源:全面了解风控数据体系
正如良禽择木而栖,每一家金融公司的业务不一样,面对的客户画像也不一样,因此,适用的数据也会不一样。如何评测哪些三方数据是一项重要的工作,也关乎往后评分卡的质量。同时接入的三方要保证维度的完备性,不能仅接入某一类维度的数据。
一份三方数据的采集大体上需要经历调研、测试评估、签约和对接四个流程。我们重点介绍测试与评估阶段,也就是如何确认一份三方数据适用于公司的业务场景。它分为测试样本选取和数据可用性评估两个阶段。
1.测试样本选取
本质上三方数据评测是从总体进行抽样,用抽样的结果去评估总体的效果。这显然就是统计上推断问题,而样本选取,就是抽样问题。
首先,考虑到测试的成本,对于不同类型的数据,适用的样本量也不太一样。
三方数据类型 | 测试样本量 |
名单类 | 1k~5k |
评分类 | 5k~20k |
标签类 | 1k~5k |
报告类 | 样例,一般1~3份 |
当然,在可承受的范围内,测试样本越多越好。
同时,样本的选择也应该遵循一定的原则:
风险释放性:样本有一定的时间跨度(比如半年)且具有风险表现(还款期数够长,风险已经释放)的客群
样本代表性:保证测试样本包含了不同产品的客群,并尽可能保证比例一致。
横向可比性:每个三方供应商提供的测试量不一致,为了不同供应商数据做横向对比。一定周期内(半年或一年)的测试样本应该取自同一个样本池子,且测试量小的样本包含在测试量大的样本中
对于第一个原则(风险释放性),举个极端例子,如果测试样本仅仅来源于刚放款不久的客户,这个时候客户一般还款良好,风险没有释放,会把一些坏的客户当成好的客户。测试结果在短时间无法评估。
对于第二个原则(样本代表性),一般公司金融产品都有等额本息、先息后本等类型,如果测试样本只有等额本息的,很显然测试的结果不能代表所有客群的风险情况,会存在选择偏差。
进一步,为了尽可能保证抽样分布能代表总体,其他维度也要按照一定比例抽样分层抽样),比如客群的年龄分布在18~60岁之间,那么抽样的分布也应该包含18~60岁的样本,不能仅有18~30岁之间的样本。
对于第三个原则(横向可比性),还是举例子,两份一个类型三方数据,比如都是评分类,记为评分A和评分B。分别来自公司a和公司b,他们测试的样本量不一样,a公司只给测试1000条,b公司可以测试3000。很显然,为了比较这两家供应商同一类型的数据好坏,1000条的测试样本应该来自于3000条的测试样本,这样的对比结果更精准。
实际工作中,半年内的测试样本都应取自同一个样本池子,可以事先准备。比如小编就是这样准备的:
测试样本量少的一定是从测试样本量大的抽样。这样针对不对的供应商,就可以选取相应的测试样本进行测试。
一个周期后(通常半年),随着环境的变化和客群的更新,需要重新采样,尽量抽取时间靠前的样本进行测试,保证数据的时效性,还可以对比以前的数据,观测客群是否有发生迁移等。
2.数据可用性评估
测试结果返回后,需要对数据进行评估。数据的可用性一般从三个指标评估:查得率、稳定性和有效性(针对黑名单类数据,除了查得率,还有覆盖率、误拒率和差异率。我们在第三节专门讲)
查得率是指测试样本的查得样本数占总测试样本的比例:
查得率(Search Rate)= 查得数/样本量
稳定性是指测试样本在时间跨度上基本稳定的查得率
比如下面A\B供应商的查得率分布
不同供应商月份查得率 | |||||||
供应商 | 2019-06 | 2019-07 | 2019-08 | 2019-09 | 2019-10 | 2019-11 | 2019-12 |
A | 63.07% | 59.80% | 56.78% | 57.85% | 59.39% | 58.42% | 60.84% |
B | 70.05% | 64.24% | 56.78% | 50.44% | 48.24% | 47.67% | 43.34% |
可以看到,A供应商查得率维持在稳定水平,而B呈下降趋势,说明A的数据源更加稳定可靠。
有效性是指测试结果对于区分风险有显著性,通常用IV值衡量。
传送门:WOE编码与IV值
通常情况下,查得率在50%以上、有比较稳定的数据源和大部分因子Iv值都在0.1以上的数据值能用的。在这个前提下比较不同的供应商,选择更优的是更合适的选择。
3.黑名单类数据评估
评测黑名单数据的优劣,除了查得率,还有以下四个指标:
覆盖率(Cover Rate)=查得命中黑名单数/样本中命中黑名单量
误拒率(Error Reject Rate)=查得命中黑名单数/样本中通过且为Good量
有效差异率(Effective Difference Rate)=查得命中黑名单数/样本中通过且Bad量
无效差异率(Invalid Difference Rate)=查得命中黑名单数/样本中非黑名单拒绝量
观测指标可以知道
SR(查得率)、CR(覆盖率)、EDR(有效差异率)越高越好;ERR(误拒率)越低越好
如果EDR(有效差异率)、IDR(无效差异率)都很高,表面该数据源定义是一种广撒网式的黑名单,黑名单质量不高
参考资料:
https://mp.weixin.qq.com/s/PCRzPGGBXG7cJAInylkCRg
https://mp.weixin.qq.com/s/jtaJWqR6SRnw5GLLC54dbw