金融风控之三方数据评测

1.采购三方数据一般有调研、测试评估、签约和对接四个流程

2.测试评估分为测试样本选取数据可用性评估两个阶段

3.测试样本选取遵循风险释放性、样本代表性和横向可比性三个原则

4.从查得率、稳定性和有效性评估数据可用性

5.黑名单类数据评测指标有五个:查得率、覆盖率、误拒率、无效差异率和有效差异率

6.如果有效差异率、无效差异率都很高,表面该数据源定义是一种广撒网式的黑名单,黑名单质量不高

互联网金融公司在利用大数据进行风控的同时,会根据需求利用多维度数据来识别借款人风险,维度包括不限于:社交类数据、消费类数据、行为类数据、多源银行账户数据等。

小编借用一张图来诠释金融风控数据的逻辑。

图片来源:全面了解风控数据体系

正如良禽择木而栖,每一家金融公司的业务不一样,面对的客户画像也不一样,因此,适用的数据也会不一样。如何评测哪些三方数据是一项重要的工作,也关乎往后评分卡的质量。同时接入的三方要保证维度的完备性,不能仅接入某一类维度的数据。

一份三方数据的采集大体上需要经历调研、测试评估、签约和对接四个流程。我们重点介绍测试与评估阶段,也就是如何确认一份三方数据适用于公司的业务场景。它分为测试样本选取数据可用性评估两个阶段。

1.测试样本选取

本质上三方数据评测是从总体进行抽样,用抽样的结果去评估总体的效果。这显然就是统计上推断问题,而样本选取,就是抽样问题。

首先,考虑到测试的成本,对于不同类型的数据,适用的样本量也不太一样。

三方数据类型
测试样本量
名单类
1k~5k
评分类
5k~20k
标签类
1k~5k
报告类
样例,一般1~3份

当然,在可承受的范围内,测试样本越多越好。

同时,样本的选择也应该遵循一定的原则:

  • 风险释放性:样本有一定的时间跨度(比如半年)且具有风险表现(还款期数够长,风险已经释放)的客群

  • 样本代表性:保证测试样本包含了不同产品的客群,并尽可能保证比例一致。

  • 横向可比性:每个三方供应商提供的测试量不一致,为了不同供应商数据做横向对比。一定周期内(半年或一年)的测试样本应该取自同一个样本池子,且测试量小的样本包含在测试量大的样本中

对于第一个原则(风险释放性),举个极端例子,如果测试样本仅仅来源于刚放款不久的客户,这个时候客户一般还款良好,风险没有释放,会把一些坏的客户当成好的客户。测试结果在短时间无法评估。

对于第二个原则(样本代表性),一般公司金融产品都有等额本息、先息后本等类型,如果测试样本只有等额本息的,很显然测试的结果不能代表所有客群的风险情况,会存在选择偏差

进一步,为了尽可能保证抽样分布能代表总体,其他维度也要按照一定比例抽样分层抽样),比如客群的年龄分布在18~60岁之间,那么抽样的分布也应该包含18~60岁的样本,不能仅有18~30岁之间的样本。

对于第三个原则(横向可比性),还是举例子,两份一个类型三方数据,比如都是评分类,记为评分A和评分B。分别来自公司a和公司b,他们测试的样本量不一样,a公司只给测试1000条,b公司可以测试3000。很显然,为了比较这两家供应商同一类型的数据好坏,1000条的测试样本应该来自于3000条的测试样本,这样的对比结果更精准。

实际工作中,半年内的测试样本都应取自同一个样本池子,可以事先准备。比如小编就是这样准备的:

测试样本量少的一定是从测试样本量大的抽样。这样针对不对的供应商,就可以选取相应的测试样本进行测试。

一个周期后(通常半年),随着环境的变化和客群的更新,需要重新采样,尽量抽取时间靠前的样本进行测试,保证数据的时效性,还可以对比以前的数据,观测客群是否有发生迁移等。

2.数据可用性评估

测试结果返回后,需要对数据进行评估。数据的可用性一般从三个指标评估:查得率、稳定性和有效性(针对黑名单类数据,除了查得率,还有覆盖率、误拒率和差异率。我们在第三节专门讲)

查得率是指测试样本的查得样本数占总测试样本的比例:

查得率(Search Rate)= 查得数/样本量

稳定性是指测试样本在时间跨度上基本稳定的查得率

比如下面A\B供应商的查得率分布

不同供应商月份查得率
供应商
2019-062019-072019-082019-092019-102019-112019-12
A
63.07%
59.80%
56.78%
57.85%
59.39%58.42%
60.84%
B
70.05%
64.24%
56.78%
50.44%
48.24%
47.67%
43.34%

可以看到,A供应商查得率维持在稳定水平,而B呈下降趋势,说明A的数据源更加稳定可靠。

有效性是指测试结果对于区分风险有显著性,通常用IV值衡量。

传送门:WOE编码与IV值

通常情况下,查得率在50%以上、有比较稳定的数据源和大部分因子Iv值都在0.1以上的数据值能用的。在这个前提下比较不同的供应商,选择更优的是更合适的选择。

3.黑名单类数据评估

评测黑名单数据的优劣,除了查得率,还有以下四个指标:

覆盖率(Cover Rate)=查得命中黑名单数/样本中命中黑名单量

误拒率(Error Reject Rate)=查得命中黑名单数/样本中通过且为Good量

有效差异率(Effective Difference Rate)=查得命中黑名单数/样本中通过且Bad量

无效差异率(Invalid Difference Rate)=查得命中黑名单数/样本中非黑名单拒绝量

观测指标可以知道

  • SR(查得率)、CR(覆盖率)、EDR(有效差异率)越高越好;ERR(误拒率)越低越好

  • 如果EDR(有效差异率)、IDR(无效差异率)都很高,表面该数据源定义是一种广撒网式的黑名单,黑名单质量不高

参考资料:

https://mp.weixin.qq.com/s/PCRzPGGBXG7cJAInylkCRg

https://mp.weixin.qq.com/s/jtaJWqR6SRnw5GLLC54dbw

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32937.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

全面了解风控数据体系

考察一个人的判断力,主要考察他信息来源的多样性。无数的可怜人,长期生活在单一的信息里,而且是一种完全被扭曲、颠倒的信息,这是导致人们愚昧且自信的最大原因。 ——阿玛蒂亚森(诺奖得主) 说明 传统金…

互联网金融风控模型

一、市场调研 目前市面主流的风控模型 1、互联网金融前10名排行榜(数据截止日期2017-09-12) 互联网金融公司排名分别是蚂蚁金服、陆金所、京东金融、苏宁金融、百度金融、腾讯理财通、宜信、钱大掌柜、万达金融和网易理财。 1.1 蚂蚁金服 1.1.1 大数据技术 对接第三方征…

金融风控-- >客户流失预警模型-- >GBDT建模

前几篇博文中,我们对金融数据进行了分析,数据预处理和特征工程。这篇博文将利用金融数据训练出一个GBDT模型。 本篇博文的主要内容分为以下三个部分: GBDT模型简介分类器性能指标GBDT在流失预警模型中的应用 GBDT模型简介 有关GBDT模型的…

金融风控实战——额度模型与风控策略

消费金融风控策略 变量分布的合理性:年龄为例,这期的用户大多集中在20-30之间,下一批用户年龄集中在30-40之间,导致变量分布不一致问题。机器学习模型都是基于独立同分布的假设的,会让模型失效,很多规则策略…

实时图计算如何进行风控决策管理?

在金融行业中,账户之间是复杂、多层的关系,那么,数据在高速地发生动态变化的时候,如何进行高效的关联关系计量,如欺诈判定、归因分析等——这种挑战就是典型的深数据或者图数据的挑战。 01 从数据角度看信用卡欺诈风险…

验证码在风控中的实际应用

前言:在业务场景中,企业的安全团队通常将验证码作为降低业务受损风险的方法,以减少撞库盗号、虚假注册、刷量作弊、信息盗窃、薅羊毛等风险事件发生的可能性。 今天将通过验证码在极验十周年特别活动的实际应用,探讨验证码在业务…

风控策略(下)

一、常用量化指标 首先,先了解下如何定义逾期。 过了最后还款日仍未还款,则为逾期。注意,一个客户只有一个账单日。如果想要获得最长免息还款期,则应该在上一个账单日的后一天进行消费。   还有,最重要的一点&#…

风控ML[10] | 风控建模中的自动分箱的方法有哪些

之前有位读者朋友说有空介绍一下自动分箱的方法,这个确实在我们实际建模过程前是需要解决的一个问题,简单来说就是把连续变量通过分箱的方式转换为类别变量。关于这个话题,我也借着这个主题来系统的梳理总结一下几点:为什么要分箱…

风控分析常用指标介绍

在信贷风控中,指标时反应业务变化最直观的手段,通过对指标的分析及时发现和定位业务开展过程中的问题,并及时采取相应的手段进行防控。本文列出工作中常关注的风险指标,介绍指标的定义及分析的方法,旨在精而不在全&…

全面了解风控策略体系

模型和策略的开发是一个系统工程,这其中需要有业务经验、统计理论、算法运用、和数据认知,是一个不断反思,不断积累经验的过程。沙滩上建不起摩天大楼。扎扎实实的基本功永远有价值,永远不会过时。 ——余旭鑫博士 说明 互联网…

金融风控实战——有监督分箱

卡方分箱 分箱的方法有很多,卡方分箱属于其中一种,属于有监督系列的。卡方分箱正是一种基于卡方检验的分箱方法,更具地说是基于上面提到的第二种应用,独立性检验,来实现核心分箱功能的。   卡方分箱算法简单来说&…

风控策略简介

【作者】:Labryant 【原创公众号】:风控猎人 【简介】:某创业公司策略分析师,积极上进,努力提升。乾坤未定,你我都是黑马。 【转载出处】:https://blog.csdn.net/lc434699300/article/details/1…

风控模型及特征的上线部署方法

序言: 作为年后的首篇实操干货文章,番茄风控一如既往向业内小伙伴输出相关的干货文章。有实操能落地,有数据可撸码,继续将会是番茄风控提供给各位小伙伴的业内标配内容。 近期,我们花费了时间容整理了目前业内各位小伙…

金融风控实战——社交网络分析

社交网络分析 上节课有同学希望能讲一些设备指纹的内容,所以这节课我们先讲一下设备指纹,作为反欺诈图谱的基础。 设备指纹 可以把手机设备理解成一个人,像人一样有身份证号和名字(设备序列号等),没有化…

风控数据测试概要

数据测试简介 简而言之,数据测试就是对数据的质量进行测试,查看该质量能不能被我方接受。在风控中,数据测试的主要目的是测试对方数据源是否可以较好地区分出我方申请用户的好坏,衡量质量的指标主要包括:Lift-Chart、A…

三分钟看懂大数据风控中用户行为数据的采集、分析及应用( 转 )

据统计,目前银行传统的风控模型对市场上70%的客户是有效的, 但是对另外30%的用户,其风控模型有效性将大打折扣。 大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制, 用户行为数据可以作为另外的30%客…

CAR-T药物|疗法适应症|市场销售-上市药品前景分析

对患有癌症的人来说,能够幸运地度过5年大关是一种成功,而能够成功地度过10年大关则是一种奇迹。Emily作为全球第一个接受CAR-T治疗成功的白血病儿童患者,至今已成功摆脱癌症11年之久。 ①CAR-T细胞治疗(Emily Whitehead治疗案例时…

股票数据分析查询接口,股票数据接口,沪深港股,股票api查询

一、接口介绍 查询历史数据的分析统计。本接口数据仅用于学习分析,不得用于对外展示!根据股票代码、日期获取股票历史数据及相关分析,返回日期、开盘价、收盘价、最高价、最低价、成交量、成交额、换手率、涨跌幅等,可绘制相应日…

微信AI助手

首先,感谢GitHub上的开源大佬!对微信AI助手项目我修改了少许部分,以实现在自己服务器上部署。这里是我的项目地址。 1、准备服务器 1.1 服务器密码及安全组规则修改 这里我是用的是腾讯云国内服务器,有条件的同学可以直接选择国…

Andrew Ng和OpenAI教你写prompt

课程地址: https://learn.deeplearning.ai/chatgpt-prompt-engb站搬运: https://www.bilibili.com/video/BV1No4y1t7Zn 教学人员:Lsa Fulford, Andrew NG LLM的两种样式 Base LLM:基于文本训练数据预测下一个词的概率&#xff0…