风控数据测试概要

数据测试简介

  简而言之,数据测试就是对数据的质量进行测试,查看该质量能不能被我方接受。在风控中,数据测试的主要目的是测试对方数据源是否可以较好地区分出我方申请用户的好坏,衡量质量的指标主要包括:Lift-Chart、AUC、KS、WOE、IV。
注:下面所有的解释均是从风控角度出发

Lift Chart

  Lift Chart被广泛的应用于风控阈值选择中,用来衡量某个风险分对好坏人的单调程度和区分度,它一般以两种形态出现:normal、accumulative。

  • normal:直观地衡量被测试风险分数的单调性
  • accumulative:有助于快速选择风险分数的阈值

  上图中坏人占比就是nromal,即每段样本中坏人的占比。而坏人累积占比则是accumulative,即每段样本中坏人累积占比,计算方法是“前n段坏人总数 / 前n段样本总数”。橙色的线单调递增,说明该风险分数是分数越高风险越大,整体可以看出该风险分数很稳定,绿色的线的最后一个点代表整体的坏账率为8.8%。

  • 假设我方可接受的坏账风险是7%且我方承担坏账风险,那么一般情况下,会根据橙色的线去选择风险分阈值,结合图发现第6段风险分对应的坏账率为6.7%(略低于7%),所以可以再对6、7段样本进行细分从而找到7%对应的具体风险分数作为阈值,此时该分数的通过率在6%多一点
  • 当是对方承担风险的时候,会根据绿色的线去选择风险分阈值,结合图发现第9段风险分对应的累积坏账率为6.9%(略低于7%),那么就可以直接用9分作为风险分阈值,此时该分数的通过率为90%

注:若每段的样本量不多(300左右),一般情况下橙色的线会出现较大的波动,这时就需要结合一定的经验进行选择阈值。

WOE

  WOE(Weight of Evidence),衡量的是每个风险分段中坏样本与好样本的比值,和整体样本中坏样本与好样本比值的差异。WOE的取值范围是[-∞, +∞],其绝对值越大,这种差异越大,即该风险分数段中的坏样本占比更大。
W O E i = l n ( p y i p n i ) = l n ( y i / y T n i / n T ) = l n ( y i / n i y T / n T ) WOE_i=ln(\frac{py_i}{pn_i})=ln(\frac{y_i/y_T}{n_i/n_T})=ln(\frac{y_i/n_i}{y_T/n_T}) WOEi=ln(pnipyi)=ln(ni/nTyi/yT)=ln(yT/nTyi/ni)

  • p y i py_i pyi:第 i i i段样本中坏样本占坏样本总数的比例
  • p n i pn_i pni:第 i i i段样本中好样本占好样本总数的比例
  • y i y_i yi:第 i i i段样本中坏样本的个数
  • n i n_i ni:第 i i i段样本中好样本的个数
  • y T y_T yT:坏样本的总个数
  • n T n_T nT:好样本的总个数

IV

  IV(Information Value),衡量风险分数对区分好坏人的价值,IV值的取值范围是[0, +∞),取值越大说明该风险分数的价值越高。
I V = ∑ i = 1 ∣ I ∣ I V i = ∑ i = 1 ∣ I ∣ ( p y i − p n i ) ∗ W O E i = ∑ i = 1 ∣ I ∣ ( p y i − p n i ) ∗ l n ( y i / n i y T / n T ) IV = \sum_{i=1}^{|I|}IV_i = \sum_{i=1}^{|I|}(py_i-pn_i)*WOE_i = \sum_{i=1}^{|I|}(py_i-pn_i)*ln(\frac{y_i/n_i}{y_T/n_T}) IV=i=1IIVi=i=1I(pyipni)WOEi=i=1I(pyipni)ln(yT/nTyi/ni)

  • ∣ I ∣ |I| I:风险分数被分的段数

  显而易见,IV是对WOE的加权求和,其巧妙之处就是这个权重 p y i − p n i py_i-pn_i pyipni。其巧妙之处如下:
  为了避免最后风险分数的价值出现负数的情况,即 ∑ i = 1 ∣ I ∣ W O E i \sum_{i=1}^{|I|}WOE_i i=1IWOEi不为负,那么必须对 W O E i WOE_i WOEi进行一定的变换。第一个想到的是取绝对值,但是这种方法不可取,主要是因为单纯的取绝对值并不能避免每段样本量分布不均且某个(些)坏样本占比很大时对IV值的影响:

ROC

  ROC曲线用来评价模型的好坏,它的横轴是FPR(假正例率),纵轴是TPR(真正例率)。FPR衡量的是“从好样本中挑出了多少比例的好样本作为坏样本”,TPR衡量的是“从坏样本中挑出了多少比例的坏样本作为坏样本”。

AUC

  AUC是ROC曲线下的面积,AUC衡量的是模型分数的排序性。从另一个角度来讲,AUC指的是:当你随机抽取一个好样本和一个坏样本,好样本的分数大于坏样本分数的概率。AUC的取值范围是[0, 1],AUC越大,排序性越好。

KS

  KS是ROC的另一种可视化形式,将TPR和FPR都放到了纵轴上面。
在这里插入图片描述

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/32919.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

三分钟看懂大数据风控中用户行为数据的采集、分析及应用( 转 )

据统计,目前银行传统的风控模型对市场上70%的客户是有效的, 但是对另外30%的用户,其风控模型有效性将大打折扣。 大数据风控作为传统风控方式补充,主要利用行为数据来实施风险控制, 用户行为数据可以作为另外的30%客…

CAR-T药物|疗法适应症|市场销售-上市药品前景分析

对患有癌症的人来说,能够幸运地度过5年大关是一种成功,而能够成功地度过10年大关则是一种奇迹。Emily作为全球第一个接受CAR-T治疗成功的白血病儿童患者,至今已成功摆脱癌症11年之久。 ①CAR-T细胞治疗(Emily Whitehead治疗案例时…

股票数据分析查询接口,股票数据接口,沪深港股,股票api查询

一、接口介绍 查询历史数据的分析统计。本接口数据仅用于学习分析,不得用于对外展示!根据股票代码、日期获取股票历史数据及相关分析,返回日期、开盘价、收盘价、最高价、最低价、成交量、成交额、换手率、涨跌幅等,可绘制相应日…

微信AI助手

首先,感谢GitHub上的开源大佬!对微信AI助手项目我修改了少许部分,以实现在自己服务器上部署。这里是我的项目地址。 1、准备服务器 1.1 服务器密码及安全组规则修改 这里我是用的是腾讯云国内服务器,有条件的同学可以直接选择国…

Andrew Ng和OpenAI教你写prompt

课程地址: https://learn.deeplearning.ai/chatgpt-prompt-engb站搬运: https://www.bilibili.com/video/BV1No4y1t7Zn 教学人员:Lsa Fulford, Andrew NG LLM的两种样式 Base LLM:基于文本训练数据预测下一个词的概率&#xff0…

Android之输入银行卡号判断属于哪个银行

一&#xff1a;效果图&#xff1a; 二&#xff1a;实现步骤&#xff1a; 1.xml布局实现&#xff0c;两个edittext就行了 <LinearLayoutandroid:id"id/lin_yhkh"android:layout_width"fill_parent"android:layout_height"48dp"android:layou…

[项目管理-6]:软硬件项目管理 - 项目沟通管理(渠道、方法)

作者主页(文火冰糖的硅基工坊)&#xff1a;文火冰糖&#xff08;王文兵&#xff09;的博客_文火冰糖的硅基工坊_CSDN博客 本文网址&#xff1a;[项目管理-6]&#xff1a;软硬件项目管理 - 项目沟通管理 &#xff08;沟通渠道&#xff09;_文火冰糖的硅基工坊的博客-CSDN博客 目…

一键定制个性化语音,微软的AI语音落地实践

近日&#xff0c;微软与周迅AI语音红丹丹公益项目发起人鹿音苑文化传播公司、以及来自微软及各界的150名余志愿者&#xff0c;将创作的首批人工智能有声内容&#xff0c;包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品、红丹丹文化期刊&#xff0c;正式捐赠给北京市红丹丹…

Python 深度学习AI - 声音克隆、声音模仿、模拟特朗普声音唱《See You Again》,Real-Time-Voice-Cloning项目的安装与使用

Python 深度学习AI - 声音克隆、声音模拟 第一章&#xff1a;环境准备与安装① Real-Time-Voice-Cloning 项目源码下载② requirments 必要库安装③ TensorFlow 安装④ PyTorch 安装⑤ FFmpeg 下载环境变量配置⑥ 下载训练包第二章&#xff1a;效果测试① 命令行合成音频测试&a…

微软小冰的服务器在哪,微软小冰解锁三大小米入口

原标题&#xff1a;微软小冰解锁三大小米入口 微软小冰与小米小爱加深合作&#xff0c;解锁更多小米入口。具体内容请关注今天的小熊微科技【每日必读】栏目。 微软小冰解锁三大小米入口 好闺蜜&#xff0c;就是要形影不离。9月4日&#xff0c;微软小冰宣布解锁更多小米入口&am…

关于微软小冰

今天在微博上看到微软小冰的一篇博文&#xff0c;原文如下&#xff1a; 小冰是什么&#xff1f;参见百科&#xff1a; 微软Bing搜索中国团队2014年5月29日发布一款智能聊天机器人&#xff0c;并取名“微软小冰”。添加这个机器人的微信账号为好友之后&#xff0c;便可以与这个…

【小沐学NLP】Python实现聊天机器人(ALICE)

&#x1f37a;NLP开发系列相关文章编写如下&#x1f37a;&#xff1a;1&#x1f388;【小沐学NLP】Python实现词云图&#x1f388;2&#x1f388;【小沐学NLP】Python实现图片文字识别&#x1f388;3&#x1f388;【小沐学NLP】Python实现中文、英文分词&#x1f388;4&#x1…

微软小冰 | 接入微信公众号平台初体验

文章目录 智能回复&#xff08;聊天&#xff09;基础设置行业知识自主学习智能知识库需求识别引擎什么是需求识别引擎智能知识库与需求识别引擎区别 技能插件语音翻译功能介绍体验 拍照翻译功能介绍体验 测关系功能介绍体验 拼颜值功能介绍体验 人工客服推荐阅读 微软小冰人工智…

沈向洋回归,从微软独立的小冰要弯道超车了

文 | 静静 定西 出品 | 网易科技《态℃》栏目组 一条消息&#xff0c;让沈向洋在八个月后再次“刷屏”。 微软今日宣布&#xff0c;将人工智能小冰业务分拆为独立公司运营&#xff0c;并委任沈向洋为新公司董事长&#xff0c;李笛为首席执行官。 大佬明星产品&#xff0c;会带来…

基于ZelinAI的周报小助手

ZelinAI是一家领先的人工智能公司&#xff0c;专注于创新的AI解决方案。ZelinAI团队由科学家、工程师和领域专家组成&#xff0c;拥有丰富的经验和专业知识。提供自然语言处理、计算机视觉、数据分析和智能助理等领域的解决方案&#xff0c;帮助客户实现业务增长和效率提升。在…

微信小程序bindtap与catchtap的区别

1、什么是事件 (1) 事件是视图层到逻辑层的通讯方式。 (2) 事件可以将用户的行为反馈到逻辑层进行处理。 (3) 事件可以绑定在组件上&#xff0c;当达到触发事件&#xff0c;就会执行逻辑层中对应的事件处理函数。 (4) 事件对象可以携带额外信息&#xff0c;如 id,dataset,touch…

国内镜像版4.0上线啦

chatGPT国内中文镜像官方原版在线免费体验A conversational AI system that listens, learns, and challengeshttps://chatx.taiyangyukeji.com

基于ChatGPT API的PC端软件开发过程遇到的问题的分析

如果喜欢本文章&#xff0c;记得收藏哦&#xff01; 关注我&#xff0c;一起学Java。 一、基于ChatGPT API的PC端软件开发过程遇到的问题的分析 最近这个OpenAI公司推出的GPT-4.0模型真是太火了。当然由于OpenAI目前还没有正式全面对外开放GPT-4.0 API&#xff0c;所以本次使用…

网站链接被微信屏蔽拦截了怎么办?VJump帮你解除屏蔽

出现这种情的原因呢&#xff0c;我相信大家也去了解了很多&#xff0c;但是对于商家来说&#xff0c;我们要避免出现这种情况&#xff0c;或出现了要立马解决。了解原因再去想解决办法是技术的事情。一天没解决&#xff0c;就多一天的损失。原因大同小异&#xff0c;无非是域名…

聊天消息敏感词屏蔽系统(字符串替换 str.replace(str1, *) )

Python 官网&#xff1a;https://www.python.org/ 这里&#xff0c;才 python 前沿。可惜是英文原版。所以&#xff0c;我要练习英文阅读。&#x1f9d0;&#x1f9d0; 我的CSDN主页My Python 学习个人备忘录我的HOT博老齐教室 自学并不是什么神秘的东西&#xff0c;一个人一辈…