互联网金融业申请评分卡的介绍
本文主要讲解以下知识点
- 信用违约风险的基本概念
- 申请评分卡的重要性和特性
- 贷款申请环节的数据介绍和描述
- 非平衡样本问题的定义和解决方法
信用违约风险的基本概念
什么是信用违约风险?
交易对手未能履行约定契约中的义务而造成经济损失的风险,即受信人不能履行还本付息的责任而使授信人的预期收益与实际收益发生偏离的可能性,它是金融风险的主要类型。
业界常用衡量信用违约风险的指标
- PD(probability of default)违约概率:借款人在未来一定时期内发生违约的可能性。
- LGD(Loss Given Default)违约条件下的损失率:即违约发生时风险暴露的损失程度,从贷款回收的角度看,违约损失率决定了贷款回收的程度,违约损失率=1-回收率(Recovery Rate)。
- EAD(Exposure At Defaul)违约风险下的敞口暴露:是指债务人违约时的预期表内表外项目暴露总和。
- RWA(risk-weighted assets) 风险加重资产:是指对银行的资产加以分类,根据不同类别资产的风险性质确定不同的风险权重,以这种风险系数为权重求得的资产。
- EL(Expected Loss)期望损失:期望损失是银行从事业务所产生的平均损失。它可以通过对银行损失的历史数据统计得出。
信用违约的主体
- 个人违约:个人向金融机构借贷后,没有在规定的期限之内还款的行为
- 公司违约:公司向金融机构借贷后,没有在规定的期限之内还款的行为,或者公司在发行债券后,没有履行或者延期履行利
息或本金的支付义务 - 主权违约:一国政府无法按时对其向外担保借来的债务还本付息的情况
M0,M1,M2的定义
- M0:最后缴款日的第二天到下一个账单日
- M1:M0时段的延续,即在未还款的第二个账单日到第二次账单的最后缴款日之间
- M2:M1的延续,即在未还款的第三个账单日到第三次账单的最后缴款日之间
个贷中常用的违约定义
- M3 & M3+ 逾期:可以参考上面了解M3的含义,M3+等价于(大于等于M3+的所有情况,M3/M4/M5/M6......)
- 债务重组:债务重组又称债务重整,是指债权人在债务人发生财务困难情况下,债权人按照其与债务人达成的协议或者法院的裁定作出让步的事项。也就是说,只要修改了原定债务偿还条件的,即债务重组时确定的债务偿还条件不同于原协议的,均作为债务重组。债务重组主要有以下几种方式: (一 )以资产清偿债务; (二)债务转为资本; (三) 修改其他债务条件,如减少债务本金、降低利率、免去应付未付利息等; (四)以上三种方式的组合。
- 个人破产:是指作为债务人的自然人不能清偿其到期债务时,由法院依法宣告其破产,并对其财产进行清算和分配或者进行债务调整,对其债务进行豁免以及确定当事人在破产过程中的权利义务关系的法律规范。
- 银行主动关户或注销
- 其他相关违法行为
申请评分卡的重要性和特性
什么是评分卡?
信贷场景中的评分卡
- 以分数的形式来衡量风险几率的一种手段
- 是对未来一段时间内违约/逾期/失联概率的预测
- 有一个明确的区间,不一定是正区间,不过业界都习惯用正区间
- 通常分数越高越安全
- 数据驱动(之前往往是专家驱动,但是专家也有考虑不到或者考虑不全的情况)
- 评分卡类别:反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡
申请评分卡的概念
用在申请环节,以申请者在申请当日及过去的信息为基础,预测未来放款后的逾期或者违约概率
为什么要开发申请评分卡??
- 风险控制:借贷生命周期的第一个关口
- 营销:优质客户识别
- 资本管理:可作为PD模型的一个因子
评分卡的特性
- 稳定性
当总体逾期/违约概率不变时,分数的分布也应不变
- 区分性
违约人群与正常人群的分数应当有显著差异
- 预测能力
低分人群的违约率更高
- 和逾期概率等价
评分可以精准地反映违约/逾期概率,反之亦然
信贷产品一般流程图
贷款申请环节的数据介绍和描述
申请评分卡常用的特征
- 个人信息 学历 性别 收入
- 负债信息 在本金融机构或者其他金融机构负债情况
- 消费能力 商品购买纪录,出境游,奢侈品消费
- 历史信用记录 历史逾期行为
- 新兴数据 人际社交 网络足迹 出行 个人财务
非平衡样本问题的定义和解决方法
- 非平衡样本的定义:在分类问题中,每种类别的出现概率未必均衡例
比如:信用风险: 正常用户远多于逾期/违约用户、流失风险: 留存客户多于流失客户
- 非平衡样本的隐患
降低对少类样本的灵敏性
非平衡样本的解决方案
- 过采样:重复正比例数据,实际上没有为模型引入更多数据,过分强调正比例数据,会放大正比例噪音对模型的影响。
• 优点: 简单,对数据质量要求不高
• 缺点: 过拟合
- 欠采样:丢弃大量数据,和过采样一样会存在过拟合的问题。
• 优点: 简单,对数据质量要求不高
• 缺点: 丢失重要信息
- SMOTE( 合成少数过采样技术)
• 优点: 不易过拟合,保留信息
• 缺点: 不能对有缺失值和类别变量做处理