1、风控系统部分
1.Blaze
blaze是FICO公司产品,用于规则管理,是模型ABC卡开发的前身。信贷公司开始放贷时,数据量少,申请用户少,难以建立模型。因此前期一般会用到专家经验判断好坏客户,然后通过风控决策管理系统进行高效作业,其中blaze就是一款应用多年,效率较高风控决策管理系统。但blaze属于商业产品,一般多应用于大银行,捷信等大型消费金融公司,收费可高于100万RMB每年,如果需要更多定制业务,收费更高。
1.1 A card
释义:Application scorecard 申请评分卡,对授信阶段提交的资料赋值的规则。
举例: “进件”是传统银行的说法,指申请单。评分卡是对一系列用户信息的综合判断。随着可以收集到的用户信息变多,授信决策者不再满足于简单的if、else逻辑,而是希望对各个资料赋予权重和分值,根据用户最后综合得分判断风险,通过划定分数线调整风险容忍度,评分卡应运而生。评分卡是逻辑回归算法的一种衍生。
1.2 B card
释义:Behavior scorecard 行为评分卡,对贷后可以收集到的用户信息进行评分的规则。
举例:与 A 卡类似,B卡也是一套评分规则,在贷款发放后,通过收集用户拿到钱后的行为数据,推测用户是否会逾期,是否可以继续给该用户借款。例如用户在某银行贷款后,又去其他多家银行申请了贷款,那可以认为此人资金短缺,可能还不上钱,如果再申请银行贷款,就要慎重放款。B卡模型中,有很多存量管理的子模型,包括激活沉默客户模型,找出价值较高客户,增加贷款额度模型等等。
1.3 C card
释义:Collection scorecard 催收评分卡,对已逾期用户未来出催能力做判断的评分规则。
举例:催收评分卡是行为评分卡的衍生应用,其作用是预判对逾期用户的催收力度。对于信誉较好的用户,不催收或轻量催收即可回款。对于有长时间逾期倾向的用户,需要从逾期开始就重点催收。逾期天数越多,催收难度越大。
催收一般分为多个坐席,M1,M2,M3等不同坐席员工经验和业务能力相差甚大。AI人工智能常用于前期自动化催收。
申请评分卡、行为评分卡和催收评分卡常合并称为“ABC卡”,应用在贷前、贷中和贷后管理。
1.4 MIS
释义:Management Information System 管理信息系统。
举例:MIS_weekly是MIS 系统出的周报,是从风控角度出发,涵盖当期重要数据和历史用户的风险表现,是授信模块需重点关注的报表。
1.5 Ser
释义:service的简写。“.ser” 是决策引擎工具SMG3的工程文件格式,故用 ser代指决策引擎规则版本。
举例:SMG3(Strategy Management Generation 3)是Experian提供的决策引擎工具,类 似的工具还有FICO的Blaze。决策引擎是一系列规则的集合,可处理大量的入参,最终输出结论。决策引擎规则是授信的核心构成之一,通常每个细分人群都会单独配置一个Ser,同一个授信流程也可执行多个Ser。
1.6 RBP
释义:Risk-based Pricing,风险定价。
举例:量化风险管理的一个核心就是风险定价,可以根据用户人群、模型决策风险、外部征信数据等条件,给用户授予额度和费率。
2、风控指标部分
2.1 Aging analysis
释义:账龄分析。显示各期至观察点为止的延滞率,其特点为结算终点一致,把分散于各个月的放贷合并到一个观察时间点合并计算逾期比率。
2.2 Vintage analysis
释义:统计每个月新增放款在之后各月的逾期情况,同样也是账龄分析。与aging analysis不同,vintage以贷款的账龄为基础,观察贷后N个月的逾期比率。也可用于分析各时期的放贷后续质量,观察进件规则调整对债权质量的影响。
举例:Deliquency Vintage 30+:表现月逾期30+剩余本金/对应账单生成月发放贷款金额。
2.3 C 、M
释义:C和M是描述逾期期数bucket的专有名词。M0为正常资产,Mx为逾期 x 期,Mx+为逾x期(含)以上。无逾期正常还款的bucket为M0,即C,M1即逾1期(1-29天) 。 M2+即逾2期及以上(30+) 。M2和M4是两个重要的观察节点,一般认为M1为前期,M2-M3为中期,M4以上为后期,大于M6的转呆账。
2.4 Delinquency
释义:逾期率/延滞率。评价资产质量的指标,可分为Coincident和Lagged两种观察方式。
2.5 Coincident
释义: 即期指标。用于分析当期所有应收账款的质量,计算延滞率。计算方式是以当期各bucket延滞金额除以本期应收账款(AR)总额。Coincident是在当前观察点总览整体,所以容易受到当期应收账款的高低导致波动,这适合业务总量波动不大的情况下观察资产质量。
举例:常看的一个指标Coincident DPD 30+
2.6 Lagged
释义: 递延指标。与coincident相同也是计算延滞率的一个指标,区别是lagged的分母为产生逾期金额的那一期的应收账款。Lagged观察的是放贷当期所产生的逾期比率,所以不受本期应收账款的起伏所影响。
举例:Lagged DPD 30+$(%)= Lagged M2+Lagged M3+Lagged M4+Lagged M5+Lagged M6
月末资产余额M1(1-29天): 统计月份月末资产中满足 1≤当前逾期天数≤29 的订单剩余本金总和,当前逾期天数为订单当前最大逾期天数,不包含坏账订单。
Lagged M1 =月末M1的贷款余额/上个月底的贷款余额(M0~M6)
2.7.0 PD(Past Due)
例如FPD1,SPD7,TPD30...
前面的字母,F:first,表示第一期逾期,同理 S,T,Q分别表示二 三 四, 后面会用数字表示。 如5PD30。
后面的数字, 指逾期天数,如果一个客户身上有FPD30的标记,那必然有FPD1 FPD7等小于30的标记。
dpd(days past due)逾期天数,贷放型产品自缴款截止日(通常为次一关账日)后一天算起。
4期中,任意一期逾期天数超过30天就算坏客户
需注意的一点,PD类指标通常互斥,也就是说一个人如果有了FPD标志就不会有SPD标志,SPD表示第一期正常还款但是第二期才出现逾期的客户。
2.7 DPD
释义:Days Past Due 逾期天数,自还款日次日起到实还日期间的天数。
举例:DPD7+/30+,大于7天和30天的历史逾期。业内比较严格的逾期率计算公式为:在给定时间点,当前已经逾期90天以上的借款账户的未还剩余本金总额除以可能产生90+逾期的累计合同总额。其分子的概念是,只要已经产生90天以上逾期,那么未还合同剩余本金总额都视为有逾期可能,而分母则将一些借款账龄时间很短的,绝对不可能产生90+逾期的合同金额剔除在外(比如只在2天前借款,无论如何都不可能产生90天以上逾期)。
2.8 FPD
释义:First Payment Deliquency,首次还款逾期。用户授信通过后,首笔需要还款的账单,在最后还款日后7天内未还款且未办理延期的客户比例即为FPD 7,分子为观察周期里下单且已发生7日以上逾期的用户数,分母为当期所有首笔下单且满足还款日后7天,在观察周期里的用户数。常用的FPD指标还有FPD 30。
举例:假设用户在10.1日授信通过,在10.5日通过分期借款产生了首笔分3期的借款,且设置每月8日为还款日。则11.08是第一笔账单的还款日,出账日后,还款日结束前还款则不算逾期。如11.16仍未还款,则算入10.1-10.30周期的
FPD7的分子内。通常逾期几天的用户可能是忘了还款或一时手头紧张,但FPD 7 指标可以用户来评价授信人群的信用风险,对未来资产的健康度进行预估。
与FPD 7 类似,FPD 30也是对用户首笔待还账单逾期情况进行观察的指标。对于逾期30天内的用户,可以通过加大催收力度挽回一些损失,对于逾期30天以上的用户,催收回款的几率就大幅下降了,可能进行委外催收。如果一段时间内的用户FPD 7较高,且较少催收回款大多落入了FPD 30 内,则证明这批用户群的non-starter比例高,借款时压根就没想还,反之则说明用户群的信用风险更严重。
2.9 Cpd30mob4
cpd用于催收模型,是催收指标,还款表现第四个月月末时点逾期是否超过30天,不包括历史
3.0 maxdpd30_mob4
四个观察期(月)内,逾期是否超过30天,包括历史
3.1 MOB在账月份
放款后的月份
举例:
MOB0,放款日至当月月底
MOB1,放款后第二个完整月份
MOB2,放款后第三个完整月份
mob3-3个月为短观察期,mob6-6个月为长观察期
3.2 Flow Rate
释义:迁徙率。观察前期逾期金额经过催收后,仍未缴款而继续落入下一期的几率。
举例:M0-M1=M月月末资产余额M1 / 上月末M0的在贷余额
8月M0-M1 :8月进入M1的贷款余额 / 8月月初即7月月末M0的在贷余额
补充信息:
宏观经济中
短期风险可以使用FDP,SPD,TPD进行衡量;
中期风险可以使用30+@MOB4;
长期风险使用90+@MOB6等
To measure the short-term risk, FPD,SPD,TPD could be used; To measure the middle-term risk, 30+@MOB4 could be used; To measure the long-term risk, 90+@MOB6 could be used;
不同产品应用不同指标
Fpd30(现金贷产品)
maxdpd30_mob4 (存量客户)
Cpd30mob4(催收客户)
汽车贷坏客户定义(仅做参考)
说明:由于场景细分,不同场景差异化较大,以上指标说明仅做参考。
3、风控模型部分
3.1 Benchmark
释义:基准。每个版本的新模型都要与一个线上的基准模型或规则集做效果比对。
3.2 IV
释义:information value 信息值,也称VOI,value of information,取值区间(0,1)。该值用来表示某个变量的预测能力,越大越好。金融风控筛选变量阈值为0.02。如果变量的iv低于0.02,那么变量就会被踢除。我作为模型专家提醒大家,iv值不能死记硬背,需要根据自己场景数据分布特点来定制阈值。不同场景变量iv值分布差异可能较大,例如放贷,车贷和现金贷。
3.3 K-S value
释义:K-S指klmogrov-smirnov,这是一个区隔力指标。所谓区隔力,是指模型对于好坏客户的区分能力。K-S值从0-1,越大越好,越小越差。真实场景中风控领域的模型ks能超过0.4的很少。
3.4 PSI
释义:population stability index,稳定度指标,越低越稳定。用于比较当前客群与模型开发样本客群差异程度,评价模型的效果是否符合预期。PSI越接近0,模型稳定性越好。当PSI小于0.1时表示模型比较稳定,当psi在0.1和0.25之间时模型稳定性出现波动,需要检查模型,如果必要,需要重新开发模型。
3.6 Logloss
释义:对数损失函数
当预测概率接近1时,对数损失缓慢下降。但随着预测概率的降低,对数损失迅速增加。对数损失值越大时,模型精确度越差,反之亦然。
3.7 Training Sample
释义:建模样本,用来训练模型的一组有表现的用户数据。配合该样本还有off-time sample(验证样本),两个样本都取同样的用户维度,通常要使用建模样本训练出的模型在验证样本上进行验证。
3.8 WOE
释义:weight of ecidence,证据权重,取值区间(-1,1)。违约件占比高于正常件,WOE为负数。绝对值越高,表明该组因子区分好坏客户的能力越强。评分卡模型的数据需要把原始数据转换为woe数据,从而减少变量的方差,使其平滑。IV值也是由woe值转换而来。由于woe在评估变量时有一定缺陷,因此一般用iv值评估变量重要性。
3.9 Bad Capture Rate
释义:坏用户捕获率。这是评价模型效果的一个指标,比率越高越好。
举例:Top 10% Bad Capture Rate是指模型评估出的最坏用户中的前10%用户,在样本中为坏用户的比率。
3.10 Population
释义:All Population,全体样本用户,包含建模样本与验证样本。
3.11 Variable
释义:变量名。每个模型都依赖许多的基础变量和衍生变量作为入参。变量的命名需要符合规范,易于理解和扩充。建模前变量是需要筛选的。大数据模型中,百分之90%以上变量是噪音变量。真正有用变量是其中极少部分。
3.12 CORR
释义:相关系数。Corr的绝对值越接近1,则线性相关程度越高,越接近0,则相关程度越低。相关系数计算要看数据分布,如果数据呈现正太分布,用皮尔森方法准确率较高;反之用斯皮尔曼方法更合适。
3.13 混淆矩阵confusion matrix
sensitivity:真阳性条件下,测试也是阳性
specificity:真阴性条件下,测试也是阴性
FALSE positive:真阴性条件下,测试却是阳性
FALSE negative:真阳性条件下,测试却是阴性
转存失败重新上传取消
3.14 模型算法
逻辑回归(logistic regression)
logistic回归是一种广义线性回归(generalized linear model),因此与多重线性回归分析有很多相同之处。它们的模型形式基本上相同,都具有 w‘x+b,其中w和b是待求参数,其区别在于他们的因变量不同,多重线性回归直接将w‘x+b作为因变量,即y =w‘x+b,而logistic回归则通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。如果L是logistic函数,就是logistic回归,如果L是多项式函数就是多项式回归。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释,多类可以使用softmax方法进行处理。实际中最为常用的就是二分类的logistic回归。
支持向量机(Support Vector Machine, SVM)
支持向量机(Support Vector Machine, SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM被提出于1964年,在二十世纪90年代后得到快速发展并衍生出一系列改进和扩展算法,在人像识别、文本分类等模式识别(pattern recognition)问题中有得到应用。支持向量机算法在小样本数据效果较好,训练大数据时耗时较长。
神经网络( Neural network )
逻辑性的思维是指根据逻辑规则进行推理的过程;它先将信息化成概念,并用符号表示,然后,根据符号运算按串行模式进行逻辑推理;这一过程可以写成串行的指令,让计算机执行。然而,直观性的思维是将分布式存储的信息综合起来,结果是忽然间产生的想法或解决问题的办法。这种思维方式的根本之点在于以下两点:1.信息是通过神经元上的兴奋模式分布存储在网络上;2.信息处理是通过神经元之间同时相互作用的动态过程来完成的。
注意:计算机神经网络和人脑生物神经网络运作原理是不同的。
有点:处理大数据高效,可处理复杂和多维数据,灵活快速
缺点:数据需要预处理
XGboost
XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。它在 Gradient Boosting 框架下实现机器学习算法。XGBoost提供并行树提升(也称为GBDT,GBM),可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境(Hadoop,SGE,MPI)上运行,并且可以解决数十亿个示例之外的问题。XGboost是集成树算法,由陈天奇发明,该算法在kaggle竞赛多次夺冠
4、风控基础词汇部分
4.1 APR
释义:Annual percentage rate,年度百分率,一年一次复利计息的利率。nominal APR名义利率,effective APR实际利率。
4.2 AR
释义:accounts receivable,当期应收账款。
4.3 Application fraud
释义:伪冒申请
4.4 Transaction fraud
释义:欺诈交易
4.5 Balance Transfer
释义:余额代偿,即信用卡还款业务。
4.6 Collection
释义: 催收。根据用户入催时间由短到长,分为Early collection(早期催收)、Front end(前段催收)、Middle range(中段催收)、Hot core(后段催收)Recovery(呆账后催收/坏账收入)这几个阶段,对应不同的催收手段和频率。
4.7 DBR
释义:debit burden ratio,负债比。通常债务人的在各渠道的总体无担保负债不宜超过其月均收入的22倍。
4.8 Installment
释义:分期付款
4.9 IIP
释义: 计提的坏账准备
4.10 PIP
释义:资产减值损失
4.11 NCL
释义:net credit loss,净损失率。当期转呆账金额减去当期呆账回收即为净损失金额。
4.12 Loan Amount
释义:在贷总额
4.13 MOB
释义:month on book 账龄
举例:MOB0,放款日至当月月底。MOB1,放款后第二个完整月份
4.14 Non-starter
释义:恶意逾期客户
4.15 Payday Loan
释义:发薪日贷款。无抵押的信用贷款,放款速度快,额度低,期限短但利率高。额度低和高利率是该模式的必要条件。
4.16 Revolving
释义:循环信用。提钱乐信用钱包给用户的就是循环额度,相对应的还有医美、教育类的专项额度。
4.17 WO
释义:Write-off ,转呆账,通常逾期6期以上转呆账。
5.金融风控建模实战经典教学案例
5.1 德国银行信用数据集(German credit)
5.2 江苏城投企业信用评级
上述案例视频学习链接:https://edu.csdn.net/course/detail/30611
5.3 美国金融科技公司lendingclub信贷数据集
5.4 消费者人群画像—信用智能评分
举办单位福建省数字福建建设领导小组办公室 & 福建省工业和信息化厅 & 福州市人民政府 & 中国电子信息产业发展研究院 & 数字中国研究院 & 中国互联网投资基金。奖金100万,获奖者还有大企业工作机会提供
上述案例视频学习链接:https://edu.csdn.net/course/detail/30742
6、金融信息收集网站
6.1股票/债券市场舆情分析和预警相关网站
万得,东方财富网 ,讯数据,彭博
6.2反洗钱调查
FATFhttp://www.fatf-gafi.org/
反洗钱金融行动特别工作组 。西方七国为专门研究洗钱的危害、预防洗钱并协调反洗钱国际行动而于1989年在巴黎成立的政府间国际组织,是目前世界上最具影响力的国际反洗钱和反恐融资领域最具权威性的国际组织之一。目前包括36个成员管辖区和2个区域组织,代表全球各地的大多数主要金融中心。其制定的反洗钱四十项建议和反恐融资九项特别建议(简称 FATF 40+9项建议),是世界上反洗钱和反恐融资的最权威文件
银行家年鉴(https://accuity.com/) 道琼斯(https://www.dowjones.com/)
6.3企业理财公告信息智能提取,助力银行客户经理营销
巨潮资讯网
欢迎学习更多风控建模相关知识《python金融风控评分卡模型和数据分析微专业课》
https://edu.csdn.net/combo/detail/1927