在银行风控场景中,特征、规则、模型是三个核心要素
一、特征、规则、模型的关系
1. 特征是基础
- 定义:原始数据中提取的变量(如年龄、收入、历史逾期次数)或衍生指标(如RFM中的消费频率)。
- 作用:
- 规则和模型的输入基础。
- 特征质量直接影响模型效果(如缺失值、高相关性特征可能导致模型偏差)。
- 风控场景常用特征:
- 客户属性(年龄、职业)
- 行为数据(还款记录、消费频次)
- 征信数据(信用评分、负债比)
2. 规则是业务逻辑的具象化
- 定义:基于业务经验或监管要求设定的硬性条件(如“信用评分<600分直接拒绝”)。
- 与特征的关系:
- 规则通常基于单个或少数特征(如“近3个月逾期次数≥2次”)。
- 规则可视为简单的“特征组合逻辑”(如“收入<5000元且负债比>70%”)。
- 与模型的关系:
- 前置规则:在模型预测前过滤高风险客户(如“黑名单客户直接拒绝”)。
- 后置规则:对模型输出进行二次筛选(如“模型预测违约概率>80%且年龄<25岁,拒绝”)。
3. 模型是复杂决策的核心
- 定义:通过算法学习特征间非线性关系的预测工具(如逻辑回归、XGBoost)。
- 与特征的关系:
- 模型可自动挖掘特征组合(如“收入×学历”)和交互效应(如高收入但频繁小额消费)。
- 模型生成的特征(如树模型的叶子节点、主成分分析结果)可反哺规则设计。
- 与规则的关系:
- 规则用于快速决策,模型用于精细化风险量化。
- 模型结果可作为规则输入(如“模型预测违约概率>阈值则触发人工审核”)。
二、Lift(提升度)
1. Lift的定义
- 公式:
Lift = (模型/规则识别的正例比例) / (总体正例比例)
- 含义:表示模型或规则相对于随机猜测的“提升能力”。例如,若总体违约率为5%,某规则识别的客户中违约率为20%,则Lift=4(即4倍于随机猜水平)。
2. Lift的应用对象
- 规则层面:
- 场景:评估规则过滤高风险客户的效果。
- 案例:某规则“近6个月查询次数>5次”的违约率为15%,总体违约率为5%,则Lift=3。
- 模型层面:
- 场景:评估模型预测的准确性。
- 案例:模型在Top20%高风险客户中覆盖了60%的实际违约客户,Lift=3(60% / 20%)。
- 特征层面:
- 间接应用:通过特征重要性或SHAP值分析特征对Lift的贡献(如某特征的高载荷区域违约率提升明显)。
3. 规则与模型的Lift对比
维度 | 规则 | 模型 |
---|---|---|
解释性 | 高(业务逻辑透明) | 低(需通过SHAP等工具解释) |
灵活性 | 低(需手动调整) | 高(自动适应数据变化) |
提升度潜力 | 低(单特征或简单组合) | 高(复杂特征交互) |
- Lift可同时评估规则和模型的效果,帮助优化风控策略。
三、三者的协同应用示例
某银行信用卡审批流程:
- 规则前置:
- 规则1:年龄<18岁 → 直接拒绝(Lift=∞,因年龄<18岁无审批资格)。
- 规则2:近1年逾期次数≥3次 → 拒绝(Lift=4)。
- 模型预测:
- 使用XGBoost模型预测违约概率,输出概率>0.7的客户进入人工审核。
- 模型在测试集的Lift=5(即模型识别的Top20%客户覆盖了50%的违约案例)。
- 规则后置:
- 模型输出概率>0.7且月收入<3000元 → 拒绝(进一步提升Lift至6)。
- 特征是风控的“原材料”,规则和模型是“加工工具”。
- 规则用于快速决策,模型用于深度挖掘,但规则的解释性和模型的复杂性需平衡。
- 趋势:传统规则逐渐被模型替代,但业务专家仍需通过规则对模型输出进行“人性化校准”。
四、特征分箱与Lift
前面,我们知道Lift可评估规则和模型的效果,这里我们将它用于特征的分箱:通过特征分箱并计算每箱的Lift值,是一种常用的特征评价和筛选方法。
1. 分箱的目的
- 离散化连续变量:将年龄、收入等连续特征转化为区间(如“20-30岁”“30-40岁”)。
- 捕捉非线性关系:例如,年龄与违约率可能呈现“U型”分布,分箱后更易识别。
- 提升模型解释性:分箱结果可直接转化为业务规则(如“收入<5000元拒绝”)。
2. 分箱方法选择
方法 | 适用场景 | 示例 |
---|---|---|
等宽分箱 | 数据分布均匀时(如年龄) | 按10岁间隔分为“0-10”“10-20”等 |
等频分箱 | 数据分布不均匀时(如收入) | 每个箱包含20%的样本 |
基于树模型 | 自动寻找最优分割点(如XGBoost) | 根据信息增益确定分箱边界 |
业务规则 | 强业务逻辑(如征信评分) | 信用评分<600分直接拒绝 |
3. 分箱后的数据处理
- 合并小箱:若某箱样本量<50,合并到相邻箱以避免统计偏差。
- 单调化处理:确保分箱后的特征与目标变量呈单调关系(如年龄越大,违约率越高)。
- 分箱数量:通常建议5-10箱,避免过拟合。
- 单调性要求:分箱后的特征应与目标变量保持单调关系(如收入越高,违约率越低)。
- 跨时间验证:需在不同时间段验证分箱的稳定性。
4. Lift的计算
- 公式:
Lift = (某箱的目标事件率) / (总体目标事件率)
- 目标事件率:如违约率、逾期率等。
- 案例:若总体违约率为5%,某箱违约率为20%,则Lift=4(风险是随机水平的4倍)。
计算各箱Lift值:
import pandas as pd# 假设df包含特征“age”和目标变量“default”
df['default_rate'] = df.groupby('age_bin')['default'].mean()
df['lift'] = df['default_rate'] / df['default'].mean()# 输出分箱结果
print(df.groupby('age_bin')['default_rate', 'lift'].mean())
五、评价
1. 分箱效果评估
- IV值(信息价值):IV>0.5表示强预测能力,0.3-0.5中等,<0.1弱。
- 基尼系数:分箱后的基尼系数越高,说明对目标变量的区分度越强。
2. 单箱风险识别
- 高Lift箱:Lift>3的箱可直接作为规则(如“年龄<25岁且Lift=4,拒绝”)。
- 低Lift箱:Lift<1的箱可能为低风险客户(如“高收入且Lift=0.3,优先审批”)。
3. 特征整体价值
- Lift分布均匀性:各箱Lift差异大,说明特征对目标变量敏感(如年龄)。
- 最大Lift值:特征的最大Lift值越高,潜在规则价值越大。
4. 模型贡献分析
- 特征重要性:结合树模型的特征重要性,判断分箱后的特征对模型的贡献。
- SHAP值:分析每个分箱对预测结果的影响(如“年龄在30-40岁”的SHAP值最高)。
六、分箱+Lift的应用场景
- 分箱+Lift是风控中特征评价的“黄金组合”,既能挖掘特征的预测能力,又能生成可解释的业务规则。
- 核心价值:通过量化各箱的风险提升度,实现特征筛选、规则优化和模型解释的三重目标。
1. 规则生成
- 案例:分箱后某箱Lift=5,且业务规则允许直接拒绝该箱客户。
- 规则:
if age_bin == '20-25岁' → 拒绝
2. 模型优化
- 特征工程:将分箱后的特征作为模型输入(如“年龄_bin”替代原始年龄)。
- 过拟合处理:通过分箱减少连续特征的噪声。
3. 策略迭代
- 监控:定期重新计算分箱Lift,应对数据漂移(如经济下行导致各箱违约率上升)。
- A/B测试:对比分箱规则与模型的Lift值,选择最优策略。
六、补充:Lift与随机猜测
上述Lift公式分母为群体的固有违约率,为何解释成与随机猜比较?实际上,该问题可转化为如下问题:
设一群客户的整体违约率为5%,问:1、所有的让其通过,结果违约率为多少?2、随机地让其通过或不通过,结果违约率为多少?
在银行风控场景中,客户的违约率是群体的固有属性,与是否被通过的策略无关。但被通过的客户群体中的违约率会因策略不同而变化。以下是具体分析:
问题1:所有客户都通过,结果违约率为多少?
- 答案:被通过的客户群体的违约率仍为5%。
- 解释:
- 违约率是整体客户的固有属性(5%),无论是否被通过,客户本身的违约概率不变。
- 若所有客户都通过,被通过的群体就是全体客户,因此违约率仍为5%。
问题2:随机通过或不通过,结果违约率为多少?
- 答案:被通过的客户群体的违约率仍为5%。
- 解释:
- 随机选择通过与否时,被选中的客户群体是原群体的无偏样本,其违约率与整体一致。
- 例如:若总客户数为1000人,违约50人(5%),随机通过,则通过的500人中约有25人违约,违约率仍为5%。
总结:策略对违约率的影响
策略 | 被通过客户的违约率 | 原因 |
---|---|---|
全部通过 | 5% | 无筛选,违约率等于整体。 |
随机通过/拒绝 | 5% | 随机选择不改变群体的统计特性。 |
模型筛选 | >5%(如15%) | 模型聚焦高风险客户,提升被选中群体的违约率(Lift效应)。 |
-
上述表中,客户整体的违约率为5%,模型筛选出的前10%客户(预测违约率最高)的违约率为15%,若让这批客户通过,其余客户不通过,则(反面效果)为:
Lift = 15 % 5 % = 3 \text{Lift} = \frac{15\%}{5\%} = 3 Lift=5%15%=3
这意味着模型使被选中群体的违约率是随机选择的3倍。 -
违约率是群体属性,与策略无关。
-
模型的价值在于筛选:通过提升(Lift)被选中群体的违约率,帮助业务聚焦高风险客户,降低成本或损失。