科普：特征、规则、模型，及Lift（提升度）

在银行风控场景中，特征、规则、模型是三个核心要素

一、特征、规则、模型的关系

1. 特征是基础

定义：原始数据中提取的变量（如年龄、收入、历史逾期次数）或衍生指标（如RFM中的消费频率）。
作用：
- 规则和模型的输入基础。
- 特征质量直接影响模型效果（如缺失值、高相关性特征可能导致模型偏差）。
- 风控场景常用特征：
  - 客户属性（年龄、职业）
  - 行为数据（还款记录、消费频次）
  - 征信数据（信用评分、负债比）

2. 规则是业务逻辑的具象化

定义：基于业务经验或监管要求设定的硬性条件（如“信用评分<600分直接拒绝”）。
与特征的关系：
- 规则通常基于单个或少数特征（如“近3个月逾期次数≥2次”）。
- 规则可视为简单的“特征组合逻辑”（如“收入<5000元且负债比>70%”）。
与模型的关系：
- 前置规则：在模型预测前过滤高风险客户（如“黑名单客户直接拒绝”）。
- 后置规则：对模型输出进行二次筛选（如“模型预测违约概率>80%且年龄<25岁，拒绝”）。

3. 模型是复杂决策的核心

定义：通过算法学习特征间非线性关系的预测工具（如逻辑回归、XGBoost）。
与特征的关系：
- 模型可自动挖掘特征组合（如“收入×学历”）和交互效应（如高收入但频繁小额消费）。
- 模型生成的特征（如树模型的叶子节点、主成分分析结果）可反哺规则设计。
与规则的关系：
- 规则用于快速决策，模型用于精细化风险量化。
- 模型结果可作为规则输入（如“模型预测违约概率>阈值则触发人工审核”）。

二、Lift（提升度）

1. Lift的定义

公式：Lift = （模型/规则识别的正例比例） / （总体正例比例）
含义：表示模型或规则相对于随机猜测的“提升能力”。例如，若总体违约率为5%，某规则识别的客户中违约率为20%，则Lift=4（即4倍于随机猜水平）。

2. Lift的应用对象

规则层面：
- 场景：评估规则过滤高风险客户的效果。
- 案例：某规则“近6个月查询次数>5次”的违约率为15%，总体违约率为5%，则Lift=3。
模型层面：
- 场景：评估模型预测的准确性。
- 案例：模型在Top20%高风险客户中覆盖了60%的实际违约客户，Lift=3（60% / 20%）。
特征层面：
- 间接应用：通过特征重要性或SHAP值分析特征对Lift的贡献（如某特征的高载荷区域违约率提升明显）。

3. 规则与模型的Lift对比

维度	规则	模型
解释性	高（业务逻辑透明）	低（需通过SHAP等工具解释）
灵活性	低（需手动调整）	高（自动适应数据变化）
提升度潜力	低（单特征或简单组合）	高（复杂特征交互）

Lift可同时评估规则和模型的效果，帮助优化风控策略。

三、三者的协同应用示例

某银行信用卡审批流程：

规则前置：
- 规则1：年龄<18岁 → 直接拒绝（Lift=∞，因年龄<18岁无审批资格）。
- 规则2：近1年逾期次数≥3次 → 拒绝（Lift=4）。
模型预测：
- 使用XGBoost模型预测违约概率，输出概率>0.7的客户进入人工审核。
- 模型在测试集的Lift=5（即模型识别的Top20%客户覆盖了50%的违约案例）。
规则后置：
- 模型输出概率>0.7且月收入<3000元 → 拒绝（进一步提升Lift至6）。

特征是风控的“原材料”，规则和模型是“加工工具”。
规则用于快速决策，模型用于深度挖掘，但规则的解释性和模型的复杂性需平衡。
趋势：传统规则逐渐被模型替代，但业务专家仍需通过规则对模型输出进行“人性化校准”。

四、特征分箱与Lift

前面，我们知道Lift可评估规则和模型的效果，这里我们将它用于特征的分箱：通过特征分箱并计算每箱的Lift值，是一种常用的特征评价和筛选方法。

1. 分箱的目的

离散化连续变量：将年龄、收入等连续特征转化为区间（如“20-30岁”“30-40岁”）。
捕捉非线性关系：例如，年龄与违约率可能呈现“U型”分布，分箱后更易识别。
提升模型解释性：分箱结果可直接转化为业务规则（如“收入<5000元拒绝”）。

2. 分箱方法选择

方法	适用场景	示例
等宽分箱	数据分布均匀时（如年龄）	按10岁间隔分为“0-10”“10-20”等
等频分箱	数据分布不均匀时（如收入）	每个箱包含20%的样本
基于树模型	自动寻找最优分割点（如XGBoost）	根据信息增益确定分箱边界
业务规则	强业务逻辑（如征信评分）	信用评分<600分直接拒绝

3. 分箱后的数据处理

合并小箱：若某箱样本量<50，合并到相邻箱以避免统计偏差。
单调化处理：确保分箱后的特征与目标变量呈单调关系（如年龄越大，违约率越高）。

分箱数量：通常建议5-10箱，避免过拟合。
单调性要求：分箱后的特征应与目标变量保持单调关系（如收入越高，违约率越低）。
跨时间验证：需在不同时间段验证分箱的稳定性。

4. Lift的计算

公式：Lift = （某箱的目标事件率） / （总体目标事件率）
目标事件率：如违约率、逾期率等。
案例：若总体违约率为5%，某箱违约率为20%，则Lift=4（风险是随机水平的4倍）。

计算各箱Lift值：

import pandas as pd# 假设df包含特征“age”和目标变量“default”
df['default_rate'] = df.groupby('age_bin')['default'].mean()
df['lift'] = df['default_rate'] / df['default'].mean()# 输出分箱结果
print(df.groupby('age_bin')['default_rate', 'lift'].mean())

五、评价

1. 分箱效果评估

IV值（信息价值）：IV>0.5表示强预测能力，0.3-0.5中等，<0.1弱。
基尼系数：分箱后的基尼系数越高，说明对目标变量的区分度越强。

2. 单箱风险识别

高Lift箱：Lift>3的箱可直接作为规则（如“年龄<25岁且Lift=4，拒绝”）。
低Lift箱：Lift<1的箱可能为低风险客户（如“高收入且Lift=0.3，优先审批”）。

3. 特征整体价值

Lift分布均匀性：各箱Lift差异大，说明特征对目标变量敏感（如年龄）。
最大Lift值：特征的最大Lift值越高，潜在规则价值越大。

4. 模型贡献分析

特征重要性：结合树模型的特征重要性，判断分箱后的特征对模型的贡献。
SHAP值：分析每个分箱对预测结果的影响（如“年龄在30-40岁”的SHAP值最高）。

六、分箱+Lift的应用场景

分箱+Lift是风控中特征评价的“黄金组合”，既能挖掘特征的预测能力，又能生成可解释的业务规则。
核心价值：通过量化各箱的风险提升度，实现特征筛选、规则优化和模型解释的三重目标。

1. 规则生成

案例：分箱后某箱Lift=5，且业务规则允许直接拒绝该箱客户。
规则：if age_bin == '20-25岁' → 拒绝

2. 模型优化

特征工程：将分箱后的特征作为模型输入（如“年龄_bin”替代原始年龄）。
过拟合处理：通过分箱减少连续特征的噪声。

3. 策略迭代

监控：定期重新计算分箱Lift，应对数据漂移（如经济下行导致各箱违约率上升）。
A/B测试：对比分箱规则与模型的Lift值，选择最优策略。

六、补充：Lift与随机猜测

上述Lift公式分母为群体的固有违约率，为何解释成与随机猜比较？实际上，该问题可转化为如下问题：
设一群客户的整体违约率为5%，问：1、所有的让其通过，结果违约率为多少？2、随机地让其通过或不通过，结果违约率为多少？

在银行风控场景中，客户的违约率是群体的固有属性，与是否被通过的策略无关。但被通过的客户群体中的违约率会因策略不同而变化。以下是具体分析：

问题1：所有客户都通过，结果违约率为多少？

答案：被通过的客户群体的违约率仍为5%。
解释：
- 违约率是整体客户的固有属性（5%），无论是否被通过，客户本身的违约概率不变。
- 若所有客户都通过，被通过的群体就是全体客户，因此违约率仍为5%。

问题2：随机通过或不通过，结果违约率为多少？

答案：被通过的客户群体的违约率仍为5%。
解释：
- 随机选择通过与否时，被选中的客户群体是原群体的无偏样本，其违约率与整体一致。
- 例如：若总客户数为1000人，违约50人（5%），随机通过，则通过的500人中约有25人违约，违约率仍为5%。

总结：策略对违约率的影响

策略	被通过客户的违约率	原因
全部通过	5%	无筛选，违约率等于整体。
随机通过/拒绝	5%	随机选择不改变群体的统计特性。
模型筛选	>5%（如15%）	模型聚焦高风险客户，提升被选中群体的违约率（Lift效应）。

上述表中，客户整体的违约率为5%，模型筛选出的前10%客户（预测违约率最高）的违约率为15%，若让这批客户通过，其余客户不通过，则（反面效果）为：
$\text{Lift} = \frac{15\%}{5\%} = 3$
这意味着模型使被选中群体的违约率是随机选择的3倍。
违约率是群体属性，与策略无关。
模型的价值在于筛选：通过提升（Lift）被选中群体的违约率，帮助业务聚焦高风险客户，降低成本或损失。