【金融风控】特征评估与筛选详解

内容介绍

掌握单特征分析的衡量指标
知道 IV，PSI等指标含义
知道多特征筛选的常用方法
掌握Boruta,VIF,RFE,L1等特征筛选的使用方法

【理解】单特征分析

什么是好特征

从几个角度衡量：覆盖度，区分度，相关性，稳定性

覆盖度

采集类，授权类，第三方数据在使用前都会分析覆盖度
- 采集类：如APP list （Android 手机 90%）
- 授权类：如爬虫数据（20% 30%覆盖度）GPS （有些产品要求必须授权）
一般会在两个层面上计算覆盖度（覆盖度 = 有数据的用户数/全体用户数）
- 全体存量客户
- 全体有信贷标签客户
覆盖度可以衍生两个指标：缺失率，零值率
- 缺失率：一般就是指在全体有标签用户上的覆盖度
- 零值率：很多信贷类数据在数据缺失时会补零，所以需要统计零值率
业务越来越成熟，覆盖度可能会越来愈好，可以通过运营策略提升覆盖度

总结：覆盖度 = 非空的样本数/总的样本数。

区分度

区分度是评估一个特征对好坏用户的区分性能的指标。

可以把单特征当做模型，使用AUC, KS来评估特征区分度
在信贷领域，常用Information Value (IV)来评估单特征的区分度
- Information Value刻画了一个特征对好坏用户分布的区分程度
  - IV值越大，区分程度越大
  - IV值越小，区分程度越小
  - IV值最后ln的部分跟WOE是一样的
  - IV计算举例（数据为了方便计算填充，不代表实际业务）
  婚配 good bad p_good p_bad p_good-p_bad ln(p_g/p_bad) IV
  未婚 40 30 50% 37.5% 0.125 0.2877 0.036
  已婚 30 40 37.5% 50% -0.125 -0.2877 0.036
  其他 10 10 12.5% 12.5% 0 0 0
  总计 80 80 100% 100% - - 0.072
  - IV<0.02 区分度小建模时不用（xgboost,lightGMB 对IV值要求不高） IV [0.02,0.5] 区分度大可以放到模型里 IV > 0.5 单独取出作为一条规则使用，不参与模型训练
  - 模型中尽可能使用区分度相对较弱的特征，将多个弱特征组合，得到评分卡模型
  - 连续变量的IV值计算，先离散化再求IV，跟分箱结果关联很大（一般分3-5箱）

婚配	good	bad	p_good	p_bad	p_good-p_bad	ln(p_g/p_bad)	IV
未婚	40	30	50%	37.5%	0.125	0.2877	0.036
已婚	30	40	37.5%	50%	-0.125	-0.2877	0.036
其他	10	10	12.5%	12.5%	0	0	0
总计	80	80	100%	100%	-	-	0.072

稳定性

特征稳定性主要通过计算不同时间段内同一类用户特征的分布的差异来评估

常用的特征稳定性的度量有Population Stability Index (群体稳定性指标，PSI)
当两个时间段的特征分布差异大，则PSI大，模型越不稳定
当两个时间段的特征分布差异小，则PSI小，模型越稳定

IV是评估好坏用户分布差异的度量
PSI是评估两个时间段特征分布差异的度量
都是评估分布差异的度量，并且公式其实一模一样，只是符号换了而已

总结：

#1.什么是好特征
覆盖度高（缺失率低，零值率低）
区分度高（IV高，单特征AUC 0.6以上）
稳定性强（PSI比较小）
相关性（特征之间彼此相关性不要太大）#2.怎么获得好特征
可以使用toad库来做单特征筛选，从IV，缺失率，相关性三个维度，一次性筛选出复合条件的好特征来

【理解】多特征筛选

当我们构建了大量特征时，接下来的调整就是筛选出合适的特征进行模型训练
过多的特征会导致模型训练变慢，学习所需样本增多，计算特征和存储特征成本变高
常用的特征筛选方法
- 星座特征
- Boruta
- 方差膨胀系数
- 递归特征消除
- L1惩罚项

星座特征

星座是大家公认没用的特征，区分度低于星座的特征可以认为是无用特征
- 把所有特征加上星座特征一起做模型训练
- 拿到特征的重要度排序
- 多次训练的重要度排序都低于星座的特征可以剔除

Boruta

Boruta算法是一种特征选择方法，使用特征的重要性来选取特征
- 网址：https://github.com/scikit-learn-contrib/boruta_py
- 安装：pip install Boruta -i https://pypi.tuna.tsinghua.edu.cn/simple/

原理

创建阴影特征 (shadow feature) : 对每个真实特征R，随机打乱顺序，得到阴影特征矩阵S，拼接到真实特征后面，构成新的特征矩阵N = [R, S]
用新的特征矩阵N作为输入，训练模型，能输出feature_importances_的模型，如RandomForest， lightgbm，xgboost都可以，得到真实特征和阴影特征的feature importances,
取阴影特征feature importance的最大值S_max，真实特征中feature importance小于S_max的，被认为是不重要的特征
删除不重要的特征，重复上述过程，直到满足条件
案例

import numpy as np
import pandas as pd 
import joblib
from sklearn.ensemble import RandomForestClassifier
from boruta import BorutaPy
#加载数据
pd_data = joblib.load('../data/train_woe.pkl')
pd_data

显示结果：

SK_ID_CURR TARGET AMT_GOODS_PRICE REGION_POPULATION_RELATIVE DAYS_BIRTH DAYS_EMPLOYED DAYS_REGISTRATION DAYS_ID_PUBLISH REGION_RATING_CLIENT_W_CITY REG_CITY_NOT_LIVE_CITY ... p_NAME_SELLER_INDUSTRY_Connectivity p_NAME_YIELD_GROUP_XNA p_NAME_YIELD_GROUP_high p_NAME_YIELD_GROUP_low_action p_NAME_YIELD_GROUP_low_normal p_PRODUCT_COMBINATION_Card Street p_PRODUCT_COMBINATION_Cash Street: high p_PRODUCT_COMBINATION_Cash X-Sell: high p_PRODUCT_COMBINATION_Cash X-Sell: low p_PRODUCT_COMBINATION_POS industry with interest
125406 245429 0 0.610118 0.016406 0.301190 0.092078 -0.099822 0.275679 -0.020586 -0.048048 ... 0.053257 0.383810 0.065650 0.073290 0.164891 -0.063697 -0.028915 -0.033661 0.083527 -0.065841
8155 109510 0 -0.366495 -0.410334 -0.440745 -0.608958 0.164707 0.193847 -0.536494 -0.048048 ... -0.065479 -0.090837 -0.132787 0.073290 -0.241145 -0.063697 -0.028915 -0.033661 0.083527 -0.348529
154053 278546 0 0.038650 0.016406 0.301190 0.371651 0.075169 0.060654 -0.020586 -0.048048 ... -0.065479 -0.090837 -0.132787 -0.316556 -0.241145 -0.063697 -0.028915 -0.033661 0.083527 -0.348529
300963 448668 0 -0.366495 -0.158446 0.301190 -0.171601 0.075169 -0.057870 -0.020586 -0.048048 ... -0.065479 -0.090837 -0.132787 -0.316556 0.164891 -0.063697 -0.028915 -0.033661 0.083527 -0.348529
269546 412373 0 -0.366495 -0.410334 -0.051704 -0.171601 -0.099822 -0.297834 -0.536494 -0.048048 ... 0.053257 -0.090837 0.110022 -0.152116 0.164891 -0.063697 -0.028915 -0.033661 -0.239387 0.084509
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
298994 446376 0 -0.050233 0.016406 -0.440745 -0.451249 -0.377708 -0.297834 -0.020586 -0.048048 ... 0.053257 -0.040815 0.110022 0.073290 -0.241145 -0.063697 -0.028915 -0.033661 0.083527 0.084509
269429 412242 0 -0.050233 0.016406 -0.440745 0.253381 0.075169 0.060654 -0.020586 -0.048048 ... -0.065479 -0.090837 -0.132787 0.073290 0.164891 -0.063697 -0.028915 -0.033661 0.083527 -0.348529
16 100020 0 0.268859 0.268275 0.301190 0.253381 -0.099822 -0.057870 -0.020586 0.459100 ... -0.065479 -0.090837 0.110022 0.073290 0.164891 -0.063697 -0.028915 -0.033661 0.083527 0.084509
97169 212804 0 0.038650 0.016406 -0.440745 -0.451249 0.075169 -0.057870 -0.536494 -0.048048 ... -0.065479 -0.090837 0.110022 0.073290 0.164891 -0.063697 -0.028915 -0.033661 0.083527 0.084509
90581 205165 0 -0.050233 -0.043274 0.301190 0.092078 0.075169 0.060654 -0.020586 -0.048048 ... -0.065479 -0.090837 -0.132787 0.073290 0.164891 -0.063697 -0.028915 -0.033661 0.083527 -0.348529

215257 rows × 79 columns

#处理数据，去掉id 和 目标值
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1)
x = pd_x.values   # 特征
y = pd_data['TARGET'].values # 目标
y = y.ravel() # 将多维数组降为一维

注意事项：` NOTE BorutaPy accepts numpy arrays only, hence the .values attribute

使用Boruta，选择features

# 先定义一个随机森林分类器
rf = RandomForestClassifier(n_jobs=-1, class_weight='balanced', max_depth=5)
'''
BorutaPy function
estimator : 所使用的分类器，
n_estimators : 分类器数量, 默认值 = 1000，auto是基于数据集自动判定
max_iter : 最大迭代次数, 默认值 = 100
'''
feat_selector = BorutaPy(rf, n_estimators='auto', random_state=1, max_iter=10)
feat_selector.fit(x, y)

展示选择出来的feature

# feat_selector.support_ # 返回特征是否有用，false可以去掉
pd_ft_select = pd.DataFrame({'feature':pd_x.columns.to_list(), "selected": feat_selector.support_})
pd_ft_select#查看哪些列是可以去掉的
pd_ft_select[pd_ft_select['selected']==False]

显示结果：

feature selected
0 AMT_GOODS_PRICE True
1 REGION_POPULATION_RELATIVE True
2 DAYS_BIRTH True
3 DAYS_EMPLOYED True
4 DAYS_REGISTRATION True
... ... ...
72 p_PRODUCT_COMBINATION_Card Street True
73 p_PRODUCT_COMBINATION_Cash Street: high True
74 p_PRODUCT_COMBINATION_Cash X-Sell: high True
75 p_PRODUCT_COMBINATION_Cash X-Sell: low True
76 p_PRODUCT_COMBINATION_POS industry with interest True

77 rows × 2 columns

feature selected
27 b_CREDIT_DAY_OVERDUE False
33 b_AMT_CREDIT_SUM_OVERDUE False
37 b_CREDIT_TYPE_Microloan False
38 b_CREDIT_TYPE_Mortgage False
42 pos_cash_paid_late_12_cnt False
55 p_NAME_CASH_LOAN_PURPOSE_Repairs False
60 p_CODE_REJECT_REASON_SCOFR False

feature	selected
0	AMT_GOODS_PRICE	True
1	REGION_POPULATION_RELATIVE	True
2	DAYS_BIRTH	True
3	DAYS_EMPLOYED	True
4	DAYS_REGISTRATION	True
...	...	...
72	p_PRODUCT_COMBINATION_Card Street	True
73	p_PRODUCT_COMBINATION_Cash Street: high	True
74	p_PRODUCT_COMBINATION_Cash X-Sell: high	True
75	p_PRODUCT_COMBINATION_Cash X-Sell: low	True
76	p_PRODUCT_COMBINATION_POS industry with interest	True

feature	selected
27	b_CREDIT_DAY_OVERDUE	False
33	b_AMT_CREDIT_SUM_OVERDUE	False
37	b_CREDIT_TYPE_Microloan	False
38	b_CREDIT_TYPE_Mortgage	False
42	pos_cash_paid_late_12_cnt	False
55	p_NAME_CASH_LOAN_PURPOSE_Repairs	False
60	p_CODE_REJECT_REASON_SCOFR	False

方差膨胀系数（VIF）

方差膨胀系数 Variance inflation factor (VIF)
- 如果一个特征是其他一组特征的线性组合，则不会在模型中提供额外的信息，可以去掉
- 评估共线性程度
  
  $\rm{x_i=1+\sum_{k\ne{i}}\beta_{k}x_{k}}$
- VIF计算：
  
  $\rm{VIF=\frac{1}{1-R^2}}$
- R^2^是线性回归中的决定系数，反映了回归方程解释因变量变化的百分比
- 上面的式子中, R²代表了预测值和真实值拟合的拟合程度，既考虑了预测值与真实值的差异，同时也兼顾了真实值的离散程度
  - R²<0.5 → 弱拟合
  - 0.5 ≤ R² ≤ 0.8 → 中度拟合
  - R² > 0.8 强拟合
  上面的公式中y = 真实值, $\hat{y}$ = 模型预测值, $\bar{y}$ = 真实值的平均值
  
  注意：理论上 R² < 0 是可能的，但是只出现在模型特别差的情况，因此不予讨论
  
  当R²越大，拟合的越好，说明x_i这个特征能被其它特征线性表示，当VIF超过某个阈值的时候，可以考虑把这个x_i删除
- VIF越大说明拟合越好，该特征和其他特征组合共线性越强，就越没有信息量，可以剔除

案例：

加载数据

import numpy as np
import pandas as pd 
import joblib
#statsmodels是统计学相关的库
from statsmodels.stats.outliers_influence import variance_inflation_factor
pd_data = joblib.load('../data/train_woe.pkl')
#去掉ID和目标值
pd_x = pd_data.drop(['SK_ID_CURR', 'TARGET'], axis=1)

计算方差膨胀系数

#定义计算函数
def checkVIF_new(df):lst_col = df.columns#x = np.matrix(df)x = df.values#这里i传入的是索引，从第0个特征开始，顺序计算所有特征的方差膨胀系数VIF_list = [variance_inflation_factor(x,i) for i in range(x.shape[1])]VIF = pd.DataFrame({'feature':lst_col,"VIF":VIF_list})return VIF
df_vif = checkVIF_new(pd_x)
df_vif

显示结果：

feature VIF
0 AMT_GOODS_PRICE 1.164528
1 REGION_POPULATION_RELATIVE 1.835830
2 DAYS_BIRTH 3.278163
3 DAYS_EMPLOYED 1.658723
4 DAYS_REGISTRATION 1.177438
... ... ...
73 p_PRODUCT_COMBINATION_Cash Street: high 2.384278
74 p_PRODUCT_COMBINATION_Cash X-Sell: high 1.926074
75 p_PRODUCT_COMBINATION_Cash X-Sell: low 2.102989
76 p_PRODUCT_COMBINATION_POS industry with interest 2.036221

77 rows × 2 columns

	feature	VIF
0	AMT_GOODS_PRICE	1.164528
1	REGION_POPULATION_RELATIVE	1.835830
2	DAYS_BIRTH	3.278163
3	DAYS_EMPLOYED	1.658723
4	DAYS_REGISTRATION	1.177438
...	...	...
73	p_PRODUCT_COMBINATION_Cash Street: high	2.384278
74	p_PRODUCT_COMBINATION_Cash X-Sell: high	1.926074
75	p_PRODUCT_COMBINATION_Cash X-Sell: low	2.102989
76	p_PRODUCT_COMBINATION_POS industry with interest	2.036221

选取方差膨胀系数 > 3的features

df_vif[df_vif['VIF'] > 3]

显示结果：

feature VIF
2 DAYS_BIRTH 3.278163
11 YEARS_BEGINEXPLUATATION_AVG 4.536902
12 FLOORSMAX_MEDI 5.418642
13 TOTALAREA_MODE 5.211742
16 AMT_REQ_CREDIT_BUREAU_YEAR 4.172515
18 NAME_INCOME_TYPE_Pensioner 3.416916
23 EMERGENCYSTATE_MODE_No 3.836772
27 b_CREDIT_DAY_OVERDUE inf
33 b_AMT_CREDIT_SUM_OVERDUE inf
35 b_CREDIT_TYPE_Car loan 3.127171
38 b_CREDIT_TYPE_Mortgage inf
65 p_NAME_PORTFOLIO_POS 3.273039
68 p_NAME_YIELD_GROUP_XNA 4.237860

	feature	VIF
2	DAYS_BIRTH	3.278163
11	YEARS_BEGINEXPLUATATION_AVG	4.536902
12	FLOORSMAX_MEDI	5.418642
13	TOTALAREA_MODE	5.211742
16	AMT_REQ_CREDIT_BUREAU_YEAR	4.172515
18	NAME_INCOME_TYPE_Pensioner	3.416916
23	EMERGENCYSTATE_MODE_No	3.836772
27	b_CREDIT_DAY_OVERDUE	inf
33	b_AMT_CREDIT_SUM_OVERDUE	inf
35	b_CREDIT_TYPE_Car loan	3.127171
38	b_CREDIT_TYPE_Mortgage	inf
65	p_NAME_PORTFOLIO_POS	3.273039
68	p_NAME_YIELD_GROUP_XNA	4.237860

总结：VIF越大，说明拟合越好，该特征和其他特征组合共线性越强，建议剔除。

RFE递归特征消除 (Recursive Feature Elimination)

使用排除法的方式训练模型，把模型性能下降最少的那个特征去掉，反复上述训练直到达到指定的特征个数、
- sklearn.feature_selection.RFE

案例

使用RFE，选择features

#如下的案例可以快速出结果
from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import RFE
X,y = load_iris(return_X_y=True)
#分类模型，C是正则化参数，用于控制模型复杂度和泛化能力，默认是1.0
lscv = LinearSVC(C=0.01)
# n_features_to_select 要选几个特征,  step 一次删掉几个
selector = RFE(lscv,n_features_to_select=2,step=1)
selector.fit(X,y)
# support_ 返回False的可以被删除, 返回True的留下
selector.support_
# 获取顺序 序号越大的是优先被删除的
selector.ranking_

显示结果：

array([False,  True,  True, False])

基于L1的特征选择 (L1-based feature selection)

使用L1范数作为惩罚项的线性模型(Linear models)会得到稀疏解：大部分特征对应的系数为0
希望减少特征维度用于其它分类器时，可以通过 feature_selection.SelectFromModel 来选择不为0的系数

案例

from sklearn.svm import LinearSVC
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
iris = load_iris()
X, y = iris.data, iris.target
X.shape

显示结果：

(150, 4)

#Prefer dual=False when n_samples > n_features.（当样本数量比特征数量多时，设置为False即可）
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
model = SelectFromModel(lsvc, prefit=True)
X_new = model.transform(X)
X_new.shape

显示结果：
(150, 3)

总结：我们一般不会单独去实现L1特征选择，不过我们在选择线性模型时如果使用L1进行正则化，就相当于已经用L1来帮我们做特征选择了。

【理解】特征监控

内部特征监控

释义：对内部的数据特征进行监控。

前端监控（授信之前）：特征稳定性
- 大多数情况下，随着业务越来越稳定，缺失率应该呈现逐渐降低的趋势
- 如下表所示，Week3缺失率突然增加到28%，大概率是数据采集或传输过程出问题了
- PSI，特征维度的PSI如果>0.1可以观察一段时间

特征名称	Week 1	Week 2	Week 3
缺失率	1%	2%	28%
零值率	20%	23%	18%
PSI	-	0.02	0.3

后端监控（放款之后）：特征区分度
- AUC/KS 波动在10%以内
- KS 如果是线上A卡 0.2是合格的水平
- IV值的波动稍大可以容忍，和分箱相关，每周数据分布情况可能不同，对IV影响大一些

特征名称	Week 1	Week 2	Week 3
AUC	0.64	0.66	0.62
KS	22%	23%	20%
IV	0.05	0.07	0.04

分箱样本比例

特征名称	Week 1	Week 2	Week 3
分箱1	10%	20%	15%
分箱2	50%	60%	75%
分箱3	40%	20%	10%

分箱风险区分：要重视每个特征的风险趋势单调性
- 每一箱的bad_rate有波动，容忍度相对高一些
- 要高度重视不同箱之间风险趋势发生变化，如分箱1，分箱2，在week2和week3 风险趋势发生了变化
- 如果风险趋势单调性发生变化，要考虑特征是不是要进行迭代

特征名称	Week 1	Week 2	Week 3
分箱1	30%	26%	20%
分箱2	10%	17%	23%
分箱3	5%	7%	6%

外部特征评估

释义：对外部（外来的）数据特征进行评估。

数据评估标准

覆盖度、区分度、稳定性
使用外部数据的时候需要注意

避免未来信息：使用外部数据的时候，可能出现训练模型的时候效果好，上线之后效果差
- 取最近一个时间周期的数据
- 之前3~4个月或者更长时间的数据做验证，看效果是不是越来越差
外部数据覆盖度如何计算
- 交集用户数 / 内部用户数
- 需要对内部所有用户调用外部数据？
  - 如果外部数据免费，那么全部调用，但付费的三方数据要在有必要的时候在调用
  - 在计算外部数据覆盖度前，首先应该明确什么客群适合这个第三方数据
  - 内部缺少数据且这个第三方数据能提升区分度，那这个第三方数据才有用
- 覆盖度 = 交集用户数 / 内部目标客群
避免内部数据泄露
- 如果需要把数据交给外部公司，让对方匹配一定要将内部信息做Hash处理再给对方匹配
- 匹配上的是共有的数据，匹配不上的外部无法得知其身份
避免三方公司对结果美化
- 内部自己调用接口测覆盖度直接调用即可
- 如果是把样本交给外部公司让对方匹配，一定要加假样本
  - 这样他们只能匹配出结果，但无法得知真实的覆盖度
  - 只有内部公司能区分出真假样本，从而计算出真实覆盖度
  - 如果覆盖度高于真实样本比例，说明结果作假
评分型外部数据

区分度和稳定性的分析方法同单特征的分析一样

区分度：AUC, KS, IV, 风险趋势

稳定性: PSI
内部特征训练的模型效果 vs 内部特征+外部特征训练的模型效果
- AUC有 2~3个点的提升就很好了
黑名单型外部数据
- 使用混淆矩阵评估区分度
  
  外部命中外部未命中
  内部坏 TP FN
  内部好 FP TN
- Precision: 外部命中的尽可能多的是内部的坏客户
- Recall: 内部的坏客户尽可能多的命中外部名单
外部数据是否具有可回溯性无法得知，所以尽可能取最近的样本去测

早期接入数据后要密切关注线上真实的区分度表现

	外部命中	外部未命中
内部坏	TP	FN
内部好	FP	TN

小结

单特征分析
- 覆盖度
- 区分度
- 相关性
- 稳定性
多特征筛选
- 星座
- Boruta
- VIF
- RFE
- L1
- 业务
内部特征的监控
- 前端稳定性
- 后端区分度
外部特征的评估
- 评分型数据
- 名单型数据
- 保护隐私
- 未来信息

【金融风控】特征评估与筛选详解

内容介绍

【理解】单特征分析

什么是好特征

覆盖度

区分度

相关性

稳定性

【理解】多特征筛选

星座特征

Boruta

方差膨胀系数（VIF）

RFE递归特征消除 (Recursive Feature Elimination)

基于L1的特征选择 (L1-based feature selection)

【理解】特征监控

内部特征监控

外部特征评估

小结

相关文章

链游系统定制化开发：引领游戏产业的新时代

2024 年 8 个最佳 API 设计工具图文介绍

知识库管理系统：企业数字化转型的加速器

24/11/12 算法笔记＜强化学习＞ Policy Gradient策略梯度

物理设备命名规则（Linux网络服务器 15）

SciPy：Python 科学计算工具包的全面教程

SAP_MM_SD_PP_FICO_视频课程几乎免费送

如何在Puppeteer中实现表单自动填写与提交：问卷调查

深度学习——权重初始化、评估指标、梯度消失和梯度爆炸

实验一：自建Docker注册中心

同三维T610UDP-4K60 4K60 DP或HDMI或手机信号采集卡

ReactPress技术揭秘

Java 网络编程（一）—— UDP数据报套接字编程

【MySQL】数据库表连接简明解释

SpringBoot（八）使用AES库对字符串进行加密解密

拦截器实现http请求访问本地图片

gpu-V100显卡相关知识

C++初阶——list

《DiffusionDet: Diffusion Model for Object Detection》ICCV2023

词嵌入方法（Word Embedding）

	SK_ID_CURR	TARGET	AMT_GOODS_PRICE	REGION_POPULATION_RELATIVE	DAYS_BIRTH	DAYS_EMPLOYED	DAYS_REGISTRATION	DAYS_ID_PUBLISH	REGION_RATING_CLIENT_W_CITY	REG_CITY_NOT_LIVE_CITY	...	p_NAME_SELLER_INDUSTRY_Connectivity	p_NAME_YIELD_GROUP_XNA	p_NAME_YIELD_GROUP_high	p_NAME_YIELD_GROUP_low_action	p_NAME_YIELD_GROUP_low_normal	p_PRODUCT_COMBINATION_Card Street	p_PRODUCT_COMBINATION_Cash Street: high	p_PRODUCT_COMBINATION_Cash X-Sell: high	p_PRODUCT_COMBINATION_Cash X-Sell: low	p_PRODUCT_COMBINATION_POS industry with interest
125406	245429	0	0.610118	0.016406	0.301190	0.092078	-0.099822	0.275679	-0.020586	-0.048048	...	0.053257	0.383810	0.065650	0.073290	0.164891	-0.063697	-0.028915	-0.033661	0.083527	-0.065841
8155	109510	0	-0.366495	-0.410334	-0.440745	-0.608958	0.164707	0.193847	-0.536494	-0.048048	...	-0.065479	-0.090837	-0.132787	0.073290	-0.241145	-0.063697	-0.028915	-0.033661	0.083527	-0.348529
154053	278546	0	0.038650	0.016406	0.301190	0.371651	0.075169	0.060654	-0.020586	-0.048048	...	-0.065479	-0.090837	-0.132787	-0.316556	-0.241145	-0.063697	-0.028915	-0.033661	0.083527	-0.348529
300963	448668	0	-0.366495	-0.158446	0.301190	-0.171601	0.075169	-0.057870	-0.020586	-0.048048	...	-0.065479	-0.090837	-0.132787	-0.316556	0.164891	-0.063697	-0.028915	-0.033661	0.083527	-0.348529
269546	412373	0	-0.366495	-0.410334	-0.051704	-0.171601	-0.099822	-0.297834	-0.536494	-0.048048	...	0.053257	-0.090837	0.110022	-0.152116	0.164891	-0.063697	-0.028915	-0.033661	-0.239387	0.084509
...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...	...
298994	446376	0	-0.050233	0.016406	-0.440745	-0.451249	-0.377708	-0.297834	-0.020586	-0.048048	...	0.053257	-0.040815	0.110022	0.073290	-0.241145	-0.063697	-0.028915	-0.033661	0.083527	0.084509
269429	412242	0	-0.050233	0.016406	-0.440745	0.253381	0.075169	0.060654	-0.020586	-0.048048	...	-0.065479	-0.090837	-0.132787	0.073290	0.164891	-0.063697	-0.028915	-0.033661	0.083527	-0.348529
16	100020	0	0.268859	0.268275	0.301190	0.253381	-0.099822	-0.057870	-0.020586	0.459100	...	-0.065479	-0.090837	0.110022	0.073290	0.164891	-0.063697	-0.028915	-0.033661	0.083527	0.084509
97169	212804	0	0.038650	0.016406	-0.440745	-0.451249	0.075169	-0.057870	-0.536494	-0.048048	...	-0.065479	-0.090837	0.110022	0.073290	0.164891	-0.063697	-0.028915	-0.033661	0.083527	0.084509
90581	205165	0	-0.050233	-0.043274	0.301190	0.092078	0.075169	0.060654	-0.020586	-0.048048	...	-0.065479	-0.090837	-0.132787	0.073290	0.164891	-0.063697	-0.028915	-0.033661	0.083527	-0.348529