【40分钟速成智能风控11】数据测试与应用

编辑

数据测试与应用

联合建模机制

数据质量评估

覆盖率

稳定性

模型效果

投资回报率

线上应用

数据安全合规

数据测试与应用

智能风控模型的搭建离不开机构内外部的数据源，如何从海量数据源中挑选出最合适的部分进行特征工程和风控建模，是风控人员在实际工作中所面临的问题。线上每个数据源的引入，都需要先通过一套完整的数据测试和应用流程。

联合建模机制

数据合作存在于风控场景中的各个玩家之间，大数据公司和互联网金融公司之间需要进行原始数据和底层特征的交互，互联网金融公司与传统金融机构之间也需要有模型分数和用户画像之间的交互。在当前的监管要求下，纯粹的数据合作已经越来越少，联合建模机制被广泛地应用于数据测试环节。联合建模是指数据需求方提供一批主键加密的客户样本，与数据提供方进行撞库，匹配出这批客户的底层数据，然后需求方在提供方的建模环境内进行数据分析和建模工作。最终需求方的线上模型也部署在数据提供方的机房内，大数据公司不输出任何明细字段。这样的机制保证了大数据公司的数据安全，互联网金融公司也没有泄露客户的任何信息，是满足当前监管要求的一种方案

除去这种联合建模机制，近两年也有多家科技公司提出联邦学习的概念，使得多家数据源公司能够将加密后的原始数据汇总到一起来共建模型。这一概念背后主要是利用了同态加密的原理，加密后的数字可以进行乘法和加法运算而无须解密；对于逻辑回归和深度学习模型，事实上可以拆分为加减乘除、sigmoid、tanh 和指数函数等少数几个计算组件，后三个函数都可以通过泰勒展开无限逼近来实现，因而已经能够支持联邦学习。不过目前联邦学习还存在计算量大、通讯要求高等问题，或许未来可以将区块链和5G技术引入其中解决这些痛点。

数据质量评估

在最终入模前，需要对内外部的数据源进行质量评估，主要从覆盖率、稳定性、模型效果和投资回报率（Return On Investment，ROI）四个方面考虑。

覆盖率

对于数据源的评估，覆盖率是首要考虑的因素，如果对于机构客群的覆盖率太低，则不满足建模的需求。通常外部数据源的覆盖率要在70%以上才会接入，不过像运营商和设备属性（通常只能覆盖Android手机）类数据，由于客观因素限制，可以考虑建立子模型。

稳定性

风控模型通常迭代周期较长，对于稳定性的要求也会比较高。对于内外部特征，都需要计算PSI来进行筛选，小于0.1才会考虑纳入模型。除去特征稳定性，还需要考虑系统层面的稳定性，对于线上调用经常超时和因为监管因素有下线风险的数据源，不建议接入，应优先考虑更为稳定的内部数据源。

模型效果

满足了覆盖率和稳定性的前提，才会进一步考虑数据源在模型上的表现。单特征的效果可以通过IV值或者树类模型的特征重要性来衡量；整体特征的效果可以从单独建立子模型和融入已有模型观察增益这两个方面来考虑。

投资回报率

在外部数据源正式采购前，还需要详细计算该数据源的ROI。首先，在保证效果的前提下，同类数据源能否在市场上找到最便宜的提供方；其次，外部数据放在哪个环节调用对于整体策略的收益最大，是否需要梯度式调用，这些都是需要考虑的问题。

线上应用

最终的应用环节，需要根据数据源的差异制定不同的线上方案。对于内部数据源，可以采用T+1或者T+7的形式跑批，模型结果线下批量更新完后再服务化；而对于外部数据源，由于成本较高，通常采用API调用的方式，线上实时计算模型结果并服务化。涉及外部数据源的模型，应先测试线上小流量，待确认数据提供方系统稳定后再放开流量。

数据安全合规

2018年5月，欧盟出台了《通用数据保护条例》（General Data Protection Regulation,GDPR），数据的安全合规问题再一次被风控从业者们所关注。就国内而言，从2017年“数据堂”侵犯个人信息案，到2019年底警方查处一批爬虫数据公司，风控数据乱象正得到逐步整治。2019年5月，国家互联网信息办公室也发布了《数据安全管理办法（征求意见稿）》，着重规范了网络运营者对于个人信息和重要数据的安全管理义务。

在该管理办法中，将利用网络开展数据收集、存储、传输、处理、使用等活动统一规范为数据活动，除纯粹家庭和个人事务外，在中国境内开展数据活动的行为都将受管理办法的制约。同时在此管理办法中，新增以下若干条例: