【40分钟速成智能风控11】数据测试与应用

目录

​编辑

数据测试与应用

联合建模机制

数据质量评估

覆盖率

稳定性

模型效果

投资回报率

线上应用

数据安全合规


数据测试与应用

智能风控模型的搭建离不开机构内外部的数据源,如何从海量数据源中挑选出最合适的部分进行特征工程和风控建模,是风控人员在实际工作中所面临的问题。线上每个数据源的引入,都需要先通过一套完整的数据测试和应用流程。

联合建模机制

数据合作存在于风控场景中的各个玩家之间,大数据公司和互联网金融公司之间需要进行原始数据和底层特征的交互,互联网金融公司与传统金融机构之间也需要有模型分数和用户画像之间的交互。在当前的监管要求下,纯粹的数据合作已经越来越少,联合建模机制被广泛地应用于数据测试环节。联合建模是指数据需求方提供一批主键加密的客户样本,与数据提供方进行撞库,匹配出这批客户的底层数据,然后需求方在提供方的建模环境内进行数据分析和建模工作。最终需求方的线上模型也部署在数据提供方的机房内,大数据公司不输出任何明细字段。这样的机制保证了大数据公司的数据安全,互联网金融公司也没有泄露客户的任何信息,是满足当前监管要求的一种方案

除去这种联合建模机制,近两年也有多家科技公司提出联邦学习的概念,使得多家数据源公司能够将加密后的原始数据汇总到一起来共建模型。这一概念背后主要是利用了同态加密的原理,加密后的数字可以进行乘法和加法运算而无须解密;对于逻辑回归和深度学习模型,事实上可以拆分为加减乘除、sigmoid、tanh 和指数函数等少数几个计算组件,后三个函数都可以通过泰勒展开无限逼近来实现,因而已经能够支持联邦学习。不过目前联邦学习还存在计算量大、通讯要求高等问题,或许未来可以将区块链和5G技术引入其中解决这些痛点。

数据质量评估

在最终入模前,需要对内外部的数据源进行质量评估,主要从覆盖率、稳定性、模型效果和投资回报率(Return On Investment,ROI)四个方面考虑。

覆盖率

对于数据源的评估,覆盖率是首要考虑的因素,如果对于机构客群的覆盖率太低,则不满足建模的需求。通常外部数据源的覆盖率要在70%以上才会接入,不过像运营商和设备属性(通常只能覆盖Android手机)类数据,由于客观因素限制,可以考虑建立子模型。

稳定性

风控模型通常迭代周期较长,对于稳定性的要求也会比较高。对于内外部特征,都需要计算PSI来进行筛选,小于0.1才会考虑纳入模型。除去特征稳定性,还需要考虑系统层面的稳定性,对于线上调用经常超时和因为监管因素有下线风险的数据源,不建议接入,应优先考虑更为稳定的内部数据源。

模型效果

满足了覆盖率和稳定性的前提,才会进一步考虑数据源在模型上的表现。单特征的效果可以通过IV值或者树类模型的特征重要性来衡量;整体特征的效果可以从单独建立子模型和融入已有模型观察增益这两个方面来考虑。

投资回报率

在外部数据源正式采购前,还需要详细计算该数据源的ROI。首先,在保证效果的前提下,同类数据源能否在市场上找到最便宜的提供方;其次,外部数据放在哪个环节调用对于整体策略的收益最大,是否需要梯度式调用,这些都是需要考虑的问题。

线上应用

最终的应用环节,需要根据数据源的差异制定不同的线上方案。对于内部数据源,可以采用T+1或者T+7的形式跑批,模型结果线下批量更新完后再服务化;而对于外部数据源,由于成本较高,通常采用API调用的方式,线上实时计算模型结果并服务化。涉及外部数据源的模型,应先测试线上小流量,待确认数据提供方系统稳定后再放开流量。

数据安全合规

2018年5月,欧盟出台了《通用数据保护条例》(General Data Protection Regulation,GDPR),数据的安全合规问题再一次被风控从业者们所关注。就国内而言,从2017年“数据堂”侵犯个人信息案,到2019年底警方查处一批爬虫数据公司,风控数据乱象正得到逐步整治。2019年5月,国家互联网信息办公室也发布了《数据安全管理办法(征求意见稿)》,着重规范了网络运营者对于个人信息和重要数据的安全管理义务。

在该管理办法中,将利用网络开展数据收集、存储、传输、处理、使用等活动统一规范为数据活动,除纯粹家庭和个人事务外,在中国境内开展数据活动的行为都将受管理办法的制约。同时在此管理办法中,新增以下若干条例:

  • 1)将重要数据纳入监管;
  • 2)新增个人敏感信息和重要数据备案管理制度;
  • 3)新增向第三方提供重要数据的批准管理制度;
  • 4)首次规范“爬虫”技术等自动获取数据的行为;
  • 5)首次针对AI技术自动合成信息进行规制;
  • 6)明确平台对于接入第三方应用的数据安全保障义务等。

对于风控工作者们来说,我们应该在安全合规的前提下采集必要的客户数据,并且利用大数据和机器学习技术最大化这些数据的价值,只有这样才能推动整个行业的健康发展。

print('要天天开心呀')

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/307160.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

高创新 | [24年新算法]NRBO-XGBoost回归+交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测

高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测 目录 高创新 | [24年新算法]NRBO-XGBoost回归交叉验证基于牛顿拉夫逊优化算法-XGBoost多变量回归预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现 [24年新算…

Centos7 搭建Mongodb 分片集群4.0/ PSA(三成员副本集)

MongoDB 简介:1、优点和缺点:2、MongoDB适用的业务场景:Centos7 搭建Mongodb 分片集群一、安装MongoDB社区版4.01、配置程序包管理系统(`yum`)2、安装对应版本的MongoDB软件包。3、创建运行mongodb的目录并禁用SELinux4、修改文件打开数5、初始化系统5.1、创建config配置…

性能测试-数据库优化二(SQL的优化、数据库拆表、分表分区,读写分离、redis)

数据库优化 explain select 重点: type类型,rows行数,extra SQL的优化 在写on语句时,将数据量小的表放左边,大表写右边where后面的条件尽可能用索引字段,复合索引时,最好按复合索引顺序写wh…

请求分发场景下的鉴权问题

说明:记录一次对请求分发,无法登录系统的问题。 场景 如下,在此结构下,如何判断该用户是已登录的用户; 常规操作,用户登录后给用户发Token,同时将发放的Token存入到Redis中。要求用户后续请求…

【Jenkins】Jenkins自动化工具介绍

目录 技术背景常规的手动打包步骤 Jenkins简介起源与发展Jenkins的核心价值1.自动化1.1代码构建1.2测试自动化1.3自动部署 2.持续集成与持续部署CI/CD的概念如何减少集成问题更快速地发布软件版本 Jenkins优势Jenkins的主要竞争对手Travis CI:CircleCI:GitLab CI: Jenkins与其他…

Flutter第九弹 构建列表元素间距

目标: 1)Flutter Widget组件之间间距怎么表示? 2)列表怎么定义子项之间间距? 一、间距的表示组件 列表组件的间距一般采用固定间距,间距占据可见的空间。 已经使用的表示间距的组件 Spacer&#xff1a…

VUE_H5页面跳转第三方地图导航,兼容微信浏览器

当前项目是uniapp项目,若不是需要替换uni.showActionSheet选择api onMap(address , organName , longitude 0, latitude 0){var ua navigator.userAgent.toLowerCase();var isWeixin ua.indexOf(micromessenger) ! -1;if(isWeixin) {const mapUrl_tx "…

TripoSR: Fast 3D Object Reconstruction from a Single Image 论文阅读

1 Abstract TripoSR的核心是一个基于变换器的架构,专为单图像3D重建设计。它接受单张RGB图像作为输入,并输出图像中物体的3D表示。TripoSR的核心包括:图像编码器、图像到三平面解码器和基于三平面的神经辐射场(NeRF)。…

C语言进阶课程学习记录-数组指针和指针数组分析

C语言进阶课程学习记录-数组指针和指针数组分析 实验-数组指针的大小实验-指针数组小结 本文学习自狄泰软件学院 唐佐林老师的 C语言进阶课程&#xff0c;图片全部来源于课程PPT&#xff0c;仅用于个人学习记录 实验-数组指针的大小 #include <stdio.h>typedef int(AINT…

js解密心得,记录一次抓包vue解密过程

背景 有个抓包结果被加密了 1、寻找入口&#xff0c;打断点 先正常请求一次&#xff0c;找到需要的请求接口。 寻找入口&#xff0c;需要重点关注几个关键字&#xff1a;new Promise 、new XMLHttpRequest、onreadystatechange、.interceptors.response.use、.interceptors.r…

蓝桥杯python速成

总写C&#xff0c;脑子一热&#xff0c;报了个Python&#xff08;有一点想锤死自己&#xff09;&#xff0c;临时抱佛脚了 1.list的插入删除 append extend insert&#xff08;在索引位插入99&#xff09;---忘记用法别慌&#xff0c;用help查询 remove&#xff08;去掉第一个3…

Spring Boot 学习(4)——开发环境升级与项目 jdk 升级

各种版本都比较老&#xff0c;用起来也是常出各样的问题&#xff0c;终于找到一个看来不错的新教程&#xff0c;是原先那个教程的升级。遂决定升级一下开发环境&#xff0c;在升级遇到一些问题&#xff0c;摸索将其解决&#xff0c;得些体会记录备查。 最终确定开发环境约束如下…

基于单片机的智能居家火灾报警系统

摘要:采用STC15L2K32单片机设计了一种智能火灾报警系统,它是控制中心与多个不同功能的探测模块构成,实现了一个中心、多点辐射的火灾检测和报警功能。 关键词:智能居家,火灾报警系统,单片机,模块化设计。 0 引言 近些年电子技术、计算机技术为火灾报警系统和灭火系统在…

搭建Maven的Nexus3私服

搭建Maven的Nexus3私服 1、常见的Maven私服产品 Apache的ArchivaJFrog的ArtifactorySonatype的Nexus&#xff08;[ˈneksəs]&#xff09;&#xff08;当前最流行、使用最广泛&#xff09; 2. windows java8安装和配置私服Nexus3 参考&#xff1a; https://zhuanlan.zhihu…

Idea中 maven 下载jar出现证书问题

目录 1&#xff1a; 具体错误&#xff1a; 2&#xff1a; 忽略证书代码&#xff1a; 3&#xff1a; 关闭所有idea&#xff0c; 清除缓存&#xff0c; 在下面添加如上忽略证书代码 4&#xff1a;执行 maven clean 然后刷刷新依赖 完成&#xff0c;撒花&#xff01;&#x…

uni-app web端使用getUserMedia,摄像头拍照

<template><view><video id"video"></video></view> </template> 摄像头显示在video标签上 var opts {audio: false,video: true }navigator.mediaDevices.getUserMedia(opts).then((stream)> {video document.querySelec…

小程序 SSL证书的重要性与选择

随着移动互联网的迅猛发展&#xff0c;微信小程序已成为众多企业和开发者连接用户的重要平台。然而&#xff0c;随之而来的是对数据安全和隐私保护的严峻挑战。在这一背景下&#xff0c;小程序SSL证书的作用变得尤为重要&#xff0c;它为小程序提供了一个安全的通信管道&#x…

【linux深入剖析】动态库的使用(续) | 动静态库的链接

&#x1f341;你好&#xff0c;我是 RO-BERRY &#x1f4d7; 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 &#x1f384;感谢你的陪伴与支持 &#xff0c;故事既有了开头&#xff0c;就要画上一个完美的句号&#xff0c;让我们一起加油 目录 回顾1. 打包库的使用2. 动…

redis-缓存穿透与雪崩

一&#xff0c;缓存穿透&#xff08;查不到&#xff09; 在默认情况下&#xff0c;用户请求数据时&#xff0c;会先在缓存(Redis)中查找&#xff0c;若没找到即缓存未命中&#xff0c;再在数据库中进行查找&#xff0c;数量少可能问题不大&#xff0c;可是一旦大量的请求数据&a…

IDM激活步骤-亲测可用

前言&#xff1a;我试了3种方法&#xff0c;仅以下方法激活成功&#xff0c;其他都是30天试用 使用步骤&#xff1a; 1.从官网下载IDM并安装&#xff1a;https://www.internetdownloadmanager.com/ 2.下载激活工具&#xff1a;https://wwif.lanzouw.com/iSY2N16s81xi &#…