风控数据分析-反欺诈

python信用评分卡(附代码,博主录制)

https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share

目前贷款的风控因为每一个样本的收集都需要放款来收集,想想每人放一万,一个亿也就只能放1万人,所以样本量不会太大。所以所谓大数据风控主要是大在特征的数据上。很多时候是用了很多传统上不怎么敢用的特征。比如传统风控比较害怕missing value 比较害怕不稳定的特征 这些都是大数据风控需要解决的。

到模型,既然是特征多,样本少,那就需要一个非常抗过拟合的模型。另外如果是单独针对反欺诈而不是信用,因为问题比较非线性,所以需要一个有非线性能力的模型。满足这两者要求的都可以。

当然上面说到的只是针对预测贷款用户好坏的二分类问题,至于很多风控领域的其他问题,就有不同的解决方案了。

说到有效性。据我所知目前市场上有一些非常小额短期的产品已经可以完全按照一个模型放款并盈利了。完全不需要人参与。这类产品通过小额解决了样本少的问题。通过短期解决了收集label慢的问题。所以还不太容易推广到大额长期产品上去。


我理解,目前大数据风控主要分为三类:

  1. 反欺诈模型
  2. 二元好坏模型
  3. 资产包风控模型

 

由于题主提出的问题围绕着风控模型,而讨论模型必定和实际的应用场景和数据源相关,因此就前四个问题一并回答。

首先金融科技公司大致分为三类,基于线上垂直领域(教育、医疗、电商)、基于特定客群(学生、蓝领、白领)、基于线下场景(车贷、租房)。不同公司在数据维度、授信客群、产品上都有较大区别。基本而言,风险主要集中于信用风险欺诈风险

 


一、模型在信用风险的用途:

1.授信准入阶段

首先是授信准入阶段,此阶段最重要的模型是进件评分卡模型,数据来源主要分为申请信息、历史消费信息、外部信息(例如多投借贷、公积金等)。常用模型包含LR、Xgboost、FFM等。不同模型的选取由是否需要在线更新、可解释性、线上部署环境等多种因素决定。LR的研究非常成熟,有完整的工业分布式解决方案和在线增量学习的理论基础,包括各种带正则项的变种,是非常理想的建模方法,很多时候它还会作为基准型,用于评价复杂模型的提升效果。

一般的线性模型会遇到两个问题:

一是非线性特征的学习,比如年龄。一般使用的方法是进行变量离散化,把年龄分成不同的段或者使用稀疏编码或者自编码等算法对品类或者其他信息进行重构。

二是交互影响,例如收入特征和年龄特征的交叉。高收入的中年人是干爹和干妈,高收入的年轻人是高富帅和白富美,两者的特点完全不一样。所以我们也会使用Xgboost等模型加工非线性特征,或使用FM/FFM类算法学习交叉特征,以此提升模型拟合能力。

此外在这个环节需要注意的是,由于很多公司的数据维度是有限的,分数低的用户并不一定是逾期风险较高的,而可能仅仅是留下数据较少的用户,随着业务的逐步扩张,怎么再去找更多的维度或者在原有数据维度上构建更细腻度的特征来刻画之前无法覆盖的用户群体是关键。

其次由于黑产的猖獗,时刻需要提防刷分、养号的用户,最好的解决方式是通过分析异常群体的行为,构建有区分度的特征或者引入更多数据维度使得可以更加细腻的刻画正常用户的行为,最后还需要结合产品去完善模型。

业务扩张的时候,客群的分布可能发生较大变化,引起的概念漂移也是值得关注的。


2.用户生命周期阶段

当用户准入后需要进行用户生命周期管理,常用到模型是行为评分卡

和准入阶段不一样,在这个阶段,用户由于大多已经有过至少一次的还款行为,因此可以在数据维度加入借贷数据。

除此之外,需要考虑如何调整额度和息费,保证优质的用户得到更低的息费和更高的额度,而数据表现较差的用户需要用更高的息费来覆盖风险。

但不顾风险的一味最求高收益和不求收益的低风险都是没有意义的。定价模型的重点在于对用户需求和风险的合理预估,调整各个用户群体的息费和额度档次。实则可以看成对资金在不同风险回报的分配,使得在一定的风险下,总体风险收益最大化,技术上会涉及很多带约束的优化问题。


3.催收阶段

最后一个阶段,一小部分用户会逾期进入催收阶段。

这个时期重点是失联修复和催收评分卡,即刻画用户经过一定的催收动作后还款的可能性。

失联修复很好理解,就是通过各种社交数据,建立起关系网络找出与欠款人可能相关的人或者欠款人的其他联系方式。而催收评分卡需要使用到催收数据,催收数据大多是文本音频类型文件备份,因此对这种非结构类型数据的挖掘是这个阶段的核心。

催收的时机,是催收成功最重要的因素。由于催收资源有限,我们需要按照一定的分配规则来分配催收资源。在逾期的较早时期,应该将更多的资源放在较难催收的用户上,而其他的用户可能由于是忘记还款或者其他的非恶意拖欠原因没有还钱,可能给予一段时间会自我救赎;而在催收晚期,则需要放置更多催收资源在能够催回的用户上,尽最大可能降低损失。


二、模型在反欺诈风险方面的用途:

除了上述的信用风险,还有一块较大的职责就是欺诈风险。

现阶段,业界更多关注的是有组织参与的中介欺诈,常见的如批注、盗号、薅羊毛、养号、套现等诸多行为的识别。由于是团伙作案,更多是基于社交网络的社团发现算法来对中介的识别,或者是利用套现中的地址集中性相似性等特点来识别中介,或使用时间序列算法来分析用户的历史行为轨迹,手机传感器信息等生物指纹数据来核实身份。

欺诈风险的难点有别于信用风险,在较多场景下很难定义好坏用户。因此关键在于标签的获得。通常需要同案件调查人员配合,因为他们能够准确定义欺诈,同时能够还原犯罪手法,针对于模型Y变量定义,X变量设计都很有帮助。

其次,由于对抗性强,因此如何检测未发现的欺诈模式和模型的更新速度更加关键。目前这一块工作业界发展都比较滞后。

最后,授信客群的变化或者欺诈团伙作案手法的变化导致原有模型可能失效,加上风险的滞后性,最新可用的训练数据可能已经离目前较远,如何从最新的数据获取模式与旧的数据模式的遗忘是难点。


三、补充

最后,补充如下几点模型评测的注意事项:

1. 由于线下训练环境和线上真实用户群体存在差异,模型的泛化能力很重要,需要确保模型学习到的是有区分度的模式而不是数据中的噪音

2. 线下使用评测指标主要是刻画准确度与区分度的ks、auc、洛伦兹曲线和Lift曲线等和模型稳定性指标psi。

3. 客群逾期率的高低和公司产品的形态有重要关系,短期提升可以通过反欺诈技术得到改善、而中长期需要依托信用风险模型、但最终还得看产品的授信客群,面向不同客群的风控模型的指标对比试没有意义的。


 


结合平时的工作经验回答下,大数据风控一般来讲有如下几个特征:
1.高对抗性
现在黑产非常庞大,刷单、薅羊毛、密码爆破、扫号、发帖机、灌水等等时时刻刻都在发生,无时无刻不在攻防。
2.灵活性
攻击者不断变化特征和行为,风控策略每天都需要更新,必须要保证风控策略的灵活性。
3.准确性
风控策略首先需要保证准确性,在保证准确性的同时再去提高召回率,准确性太低肯定会引起大量用户投诉。

大数据风控对模型的挑战:
1.模型的泛化能力
我们平时上线的一些模型,上线时可能效果非常好,但是上线后命中量基本是直线下降状态,一周后命中量可能降到接近零。不得不佩服黑产的强大比较简单的模型意义不大,几天甚至几个小时就可以尝试出来并规避。我们知道复杂的特征和模型可以增强模型的泛化能力,采用复杂特征和更多维度的特征是很有效的。
2.模型的可解释性
风控模型识别出来的数据需要做相应的处理,任何机器识别处理都不可能完全避免用户的投诉和异义,对于模型一定要了解业务特征,能够转化为客服和用户可以理解的语言去解释,使得任何处理我们都有理有据。
3.模型的更新速度
高对抗性场景下,模型快速更新是关键

使用的模型:
1.聚类: 比如常见的相似文本聚类,大量用户发相似帖子是常见的灌水行为,需要处理。
2.分类:比如我们根据已经识别的有风险和无风险的行为,去预测现在正在发生的行为,根据关键字动态去识别预测效果不错。
3.离群点检测:比如登录行为,当同ip登录大量登录失败,这种行为可能是暴力破解,当同ip登录基本全部成功,这种行为可能是机器登录,采用离群点检测发现这两类行为并处理。
4.深度学习:广告图像识别,黄色图像识别等

具体模型和技术:
我们主要使用了kmeans,dbscan,随机森林,c4.5决策树,logistic regression,cart,adaboost,svm,em,深度学习等模型。数据和特征比模型更重要,数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。使用的框架有spark,storm,hadoop,caffe,libsvm,scikit-learn等

 

博主的Python视频教学中心:
https://m.study.163.com/user/1135726305.htm?utm_campaign=share&utm_medium=iphoneShare&utm_source=weixin&utm_u=1015941113

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/36420.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Facebook第三方登录对接

一、背景调研 1、什么是第三方登录? 第三方登录是基于用户在第三方平台上已有的账号和密码来快速完成己方应用的登录或者注册的功能。而这里的第三方平台,一般是已经拥有大量用户的平台,国外的比如Facebook,Twitter等&#xff0…

原来支付宝、财付通每天都是这样对账、风控的!

为了可以更好地解释支付结算系统对账过程,我们先把业务从头到尾串起来描述一下场景,帮助大家理解:一个可能得不能再可能的场景,请大家深刻理解里面每个角色做了什么,获取了哪些信息: 某日阳光灿烂&#xff…

虚拟机网络发生错误,需要运行NetworkManager

虚拟机网络发生错误,需要运行NetworkManager 你只需要在root用户中输入systemctl start NetworkManager.service这一条简单的指令就行

VCSA7.0访问提示no healthy upstream故障解决方案

打开vCenter网页显示no healthy upstream报错,报错如图 解决办法: 1、使用SSH访问VSCA主机。 2、输入如下命令,检查证书有效期,发现__MACHINE_CERT证书到期。 for i in $(/usr/lib/vmware-vmafd/bin/vecs-cli store list); do …

PG数据库提示: FATAL: sorry, too many clients already

目录 场景: idea启动提示如下错误 翻译: 连接数相关查询: 原因分析: 解决方法: 场景: idea启动提示如下错误 org.postgresql.util.PSQLException: FATAL: sorry, too many clients alreadyat org.pos…

vCenter Server出现no healthy upstream的解决方法

一天,访问vCenter,浏览器报:no healthy upstream,其他什么也没有 该 网上找了一些故障原因,诸如:vCenter Server部分服务没有运行,或者运行出现错误;vCenter Server设置的DNS服务器出…

GPT-4 太香了!

4月30日,OpenAI官方悄悄发布了联网版GPT-3.5。虽然名字变了,但使用体验却是换汤不换药,还是那套。 然而,万万没想到的是,刚过去没几天,昨天5月4日,鱼哥发现自己的Plus账号竟然多了一些能力&…

该为 GPT-4 降温了

文 / 韩彬(微信公众号:量子论) 昨天,微信里讨论GPT-4发布会内容的信息此起彼伏,我的心头又温暖又难过,感觉像是回到了乔布斯还在世的时候,大家激动讨论苹果发布会的那些日子。 同时,…

太炸了!GPT-4 Plus又推出新功能了!

最近Open AI 在GPT-4 Plus又更新了新功能。 支持Web Browsing with GPT-4 & Code Interpreter 新功能是按照plugin的方式集成的。如果有plus账号的朋友,可以去官方https://openai.com/blog/chatgpt-plugins,申请,也可以第一时间体验上面的…

Android开发之智能聊天机器人

Android开发之智能聊天机器人 一:效果图二:注册图灵机器人,获取api1.进入图灵机器人官网注册,已有账号的可直接登录2.点击创建机器人3.创建好机器人之后会得到一个ApiKey(如图所示)4.下面就要拼接Api地址了(拼接方法如图所示) 三.下面就是具体实现的代码了1.首先是布…

■ Android集成百度语音识别

实现这个功能的目的,是我看见我公司硬件工程师给客户回答问题的时候用公司研发的APP,每次都是手动输入打字,看着他带着老花镜的样子,于心不忍,毕竟咱就是干这个的. 实现效果 集成 百度语音实时识别 https://ai.baidu.com/sdk#asr AndroidManifest.xml 文件 <uses-permis…

百度云助力微信小程序图文识别,让你的应用更加高效智能

前言 如今人们对于信息的获取需求越来越高&#xff0c;而图像识别技术的发展为我们带来了更加便捷高效的信息获取方式。微信小程序作为一种新型的应用形态&#xff0c;越来越受到用户的青睐。而本文将为大家介绍微信小程序基于百度云的图文识别技术。让我们一起来看看微信小程序…

chatGPT 和AlphaGo下围棋,谁赢?垂域大模型有戏么?

这边来的少&#xff0c;但发个文章通报下近况&#xff0c;长期做AI产研、投融资工作后&#xff0c;后续主要在企业数字化与大模型结合的方向上&#xff0c;后续进展还是请关注&#xff1a;琢磨事。 上一篇提到最终大模型的格局很可能是有一个偏通用大模型&#xff0c;比如chatG…

chatgpt赋能python:用Python实现高效搜索文献

用Python实现高效搜索文献 作为研究学者&#xff0c;面对日益增多的文献量&#xff0c;如何高效地搜索文献成为了一大难题。然而&#xff0c;Python的强大功能和丰富的科学计算库为我们提供了一种新的解决方案。本文将介绍如何使用Python进行文献搜索&#xff0c;帮助广大学者…

浅浅了解一下SSM框架,全网最新

一.SSM框架初体验 作为当下流行的企业开发MVC开源框架&#xff0c;SSM框架是我们Java程序猿必须熟练掌握的知识点, SSM框架是spring MVC &#xff0c;spring和mybatis框架的整合. SSM框架是标准的MVC模式&#xff0c;将整个系统划分为表现层&#xff0c;controller层&#x…

浅浅的分享一下2022年ISCC

WEB 冬奥会&#xff1a;你来参加2022届冬奥会&#xff0c;想知道冬奥会的主办方想告诉你什么吗&#xff1f;题目入口&#xff1a;59.110.159.206:7060 我们根据审计可知需要我们构造 josn 然后 get 传参&#xff0c;需要绕过的地方&#xff1a; 1.is_numeric()对 year 的过滤…

冷热数据浅浅见

冷热数据浅浅见 一、前言二、冷热数据的标准&#xff08;判断&#xff09;三、判断冷热数据的算法3.1 基于数据结构特点的判断算法3.1.1 传统的方法3.1.2 改进的方法 3.2 基于统计学上的判断算法3.3 基于机器学习的判断算法 四、总结五、参考 一、前言 这个星期看了关于目前数…

商汤日日新大模型90天大升级!CEO现场整活,主打突破想象力

金磊 发自 WAIC量子位 | 公众号 QbitAI 商汤“日日新”AI大模型&#xff0c;如其名&#xff0c;真的做到了日日新。 这不&#xff0c;从发布到现在&#xff0c;时隔仅仅3个月&#xff0c;商汤便正式宣布&#xff1a; 商汤日日新&#xff08;SenseNova&#xff09;大模型体系全面…

一张快照就能还原出一段视频!AAAI 2023论文提出快照压缩成像新算法 | 开源

飞晔 投稿量子位 | 公众号 QbitAI 随着光学算法发展&#xff0c;如今我们用低维传感器也能“捕获”高维信号了。 举个例子&#xff0c;这是我们用2D传感器拍到的一张“照片”&#xff0c;看起来充满了噪声数据&#xff1a; 然而&#xff0c;正是通过这张“照片”所包含的数据&a…

微信春节大数据出炉:《三体》阅读量第一 ;曝iOS 17应用商店将向第三方开放;斯坦福大学推出DetectGPT|极客头条

「极客头条」—— 技术人员的新闻圈&#xff01; CSDN 的读者朋友们早上好哇&#xff0c;「极客头条」来啦&#xff0c;快来看今天都有哪些值得我们技术人关注的重要新闻吧。 整理 | 梦依丹 出品 | CSDN&#xff08;ID&#xff1a;CSDNnews&#xff09; 一分钟速览新闻点&…