可视化数据科学平台在信贷领域应用系列四:决策树策略挖掘

信贷行业的风控策略挖掘是一个综合过程,需要综合考虑风控规则分析结果、效果评估、线上实时监测和业务管理需求等多个方面,以发现和制定有效的信贷风险管理策略。这些策略可能涉及贷款审批标准的调整、贷款利率的制定、贷款额度的设定等,在贷款违约风险可控的前提下最大程度地提升银行的收益规模,确保银行的贷款业务能够稳健运营。

在信贷风控策略挖掘工作中,风控策略专家通常基于业务需求和业务经验,设计组合特征规则,该过程非常依赖策略专家对业务的理解和经验,过程往往非常耗时。逐渐地,基于决策树算法的策略挖掘方法体现出了其优越性。在面对高维度特征集时,基于决策树的自动化规则集策略挖掘的性能明显优于人工分析和设计,如此一来,策略专家只需要对自动挖掘得到的规则集进行检视和优化即可。

那么,如何实现自动化的决策树生成?拥有10余年经验的国内某互联网银行的风控模型主管给出答案。他在对数据的清洗、探索和特征组合加工后,这位模型专家又继续信贷风控策略的挖掘,这一期,他和小编雀跃的分享到“我只通过两个参数设置的步骤就完成了自动化的决策树生成,这对日常工作的提效是神助力”!让我们来看看他是如何实现的吧。

图片

01什么是“信贷风控策略挖掘”?

信贷风控策略挖掘是指通过对申请客户的信贷数据和行为数据进行深入分析和挖掘,以发现有效的信贷风险管理策略的过程。这些策略旨在识别和降低贷款违约和信用风险,确保银行的贷款业务能够健康稳健运营,并取得良好的收益率。

具体来讲,信贷风控策略挖掘通常包括以下主要环节:

1)数据收集和准备:首先,需要收集和整理与客户信贷业务相关的各类数据,包括个人基本信息、人行征信报告、消费支付信息、信贷历史行为等,这些数据将被用于后续的策略分析和挖掘。在完成数据收集之后,按照我们前序文章《数据清洗》所介绍的方法,对数据集进行预处理。

2)数据分析和特征工程:在完成数据清洗之后,需要对数据进行分析和处理。如前序文章《数据探索》和《特征组合》所介绍的内容,对数据集进行探索性数据分析、特征组合挖掘等步骤,提取有用的特征并准备用于策略挖掘的数据集。

3)规则集挖掘分析:需要选择适当的挖掘分析方法,得到的规则集需要在历史数据上进行验证和测试。

4)规则集部署与线上监测:挖掘得到的规则集在历史数据上取得了良好的表现,就需要将其部署至生产环境,进行无决策运行,即在实际业务中运行并观测效果。

5)风控策略制定:经过一定时间的线上运行,规则集的效果得到实际验证,并且积累了足够量的生产测试数据,策略人员根据业务要求,综合考量对业务规模和贷后风险水平的把控,将规则集制定为有效的风控策略。

02运用决策树算法进行策略挖掘

决策树算法在诸多分类算法中,作为决策模型其整体分类性能并不出色,但是决策树的叶子节点的分类准确率却可以很高。我们应当利用好决策树的这个特点,提取决策树的叶子节点的分支规则,筛选识别准确率较高的叶子节点并结合节点判断逻辑的业务含义进行选定并使用。

深入分析,决策树算法为什么适合用于风控策略挖掘呢,其主要原因包括:

1)可解释性强:决策树算法生成的组合规则易于理解和解释,可以清晰地展示出影响决策的因素和决策逻辑,有助于业务人员和决策者理解规则的逻辑和预期。

2)灵活处理混合类型数据:决策树算法能够处理包含类别型特征和数值型特征的混合类型数据,不需要对数据进行特殊的编码或转换。

3)能够处理高维度特征数据:决策树算法具有较高的计算效率,能够处理大规模特征数据集,在实际应用中具有较好的可扩展性。

4)对异常值和缺失值具有鲁棒性:决策树算法对于异常值和缺失值具有较好的鲁棒性,不会对异常值和缺失值过于敏感,在一定程度上可处理异常缺失数据。

5)可量化评估特征重要性:通过决策树算法,可以计算各个特征在决策过程中的重要性,帮助策略人员了解哪些特征对于决策树预测的量化贡献最大,从而更好地理解业务特征数据。

6)易于调优和优化:决策树模型具有较多的参数可以调整,如树的深度、分裂节点的最小样本数和比例、节点分裂策略等,通过调整这些参数可以优化决策树的性能,使其更好地适应不同的业务场景和数据特点。

综上所述:决策树模型在风控策略挖掘中具有较好的可解释性、适用性和效率,因此被广泛应用于风控领域。

RapidMiner 的决策树策略挖掘功能非常好的提升用户的效率,其中,Interactive Analysis 模块的“交互式分析”功能尤为适合所有的用户利用这个工具提效。

03RapidMiner 中的 Interactive Analysis 模块

Interactive Analysis 模块的“交互式分析”简明的步骤式引导大大提升了使用者的挖掘效率。

1)加载数据集 Load Data

如图1,为进入Interactive Analysis模块后的交互界面,选择数据集后,界面右侧会展示数据集概况,包括样本数、变量数、目标变量信息、字段名等。

图片

图1 Interactive Analysis 模块数据加载

2)模型设置 Model Settings

图片

图2 Interactive Analysis 模块模型参数设置

完成数据集加载之后,就来到决策树模型的参数设置步骤,Interactive Analysis 模块模型参数设置界面如图2所示。RapidMiner Interactive Analysis 支持多种分裂搜索方法,支持分裂增益度量方式设置。

RapidMiner Interactive Analysis 支持灵活的变量选择,并且可以直观展示候选变量在相关性 Correlation、ID 属性程度 ID-ness、集中度 Stability、缺失率 Missing、文本属性 Text-ness 共5个维度的程度,并综合给予可用性评价,十分方便策略人员进行特征筛选。

3)决策树生长参数设置

图片

图3 Interactive Analysis 模块决策树生长参数设置

完成决策树模型参数设置,就来到决策树生长参数设置步骤,Interactive Analysis 模块模型参数设置界面如图3所示。我们将叶子节点的最小样本比例设置为1%,非叶子节点的最小样本比例设置为3%,一旦不满足以上规则,决策树则停止生长。

在执行完上述步骤后,即可开启自动化组合规则挖掘。

04Interactive Analysis 模块实操决策树策略挖掘

下面我们使用 RapidMiner Interactive Analysis 模块在UCI 台湾信用卡数据集上来实操一下决策树策略挖掘工作。按照 RapidMiner 的操作指引,一次完成数据加载、模型参数设置、决策树生长参数设置,软件即可自动开启挖掘分析。

图片

图4 树深度为2时的挖掘结果

我们首先讲决策树的深度设定为2,即仅通过一个变量对数据集进行划分,得到结果如图4。可见模型选择了变量 PAY_0(2005年9月的还款状态,-2-未消费、-1-按时还款、1-延迟1个月还款、2-延迟2个月还款,依次类推,8-延迟8个月还款、9-延迟9个月还款),且“PAY_0 = 2”和“PAY_0 >= 3”两个分支节点的目标变量占比要远远高于整体水平。

下一步我们再将决策树的深度设定为3,即通过最多两个变量组合的方式对数据集进行划分。如图5,RM挖掘得到了一个目标变量占比更高的分组组合规则1 :

“PAY_0=2 且 PAY_6 ∈ [2:8]”(业务含义为,客户在6个月前发生延迟2个月以上还款 且 上个月发生延迟2个月还款)

如图6,RM 亦挖掘得到了一个目标变量占比远低于全局的分组组合规则2:

 “PAY_0 = -2 且 PAY_AMT1 >= 5000”(业务含义为,上个月客户未消费且还账单金额和存入信用卡金额大于等于5000元)

图片

图5 树深度为3时的挖掘结果1

图片

图6 树深度为3时的挖掘结果2

在策略应用层面,上述两个组合规则均具有较好的业务应用价值,且业务解释性较。组合规则1可设定为拒绝策略,组合规则2可作为优质客户筛选规则,为其设置利率优惠或额度提升策略

05RapidMiner 在决策树策略挖掘中的优势与特点

使用体验下来,我总结了 RapidMiner 在决策树策略挖掘中三个特点:

第一,智能化、自动化。RapidMiner 的 Interactive Analysis 模块高度自动化,仅通过两个参数设置的步骤即可完成自动化的决策树生成。

第二,提高效率。在面对高维数据时,交互式决策树分析的性能明显优于人工策略设计挖掘,策略专家可将精力放在对规则集进行审查优化和筛选上。

第三,交互体验好,应用技术门槛低。RapidMiner 的Interactive Analysis 模块通过简易的操作步骤大大降低了策略挖掘的技术门槛,没有算法技术背景的产品专家或业务专家在 RapidMiner 的赋能下,亦可快速完成决策树策略分析挖掘工作。

本篇文章就到这里啦,感兴趣的朋友欢迎关注我们,查看往期内容~


 如您对数据分析以及人工智能感兴趣,想要站在全球视野看待人工智能的发展,

那么,一定不要错过6月20日由Altair主办的全球线上会议“AI for Engineers

会议将邀请全球知名专家与权威学者,共同探讨生成式人工智能(GenAI) 如何助力产品设计研发

点击立即免费报名


关于 Altair RapidMiner

Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。

欲了解更多信息,欢迎访问:

www.altair.com.cn

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/341443.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

低代码开发平台一般都有哪些功能和模块?

在当今快速变化的数字化时代,企业对于高效、灵活且经济的软件开发解决方案的需求愈发迫切。低代码开发平台应运而生,成为众多企业实现数字化转型的首选工具。本文将详细探讨低代码开发平台一般具备的主要功能和模块,以及它们如何助力企业提升…

Dinky MySQLCDC 整库同步到 Doris

资源:flink 1.17.0、dinky 1.0.2、doris-2.0.1-rc04 问题:Cannot deserialize value of type int from String ,detailMessageunknowndatabases ,not a valid int value 2024-05-29 16:52:20.136 ERROR org.apache.doris.flink.…

AI论文工具推荐

AI 在学术界的使用情况也比较疯狂,特别是一些美国大学,用 AI 来辅助阅读文献以及辅助写论文的越来越多,毕竟确实可以提高写作效率,特别是在文献综述和初稿生成方面。 但在科研界其实,发现看论文的速度已经赶不上发论文…

领夹麦克风什么牌子好?2024无线领夹麦克风十大品牌排行榜推荐

​如今,无线麦克风已逐渐渗透到我们日常生活的各个角落,无论是专业的自媒体创作者、带货主播,还是日常拍摄记录生活的我们,都可能用到它。在挑选无线麦克风时,收音降噪效果和性价比无疑是两大核心考量因素。为此&#…

【wiki知识库】05.分类管理实现--前端Vue模块

📝个人主页:哈__ 期待您的关注 目录 一、🔥今日目标 二、🌏前端部分的改造 2.1 新增一个tool.ts 2.2 新增admin-categoty.vue 2.3 添加新的路由规则 2.4 添加the-welcome.vue 2.5 修改HomeView.vue 三、❗注意 一、&…

The authenticity of host ‘github.com (20.205.243.166)‘ can‘t be established.

目录 github初始化仓库,无法链接 解决无法与主机github.com(20.205.243.166)建立真实性 # 问题原因 # 生成密钥 # 物理路径 # 建立交互 # 验证 github初始化仓库,无法链接 在github创建一个新的仓库时,如果我们未初始化,…

面试题vue+uniapp(个人理解-面试口头答述)未编辑完整....

1.vue2和vue3的区别(vue3与vue2的区别(你不知道细节全在这)_vue2和vue3区别-CSDN博客)参考 Vue3 在组合式(Composition )API,中使用生命周期钩子时需要先引入,而 Vue2 在选项API&am…

操作失败——后端

控制台观察,页面发送的保存菜品的请求 返回的response显示: ---------- 我开始查看明明感觉都挺正常,没啥错误,就是查不出来。结果后面电脑关机重启后,隔一天看,就突然可以了。我觉着可能是浏览器的缓存没…

2022.9.26DAY678

课程学习:《数据处理技术》讲了“数据查询”的语法格式,语法格式也算是简单,就是没能跟之前的内容联系起来,之前的内容没有及时回顾。 高等数学:“ 函数的概念”,讲了函数的概念,反函数&#…

登录通用解决方案 —— 第三方登录处理

目录 01: 前言 02: 第三方平台登录解决方案流程大解析 03: QQ 开放平台流程大解析 04: QQ 登录对接流程:获取 QQ 用户信息 05: QQ 登录对接流程:跨页面信息传输 06: QQ 登录对接流程:认证是否已注册,完成 QQ …

今日科普:了解、预防、控制高血压

高血压,常被称为“隐形的健康威胁”,许多患者可能在毫无预警的情况下发病,且患病率逐年攀升,同时患者群体逐渐年轻化,高血压虽然难以根治,但并不可怕,真正可怕的是血压长期居高不下,…

MySQL中所有常见知识点汇总

存储引擎 这一张是关于整个存储引擎的汇总知识了。 MySQL体系结构 这里是MySQL的体系结构图: 一般将MySQL分为server层和存储引擎两个部分。 其实MySQL体系结构主要分为下面这几个部分: 连接器:负责跟客户端建立连 接、获取权限、维持和管理…

低代码专题 | 什么是低代码?低代码是什么意思?最详细解释!

什么是低代码,低代码是什么意思?低代码到底有什么用?企业该如何用低代码赋能?......因为现在太多碎片化信息了,所以大家对于一个概念的理解都是零散的。 故给大家开一个专题,将低代码给大家掰开揉碎了讲清…

DevOps全面综述:从概念到实践

一、背景与概述 1.1 DevOps的起源与发展 DevOps(Development and Operations的缩写)是软件工程领域中的一种文化和实践方法,旨在促进开发团队与运维团队之间的协作,从而实现更高效、更可靠的软件交付。DevOps起源于敏捷软件开发方…

php实现抖音小程序支付

开发者发起下单_小程序_抖音开放平台 第一步、抖音小程序发起支付 tt.pay_小程序_抖音开放平台 前端提交订单数据到后端接口,然后使用 tt.pay发起支付 请求参数 属性 类型 必填 说明 order_id string 是 担保交易服务端订单号 order_token string 是 …

RocketMq源码解析五:生产者Producer发送消息

上一章我们把生产者启动的流程和大家一起跟着源码走了一遍,现在我们来看发送消息的流程。上一章我们已经把核心接口和类关系梳理了一遍。如下图 我们今天重点看MQProducer中的send方法最终的实现。DefaultMQProducer中,send的实现最终还是调用了 defaultMQProducerIm…

寺庙小程序-H5网页开发

大家好,我是程序员小孟。 现在有很多的产品或者工具都开始信息话了,寺庙或者佛教也需要小程序吗? 当然了! 前面我们还开发了很多寺庙相关的小程序。 今天要介绍的是一款寺庙系统,该系统可以作为小程序、H5网页、安…

【面经】亚信科技面试问题合集

下述内容经搜寻广大平台的面试经历,整理汇合得出,答案来自chatgpt,加黑的地方意味着出现多次。 1.自我介绍 2.介绍项目功能 3.和equals的区别。八大基本类型(byte,char,int ,long,double,float,boolean,short) 是用于比较两个…

LeetCode-43. 字符串相乘【数学 字符串 模拟】

LeetCode-43. 字符串相乘【数学 字符串 模拟】 题目描述:解题思路一:模拟乘法,两个数中每一位数相乘的时候乘上他们各自的进制数,之后求和。循环时,分别记录各自的进制数背诵版:解题思路三:0 题…

九、参数处理器

debug调试,一个参数的调通了,但是两个参数的会失败 总结一下: 到现在已经学了有10节了,我对mybatis底层的执行流程算是挺了解的了,把流程拆解开,每一个小步骤都是非常多的代码实现,代码都能看懂…