在金融行业中,账户之间是复杂、多层的关系,那么,数据在高速地发生动态变化的时候,如何进行高效的关联关系计量,如欺诈判定、归因分析等——这种挑战就是典型的深数据或者图数据的挑战。
01 从数据角度看信用卡欺诈风险
银行交易反欺诈也称作银行卡转账反欺诈,此中,银行卡既包括个人银行卡,也包括对公账户及结算卡,同时还包括非银行支付机构账户,即我们日常会频繁使用到的微信、支付宝等第三方支付。
银行卡的欺诈风险,比较常见的趋势是从个案、个例走向专业化、团伙化、国际化。所谓团伙化,如果从“图论”的角度来看,其实就是侧重于数据之间高度的关联性和网络性。
如上图所示,在这种银行卡电信欺诈当中,上、中、下游其实已经分化为卡商、料商和号商。下游号商做的事情,就是我们经常听说的薅羊毛、刷单、刷粉等有害信息的分发,包括这种诈骗过程当中使用的各种各样的技术都是为了逃避风控与监管。
例如,两个账户之间转账,如果仅看到两个账户之间的这条潜在的转账交易,那么,到底是实施放行还是拦截,行方很难去决策;但如果我们能看到一个更大的图——账户1和账户2的外围延展的交易网络,就能发现账户1和账户2是一个更大的诈骗网络当中的关键中转节点。
02 传统反欺诈系统之痛点
面对层出不穷的欺诈风险和不断翻新的欺诈手段,传统的反欺诈系统面临着非常大的挑战:
实时性差、数据容量小。难以实时处理海量数据,现有的线上系统无法实时化(毫秒级)处理包含至少6个月的全量历史交易数据,并且解决方案部署与运维复杂、集群规模大、效率低,整体效果不好。
对欺诈网络挖掘不深、不广、不快。难以对账户交易资金的转账链条、路径、网络进行深入、快速、全量的计算与追踪。本质上是因为基于数仓或大数据框架的反欺诈系统不具备深度穿透、关联计算的能力,反欺诈的规则繁琐、低维、效率低下、准确性差。
模型风险。基于AI深度学习的很多反欺诈解决方案存在黑盒化、不可解释、不可追溯、难以审计等模型风险。
03 Ultipa 实时银行交易决策系统
银行拥有海量交易及第三方融合数据,对于风控系统最关键的原则有“快、稳、准、深、多、溯”六点;基于传统数仓、大数据平台的传统风控反欺诈系统是无法满足以上原则的。
而Ultipa实时图计算系统,对欺诈风险可以进行精准建模,实时计算引擎能在20毫秒内完成交易流水网络的图特征计算,可帮助发卡银行提升实时反欺诈决策能力,实现“早发现”、“早预警”、“实时拦截”,将欺诈团伙的行为扼杀在早期。
图决策模型
图数据建模,包含银行的海量交易流水、卡片统计、商户统计、地区特征、风险事件、欺诈样本(黑、灰、白名单)等数据,构建与欺诈相关的特征体系,完成数据清洗和特征筛选。
反欺诈场景的图模型包括交易对手双方上下游遍历、聚合、筛选、交易频率、特征、行为模式分析、欺诈特征相似度、区分度、社区识别等多维度进行分析。同时,图计算模型在多维度范围内分析交易网络历史欺诈形势,提高模型的准确性。
从反欺诈规则的视角来看,反欺诈规则是由简到繁,可以看作是从“点”到“线”、到“面”、到“体”的网状形态,具有不同的维度,对应的算力需求也是逐级增加的。其中,“点”即研究个体,所谓个体是只看一笔交易或一个账户。
从数据拆分的视角来看,如果从一条“线”着手,其实是资金的分散转出,即在下钻的过程当中,一个主账户会分出很多分账户。这种汇总的数据其实可以拆分到更细,因为从“点”到“线”再到“面”,分析明细数据会帮助我们建立更全局的认识。
从点、线、面、体看,如果反欺诈的规则同步升级,对算力的需求是逐级增加的,这是传统数据库没有办法解决的,包括传统大数据的框架也没有办法很好地解决实时风控的原因也基于此。与此同时,如果没有Ultipa GQL(嬴图查询语言)的应用,那么对多维数据间关联关系的查询、计算和表达也会相当地困难。
实时图计算风控系统
Ultipa 实时银行交易决策系统从架构上可划分为三层,分别是:
数据接入层
实时计算层
实时决策层
其中,数据接入层负责交易采集和存储,实时计算层负责交易数据的实时分析、交易维度的特征聚合、模型预测,实时决策层将风险评分实时传递至发卡银行,由发卡银行实时决策风险,实时拦截欺诈交易。该系统采用了超高吞吐量(高密度并发)及超低延时的图计算引擎,旨在确保每笔交易都在20毫秒内完成在线计算与分析。
对信用卡或者贷款的申请,如何判断是否存在欺诈问题?其实,两卡申请之间共享了大量的信息。如公司的信息、E-mail地址、设备ID、电话等,甚至包括介绍人的信息。那么,怎么做这种计算呢?一种办法是从某个账户出发去寻找是否存在一个4步的环路可以回到自身,即环路查询;另一种则更为高效,即查询两个贷款申请之间的邻居有多少共同的邻居。在数学中,第二种计算效率会更高。实际上,我们计算出来的结果也是这样的:在一个高并发的系统之内,查任意两个申请,完成的时间不超过5毫秒,完全可以做到以“纯实时、高并发”的方式完成,这是一个相对简单的例子,因为它聚焦的非常明确。
在数亿量级的电话号码当中,如何大海捞针般寻找到涉嫌欺诈的号码呢?其中,被5个以上申请用过的电话号码可能会存在欺诈风险。这其实是面向全量数据的计算。如果采用传统的大数据框架至少需要几十分钟、甚至几个小时(即便不算数据动态加载的时间);但如果用实时图计算去做,在一秒钟左右即可完成。这就相当于将传统的、需要批量处理的工作实时化完成。
怎么在图上挖掘信贷?比如,信贷资金是否有违规流入楼市、股市或其他情况。我们可以从借款人的放款账户出发查询,经过多手的转账之后,最终的资金是否流入了房地产开发商的账户。如果用传统的大数据框架做这样的查询,复杂程度非常之高,但利用图计算去做,再用Ultipa GQL (嬴图查询语言)搜索查询与分析—— 一句话即可以做完!
对比
基于Ultipa Graph的实时银行交易决策系统的性能与性价比,较其它系统有指数级的提升。见下图:
通过上图可以看出,Ultipa实时图数据库技术的一个特点就是它要解决复杂查询、深度查询的问题。它的架构逻辑并不是去大规模地堆积机器,而是通过精简、高效的硬件架构来实现最大规模并发与算力的图计算系统,旨在更好地赋能银行业务迭代的诉求,提升客户体验,降低运营成本,提升社会效益等。