导读
“图”是事物及关联关系的抽象表达,现实世界中存在着大量可以用图来表示的关系数据,而用来存储和计算这些关系数据的就是图数据库。
2023年7月6日下午,由世界人工智能大会组委会办公室指导,创邻科技主办的世界人工智能大会(WAIC2023)-图技术激活数据要素论坛召开,聚焦金融业图技术的场景化落地实践。 创邻科技成立于2016年,致力于赋能用户洞察关联数据,充分挖掘数据资产价值,是国内领先的自研图数据库供应商,其全自主研发的原生分布式高性能图平台Galaxybase已在金融、能源、互联网、公安等行业深耕,标杆客户包含五大行、头部股份制银行、城商行、农商行、电网、腾讯等多家头部客户,在线支撑超万亿点边规模的图应用服务。
会上,中国银联大数据图计算平台负责人潘骏介绍了银联自2019年以来在图技术方面的探索,为金融机构图数据建设提供经验借鉴。
摘要
中国银联是全球三大卡品牌之一。2019年以来,中国银联开始从平台、底图和模型三大方向开展图数据库建设,在技术和业务两侧都实现了深度发展。截至2022年,银联已完成200亿点边规模的统一关系底图设计开发投产,深度应用于户经营、风险控制、业务合规、业务运营等业务场景。
关键发现
中国银联拥有纷繁复杂的海量数据,内部上连收单、商户,下连发卡的四方模式天然构成了一张关系图谱。图技术通过数据的关联分析能够更好地洞察全局数据,实现智能风控;同时还能够有效克服因业务发展需求而带来的计算性能瓶颈、数据挖掘困难等技术挑战;
为避免出现数据的冗余、重复、膨胀等情况,应将相同数据存放在同一个物理位置下,中国银联设计了包含200亿点边关系的统一关系底图,并基于统一关系底图构建场景模型;
目前市场上大多数图数据库产品在AP(图计算)场景和TP(图查询)场景各有侧重,但基于中国银联的实践经验,很多业务场景中既需要AP计算也需要TP查询,需要统一的技术路线解决AP和TP场景的融合问题。
分享专家:潘骏,中国银联大数据图计算平台负责人
作者:沙丘社区分析师团队
01 案例企业
中国银联股份有限公司(以下简称“中国银联”)成立于2002年,是经国务院同意,中国人民银行批准,在合并18家银行卡信息交换中心的基础上,85家机构共同出资成立的中国银行卡联合组织。
2022年,中国银联支付系统的银行卡交易额为162.27亿美元,根据尼尔森报告,2022年中国银联借记卡的交易份额为40.03%,首次超过Visa,成为全球第一大借记卡。
02 业务挑战
面对存在大量关联关系的数据存储和查询场景,传统关系型数据库在业务开展过程中暴露出一定不足,具体来看:
中国银联是世界三大卡品牌之一,通过上连收单、商户,下连发卡的四方模式转接清算业务,这些元素天然构成一张关系图谱。中国银联有着纷繁复杂的的海量数据,如果想进一步分析挖掘业务数据内在的关联关系和价值,促进业务发展,需要能够洞察全局的数据分析手段。传统关系型数据库很难对存在网络拓扑结构的数据进行充分刻画,无法存储,也就无法查询和计算。
银联作为我国的卡组织,具有保障金融安全和维护金融稳定的职责,需要对信用卡可疑交易、洗钱、网络赌博等违法违规行为予以监控和打击,这些行为中往往存在着较为复杂的资金链路及团伙行为。在打击和侦测和黑灰产业的违规行为时,传统关系型数据库使用多表join的方式实现资金链路计算,存在性能瓶颈,并且在对团伙、社区的挖掘在技术上无法实现。
03 解决方案
图技术的价值在于可视化和简化复杂关系、深度分析和洞察发现、灵活性和可扩展性、解决复杂问题,以及支持智能决策和优化。这些价值使得图技术成为处理和分析复杂数据、支持智能决策和优化的重要工具和方法。
自2019年以来,中国银联多方面推进图技术在银联的发展,包括平台建设以及基于平台的底图建设和模型建设,平台从无到有、底图从十亿扩展到上百亿,模型已有十多个投产,在技术上也不断纵向深入,探索图技术在业务场景的应用。具体来看:
2019年:开源图计算产品探索。 中国银联基于开源图计算产品,构建了十亿级别持卡人关系图谱并完成持卡人社区、信用卡可疑交易的模型开发。
2020年:商业版图计算产品试点。 完成基于商业版图计算产品的大数据图计算平台开发并与银联的大数据平台打通,构建百亿点边规模的统一关系底图。
2021-2022年:规模化商业版图计算产品。 完成两百亿点边规模的统一关系底图,完成图神经网络、SynchroTrap算法十多个图模型的开发,并深度应用于银联业务运营、业务规范、风险控制、云闪付用户经营等业务场景。
2023年至今:图AI技术深度融合。 随着ChatGPT的诞生,大模型技术快速发展,中国银联正进一步加强图技术与其他人工智能技术的深度融合。
中国银联大数据图计算平台架构分为4层:
最底层为数据源层,依托于银联大数据离线库,当中存有交易数据、用户数据、商户数据、机构数据等,每日批处理PB级的数据量级。通过数据接口层达到图数据层,统一关系底图作为底座,支撑图查询、图规则、图算法、图机器学习、图神经网络等图任务。应用层支持用户经营、风险控制、业务合规、业务运营等业务场景。
(1)图构建
在设计统一关系底图时,中国银联最初的设想是针对不同业务场景设计不同的小图,但会出现数据的冗余、重复、膨胀等情况,相同的数据应该存放在同一个物理位置下。
因此,中国银联基于交易流水、交易汇总、账户信息等数据源,将重要元素统一在一起,设计了包含200亿点边关系的统一关系底图,包括银行卡、手机号、身份证、云闪付注册用户信息、商户、机构信息、交易信息等。
基于统一关系底图,中国银联构建了包括信用卡可疑交易、反洗钱、网络赌博、信用卡代还、异常交易片段、云闪付轻社交、持卡人社区、商户社区等场景模型。
(2)图查询
用户关系查询:输入脱敏后的两个手机号,可以查询它们之间的最短路径,如下图所示,左右两个手机号通过6条绑定关系边、4条转账边、2条云闪付用户推荐边建立了联系。
商户关系查询:输入两个商户号,可以查询它们之间的最短路径,如下图所示,左右两个商户(阳光天地商城某商户、长泰商业广场某商户),通过三条短时公共卡边建立了联系,从交易中反映出的从阳光天地到长泰商业广场的最短时间为(677+476+1404)/60=42.6分钟。
(3)图规则
基于手机号、银行卡、云闪付用户号等身份元素之间的绑定、注册、认证、拉新、转账互动等关系边,中国银联构建十亿级云闪付关系子图,通过图谱相似度规则进行云闪付用户亲密度的计算,进行潜在好友的分析和推荐。
(4)图算法
持卡人社区发现:基于统一关系底图中的银行卡、手机号、设备号、身份证、云闪付用户号之间的绑定、注册、认证等强关系边,采用联通分量算法形成虚拟社区ID,基于百亿图谱划分出十亿级别的持卡人社区。根据关系边的渠道来源、更新时间、当前状态等进行权重打分、对规模超大的社区使用标签传播算法进行进一步剖分。
可疑交易子图发现:基于每个持卡人社区可以进行可疑交易发现,考虑每个持卡人社区内的信用卡交易和借记卡交易,在极短时间或者跨日在不同商户进行消费交易和代付交易满足一定的时间金额上协同模式,则可能存在可疑卡交易行为。
(5)图机器学习
中国银联通过构建基于SynchroTrap算法实现业务合规侦测,分成三个主要的步骤:相似度图谱构建、图社区划分和图异常检测。
首先构建相似度图谱:
定义两张卡如果在相似时间段内在同一商户发生消费,则两张卡具有相似性。计算任意两张卡之间在一段时间内出现相似性行为的商户数、商户+时间段数、交易笔数三个数值作为两张卡间的相似度得分。以卡为顶点,卡与卡之间的相似度商户数若大于等于2则连接一条边,构建相似度图谱。
其次进行图社区划分:
将卡与卡间边上的相似度涉及商户数、商户+时间段数、交易笔数按一定比例加权并标准化后作为最终边的权重。然后使用Louvain算法进行社区划分,将关系比较紧密的卡片划为一个社区,得到若干个时空行为同步的银行卡社团。
由于相似度计算出来的社区划分可能存在巧合性,因此需要进行图异常检测。计算每个社区的规模和内部的紧密程度作为描述社区的特征,基于所有社区及其特征,使用孤立森林算法进行异常检测,通过量化评分找到业务上直观理解“规模过大”或“过于紧密”的异常银行卡社区,最终找到异常商户。
典型异常案例如下,某个异常社区中的两张卡某个月内在百余家商户发生时空上的高度协同,且交易商户序列不断循环,经进一步分析,该异常社区中有类似异常行为的银行卡还有一百多张。因此,将该类交易识别为由机器程序自动化、批量化上送的非真实交易。
(6)图神经网络
网络赌博存在有标注的收款卡,但如果直接以图的形式散播可能会出现误伤,需要进行一定的判断。中国银联采用三层图神经网络结构,结合少量标注样本及大量未标注样本进行模型的训练,训练过程中只计算标注样本的交叉熵损失,但会不断吸收未标注样本的特征。
04 未来展望
未来图技术的探索上,中国银联注重如下三个方面:
第一,场景融合。 目前市场上大多数图数据库产品在AP(图计算)场景和TP(图查询)场景各有侧重,但基于中国银联的实践经验,很多业务场景中既需要AP计算也需要TP查询,需要统一的技术路线解决AP和TP场景的融合问题。
第二,金融安全。 金融IT系统对系统本身的安全性、稳定性、可靠性方面要求非常高,发生机器故障时如何保证任务不停、快速恢复等还需解决,图技术目前仍较为创新,还有进一步提升空间。
第三,技术革新。 在人工智能飞速发展的时代,图、机器学习、深度学习、大模型、因果推断等各类技术层出不穷,百花齐放且相互交织,未来将顺应历史的潮流、跟随时代的步伐,在大模型、深度学习、因果推断与图的交叉的领域进行积极探索和落地。