编者按:
回顾过去十年,人工智能(AI)技术的发展速度让人惊叹,金融行业是现今AI应用最具潜力和最为活跃的领域之一。通过多年渗透,AI不间断从技术驱动迈向场景驱动,已广泛与金融业务深度融合,衍生出众多新业态、新服务,同时也浮现出各种问题。
金融数智化转型如何找到新的突破点,趟过深水区?立足开年、展望未来,中电金信研究院副院长、AI实验室主任单海军博士带来佳作——关于金融AI下一阶段的发展思考。
作者|中电金信研究院副院长 单海军
1. 金融AI进入局部深水区
● 2. 金融AI的新趋势新机会
● 2.1 金融人工智能平台篇
● 2.2 人工智能技术篇
● 2.2.1 数据智能
● 2.2.2 感知智能
● 2.3 人工智能安全篇
● 3. 结语
人工智能(AI)技术在过去十年(2012-2022)中取得了重大进展,在各行各业获得了大力应用和发展。
金融行业是人工智能应用最具潜力和最为活跃的领域之一,一方面是因为近年来金融机构的盈利空间持续压缩,行业同质化竞争严重,通过大数据和AI打造创新产品和差异化服务已成为金融机构的重要选择;另一方面,金融业的信息化程度最高,银行等金融机构沉淀了海量的业务数据,率先进行基于金融大数据的智能化转型水到渠成。
通过多年的渗透发展,AI技术已广泛地与金融业务深度融合,衍生出了众多新业态、新服务,如大家所熟知的交易反欺诈、智能营销、智能信贷、智能客服等已成为各大金融机构标配的数智化能力。
一、金融AI进入局部深水区
但是,随着人工智能技术的深入应用,金融数智化解决方案开始呈现出严重的同质化现象:首先,业务场景侧开始饱和,如在智能营销领域,“汇集客户在生活消费、网络社交、金融交易等领域的大数据,深度分析客户的真实需求和偏好,并通过系统形成更具个性化的金融产品解决方案”,此类方式已成为行业常规;在渠道服务领域,基于自然语言理解(NLU和NLG)的智能客服、智能外呼等系统也被大量金融机构普遍采用,用于解决金融机构的人力成本高企问题;在智能信贷风控领域,“通过利用机器学习模型、图分析等技术实现对公客户的贷前、贷中和贷后等风险识别与预警”等场景已成为AI技术的热门演武场。常见场景已基本实现智能化,因此,金融AI亟需开辟新的应用场景。
在供应侧,近两年各类新颖的AI细分技术继续涌现:大模型(Big Model)、小样本学习、可信AI、知识计算、AIGC(AI生成)、可解释AI等新概念和新技术层出不穷,但学术前沿尚未在金融领域广泛落地。与此同时,大批明星AI公司和金融科技公司仍主要依赖现有技术,并打造了大量同质的AI产品和解决方案,进行着残酷的市场价格战。大量公司亏本赚吆喝,难以形成行业正向循环。由此可见,行业亟需引入新的技术以提升产品竞争力。如何把处于学术研究阶段的前沿技术及时转化为可落地的AI解决方案,推动现有金融场景和应用的更迭和升级?这些成为技术侧的新命题。
技术在交汇与融合,应用场景在加深和拓宽。经过了上一轮的快速发展,金融数智化转型已经步入深水区,就像优化函数跳进了局部的最优点,有待寻找新的全局最优方向。“如何找到新的突破点,趟过深水区,迈向下一轮数智化应用的广阔天地?”,成为当下节点的重要思考。
二、金融AI的新趋势新机会
在看新的突破点之前,我们先来总览下金融AI的应用情况。总体而言,金融AI技术主要应用于金融机构IT总体架构的中台层和渠道层,由AI平台、AI技术、AI应用以及AI安全等几部分组成。中台层属于技术层,一般由科技部门负责,中台服务于算法开发者,用于场景应用模型的开发、测试和部署;渠道层属于应用层,一般由业务部门主导,服务于具体业务,与用户直接产生交互。而AI安全在平台层和应用层均有涉及,嵌入于AI平台或相关应用。
图1 金融人工智能全局图
所以观察金融AI的发展现状以及新发展趋势,我们也主要围绕以上四个方面来展开。
2.1 金融人工智能平台篇:底座夯实,孕育新机
人工智能平台(也常被叫作机器学习平台、深度学习平台、模型实验室或模型工厂)是企业数字化底座中的AI域基础平台,处于金融机构IT总体架构的中台层,主要用于企业内生产和管理各类AI算法,提供从数据处理、算法开发、模型训练、模型部署到模型管理等功能,是企业智能化的发动机。
当下,人工智能平台已不是一个新鲜事物。事实上早在十年前,即2012年左右,头部金融机构的科技部门就在尝试开发和应用金融机器学习平台;到2015年前后,各大金融机构已开始大规模采购或者自建平台。在金融机器学习平台领域占据市场头部份额的第四范式等明星AI公司也基本成立于2015年前后,一开始主打的AI产品就是金融机器学习平台。事实上,商业级金融AI平台发展至今已有七八年,主流厂商的机器学习平台功能已颇为完善:能提供强大的数据处理功能,有十八班武艺,如数据清洗、数据可视化探索、特征工程等;在开发层面,支持丰富的算法开发模式,如图形化拖拽式、AutoML自动建模、编辑式代码建模等,让AI算法开发民主普惠化;此外还积累了大量面向场景的特征、模型等资产,开箱即用;模型可解释性、DataCentric AI等前沿功能也在逐步上马。这些能力基本满足了金融机构常规的模型开发和管理需求。
那金融人工智能平台的市场是否已是红海一片,没有太大市场机会?笔者认为并不是。
图2 人工智能平台随着AI算法演进的发展历程
首先,从AI平台的历史发展过程来看,人工智能平台一直在随着AI算法的演进而变迁。2009年之前,在AI领域占据主导地位的是传统机器学习算法,此时主流的机器学习框架是NumPy算法库、SkLearn框架等,主要支持线性回归LR、SVM、决策树等传统机器学习算法的开发和建模;后来随着数据计算量的增大,衍生出了高性能的分布式机器学习框架,如XGBoost、SparkML等,但核心能力还是传统机器学习。2012年左右,深度学习崛起,广泛应用的主流AI平台变成了Tensorflow、MxNet、PyTorch,以及国内百度开源的PaddlePaddle等。2016年深度强化学习技术又火热登场,它可以解决深度学习解决不了的序列决策问题(因为深度学习擅长处理静态识别类问题),AI平台家族又进化出了Dopamine等新型平台分支。当前AI理论仍处于弱人工智能阶段,未来,AI算法朝着Meta-Learning自动学习、鲁棒通用的AI算法等方向进化和发展。一旦算法机理有突破,势必会促使新的AI平台形成,颠覆旧有市场。
其次,人工智能平台一直在朝着工业级的生产平台进化和升级。2006-2007年左右出现的第一代机器学习平台仅注重代码开发和运行环境,关注如何快速地开发出算法来,如Numpy、scikit-learn等在当时大受欢迎,但模型落地运行并不友好;2014年左右出现了更为强大的XGBoost,以及专注于工业级大规模数据分布式计算的SparkML框架等,在之后的一段时间内也颇为盛行,但也未很好解决生产环境应用问题。近些年金融机构已纷纷上马第二代机器学习平台。第二代平台的理念是一切围绕模型,用户可快速方便地创建模型、训练模型以及部署运行模型,相比于第一代,更强调构建完成的模型能在生产环境简单部署和稳定运行,并快速应用于业务。现在专业的AI提供商Databricks、中电金信、第四范式等提供的平台均属于此类。
图3 工业级人工智能平台进化要素
那下一代机器学习平台的机会在哪里?机会已经出现,而且平台的发展已呈现出以下几个特点:
一是下一代平台侧重于模型运营,关注模型上线后的精准性和有效性,重点发展以数据为中心的模型工作流自动化,解决实时数据分布快速变化等问题。用户无需关注模型、无需关注部署上线等复杂流程,一切围绕数据流转自动进行模型更新,以产生更及时更精准的业务价值。
图4 以数据为中心的第三代机器学习平台
二是下一代平台更注重领域专用性,正从通用性AI平台演化到领域专用AI平台,用领域专用平台解决行业长尾业务问题。那专用平台和通用平台有什么重要的区别呢?以金融行业为例,面向金融业务场景,金融AI平台需在常规机器学习平台之上构建面向金融业务场景的专用模型库和专用规则库,让不懂开发的业务人员也能开箱即用;其次,金融行业对数据安全、模型安全的要求十分严苛,金融机器学习平台需重点建设数据隐私保护、模型安全等功能模块。事实上在大量的长尾应用领域,领域专用的机器学习平台才更有市场生命力。
三是下一代平台急需解决数据成本问题,收集大量数据并进行标注的成本太高,有些金融场景因为数据管控问题甚至不愿或不能提供足够的数据,这些问题越来越令科技部门头疼。所以突破无需大量数据收集、标注与训练的小样本学习技术,或者通过数据孪生技术生成大量训练数据,大幅降低企业用户的建模成本,解决80%精力用于前期数据准备的低效问题,以及缓解特定场景中的数据饥渴问题。
这些方面的趋势十分值得关注,无论是AI算法理论革新引起新型AI平台的产生,还是现有金融AI平台不断往工业级平台演进,其中任何一点的突破都将引起人工智能平台产品市场的重塑,给后入局者带来机会。
2.2 人工智能技术篇:技术升级、场景拓展
在场景应用上AI技术与AI应用密不可分,因此本部分结合两者一起来介绍。从金融AI应用来看,核心应用场景可归纳为智能营销、智能风控与合规、客服与渠道、安防与身份认证、智能运营以及保险与投研投顾等六大应用领域,基本涵盖金融机构前中后台中的市场营销、产品设计、风控与合规、客户服务、运营管理等。这六大应用主要由数据智能、自然语言处理、计算机视觉、知识图谱和智能语音等五大技术支撑实现,互相之间的支撑关系如下图所示。
图5 金融AI应用及相关AI技术
■ 2.2.1 数据智能:从点面分析到立体分析,从预测到决策
金融行业的数据应用主要是针对结构化数据(关系表数据)的分析和挖掘,由于表单数据与机器学习具备天然的适配性,金融数据智能产品经常应用于金融信贷风控、精准营销、合规控制、保险理赔与投研投顾等场景。我们预估基于数据智能的应用超过金融行业整体需求的40%以上。
回顾历史,金融大数据的建设经历过了较长的发展时间,从企业数据报表和仪表盘时代的描述性分析(描述过去发生了什么),到运用数据发现、相关分析等传统手段进行诊断性分析(分析为什么会发生),再到大数据时代运用高级分析、机器学习等手段进行预测性分析(预测将发生什么)。以信贷风控发展为例来解释这几个的区别,早期的风控方式采集和汇总大量优质客户的信息,形成优质客户共性指标及数据报告,并依据专家规则和人工经验判定客户风险;之后的风控系统基于传统评分卡等统计量化技术,它会筛选出高风险客户并诊断出其特征;当前,以高维模型自动决策为主的风控方式不仅可以分类客户风险等级,还可预测贷款客户什么时候开始有风险并提前预警,该方式属于预测性分析。目前预测性分析占据数据智能领域的主流。下一阶段,数据智能正朝着更立体和更深度两个方向发展。
(1)更立体
基于“模型+规则”的数据分析方式,正逐渐进化成“模型+规则+图关联分析”的立体模式。在智能营销、智能风控等领域,常规方式是围绕个体特征信息进行建模,并叠加业务规则的综合方式来完成对某个人/企业的风险识别与营销动作决策,该模式日益显现出信息不足的缺点。而图关联分析可通过图谱节点间的关系补充额外信息,增加了特征维度,从而金融机构用户可以掌握更为全面和立体的信息,做出更精准和更深入的分析。对海量多样化多维度数据资源进行价值挖掘和关联分析,建立面向用户、面向场景的大数据知识图谱和综合分析能力,已成为近些年金融机构数据分析的重要工作;在金融业务应用方面,可用来全面升级“流量识别、自主获客、精准投放、企业风险监测”等已有应用的能力。因此,金融机构纷纷建立知识图谱平台来快速生产各类业务图谱,如构建基于客户资金流水的智能营销图谱、基于企业股权关系/转账关系/担保关系的对公企业图谱和产业链图谱等,并利用图谱平台的图分析功能进行深度关联分析。
(2)更深度
知其然,更要知其所以然,下一阶段,数据智能应用将走向决策性分析。未来,更高阶的企业智能需要的是自动化的“决策”而不仅仅是对未来的“预测”。以银行信贷业务为例,现有的数据智能水平可以进行客户的风险识别,或者对未来某段时期内的信贷业务收入进行预测,其本质是根据历史数据进行模型拟合;而对于“银行如何实现信贷业务收入增长和风险降低”等更高级问题束手无策。决策是企业价值维度更高的领域,决策性分析综合利用因果推断和自动学习技术进行业务分析。因此,因果推断将在下一阶段的数据分析业务中发挥重大作用,一方面它能帮助客户掌握“如何使它发生”,另一方面因果推断技术的使用将部分解决关键金融业务应用中的模型可解释问题。
■ 2.2.2 感知智能:服务渠道拓展,场景感知升级
在金融应用场景中,金融AI除了有数据智能,还有感知智能,包括计算机视觉、自然语言理解、语音识别等能力,它主要利用深度学习技术对图像、视频和文本等进行内容识别与语义理解。相比于数据智能广泛赋能于风控、营销等一众金融业务场景,计算机视觉和NLP技术在金融业务中的应用场景相对较少,主要集中于偏人机交互的渠道类和服务类应用系统。常见的如在银行信贷资料审核和国际贸易结算场景,客户利用OCR技术对各类银行单据和证照进行自动识别和录入;在保险产品营销场景,保险公司利用智能双录系统对营销过程进行录音录像,并用语音识别和视频分析技术自动识别或质检影像内容;在银行客服领域,智能外呼、智能客服等解决方案大量利用意图识别、实体抽取和语义比对等NLP技术实现客服的无人化和少人化;在内部管理场景,金融机构利用NLP技术对合同的文本内容进行识别、抽取、比对和知识管理。在诸如此类“端到端数字化流程和交互渠道重构”等场景中,感知智能已广泛地被应用,大幅提升了流程执行和渠道交互的效率,降低了企业成本。
图6 人工智能技术的发展趋势
目前,人工智能技术正从感知智能走向认知智能、乃至创造智能。感知智能只解决会看、会听以及会读等问题,即能完成图像或视频目标分类、语音识别ASR、文本分类识别等任务,但是无法对图像场景、文本内容等进行语义理解,更难以解决创新创造等高级智能任务。未来,感知智能应用将沿着“新服务渠道拓展、老场景感知升级”两个方向发展,即利用现有感知智能技术开辟和拓展新的服务渠道应用场景,其次利用认知智能和创造智能相关技术对已有的应用场景如智能网点、智能客服、智能营销等进行升级和替换。
(1)新服务场景开辟
在农村金融应用领域,可利用视觉理解技术为开展农村金融服务提供新的解决方案。农村信贷最大的痛点是抵押物评估,利用遥感图像检测和识别技术对农作物的种植面积、作物类型、生长情况等经营信息进行监测和识别,帮助银行快速、高效地评估农业资产,汇总成农户的资产档案,为农户贷款准入与评估提供智能精准的数据支持。
在监管合规方面,成千上万的内外部文件让实际监管动作难以落地执行。可基于长文本语义理解、文本自动生成等NLP技术打造数字合规工具,无缝嵌入交易行为监测、业务数据报送、风险事件报告等场景,提升金融监管效能、降低合规成本。核心技术即运用自然语言处理、模式识别等技术对监管规则和合规要求等文本进行结构化处理;其次,形成关键操作流程、禁止条款并建立数字化规则库;最后,运用知识抽取、知识融合等技术构建形式化知识图谱。在银行等金融机构员工查询或核实经营行为时可做到高效查询,实时监督。从而使得监管合规等人力劳动密集型工作自动化,降低合规成本。
(2)老场景智能升级
面向场景构建“场景感知智能”,搭建多元融通的服务渠道。如在线下网点等渠道,银行网点通过装配智能机柜、智能视频系统实现了一定程度的智能化,但面向未来更高维的渠道交互需要下一代AI能力来支撑。可利用增强现实AR、混合现实MR等视觉技术, 推动实体网点向多模态、沉浸式、交互型智慧网点升级,打造更便捷、更拟人的交互方式。在银行客服系统中,现有客服机器人存在无法多轮对话、难以开放式问答等瓶颈,应用场景受限;但随着ChatGPT等新的强大的对话技术出现,未来可升级现有客服系统,形成新的市场空间。
在市场营销和智能投研领域,很多环节需要人工去创作,如市场人员进行营销文案的创作,基金调研人员需要进行投研报告的总结写作,都耗费大量人力。未来,可基于AI生成技术,如今年大火的ChatGPT、GPT-3等新模型,去通过计算机自动进行初稿写作。在短视频营销广为流行的今天,金融机构还可通过视频自动生成技术,去自动创作金融产品或活动的营销短视频,提升营销部门的效率和质量。金融文本写作和营销视频创作,本质就是利用创造智能相关的AI技术进行场景升级。
总而言之,开辟新的应用场景,再加上认知智能和创造智能对AI现有应用系统的改造和升级,感知智能领域的市场空间依然巨大。
2.3 人工智能安全篇:监管重点关注,市场爆发前夜
凡是涉及金融智能的业务应用都会嵌入AI算法。有专业统计机构估计,随着金融智能化的深入,未来中大型金融机构的系统中将上线运行500-1000个以上的AI模型。但是人工智能算法,尤其是深度学习算法,其算法机理存在固有的缺陷,导致算法可解释性差、鲁棒性差,容易被攻击者抓住算法漏洞而进行攻击。这些AI模型的安全问题对金融业务的影响将是毁灭性的。比如,在手机银行的身份认证系统中,人脸识别算法会因为样本对抗攻击而误识别,导致账户被盗用;信贷风控场景,事中风险识别算法会因为算法攻击而导致诈骗团队获得优质评级,从而轻松获得银行授信导致银行损失。
此外,在政策监管方面,央行于2022年初发布的《金融科技发展规划(2022-2025年)》的基本原则中也重点提到了“要防范算法、数据、网络安全风险,共建数字安全生态”,把算法安全作为数字金融安全生态的重要支撑之一;“强调了模型安全评估与合规审计体系,披露算法决策机理、运行逻辑和潜在风险,提升算法可解释、透明、公平和安全性”。由此可见,AI安全也已受到监管层的重点关注。
所以,提升AI算法的安全性和保障金融智能产品的安全性已成为金融机构科技系统的关键安全问题之一。模型安全和模型可信将成为金融机构未来非常关键的需求。从产品和技术角度看,AI安全将关注AI模型整个生命周期流程的管控——从模型生产前的药饵数据检测和发现,到模型生产时的鲁棒对抗训练,再到模型上线后的对抗样本监测、模型防窃取等,最终到金融产品安全监测与风险评级。围绕全生命周期流程,打造全方位模型防护体系相关产品和解决方案。
目前,该领域的技术研发和产品布局还处于起步期,市场需求也处于爆发的前夜。谁提前布局并提供优质可靠的安全产品,则将引领市场。
三、结语
金融AI迈入深水区不假,但在政策指导、技术驱动、市场实践的共同推动下,金融AI业务将会加速布局和迭代。“新技术升级老场景,老技术开辟新场景”将成为新常态,短期空间和长期市场的机会都十分丰富。AI供应商对未来趋势的研判,以及在前沿技术和产品的研发布局力度,都将影响未来金融AI市场的格局。(完)
作者简介