01
数据标签管理和应用中的问题
数据标签是面向业务的数据资产组织方式,是数据资产为业务系统赋能的重要载体。数据标签从源系统采集、数据清洗、分层管理,到最终根据业务需求组织成可使用的标签,是一个漫长的过程,其中有五大痛点始终困扰着标签管理及使用的相关部门。
1.新标签开发流程长
新标签开发流程由业务部门发起,经数据管理部门、测试中心配合,最终由开发部门落地实现。从提交开发部门初评标签需求起,到投产上线一般需要较长时间,整体时效性较低。
2.部分标签需求无人提出
有些标签不直接应用于业务场景,且整体研发流程较长,等到需要时再提需求往往无法及时满足业务需求。比如交易对手(商户)行业分类标签,此类标签不会在业务场景中直接使用,但会应用于许多分析建模类工作中。
3.不可见标签管理困难
在实际标签使用场景中,存在有用但不可见的标签,此类标签涉及敏感信息,需要统一扎口管理。比如用户的联系方式等,此类标签需在活动发放时供业务配置使用,但是其标签信息特殊,不适合由各业务部门分头管理。
4.数据问题难以定位
目前标签数据是由数仓直接加工得来,生产逻辑较复杂,涉及的中间表较多,中途缺乏数据质量的扎口节点。当在使用过程中发现数据异常时,需要通过分析整个代码逻辑链来定位问题,很难快速定位问题发生的位置,效率较低。
5.数据测试难度大
新标签开发数量庞大,业务口径繁杂,每个新标签都需要定制测试案例。同时标签开发涉及的源表数量庞大,表结构种类众多,很难搭建统一规整的测试数据源。因此新开发的标签需花费大量时间确定测试方案及准备测试数据,测试工作压力大,效率低。
02
企业级数据标签的基本概念和分类
1.基本概念
标签:标签是用数字高度抽象化概括客观对象的特征,包括客观对象的基础属性和汇总属性。
客群画像:指标签化的用户信息。通过客户各个维度的数据,进行客群特征属性的刻画,从而抽象出用户信息的全貌。针对特定应用场景还能刻画专门的客群画像。
中台标签:从数据资产沉淀出发,以实现数据的平台级复用、降低业务的试错成本为目的,由数据管理部门设计并管理,由开发部门实现,用于高效配置业务标签的数据资产。
业务标签:从实际业务出发,以实现业务需要为目的,基于中台标签,由业务部门自主设计、配置并管理的数据标签。可直接应用于各大业务场景及系统。
2.兼顾复用性和灵活性的数据标签体系
建设标签体系即构建对标签描述管理的规范框架,包括标签名称、标签定义、标签分类、标签逻辑、标签取值、标签适用场景、标签调用量、标签质量、标签价值等属性。下文将对标签的开发层次及分类体系进行展开论述。
1)数据标签体系的规划目标
商业银行业务触点丰富,客户数量庞大,应用场景繁杂,仅银行零售业务场景就能产生数以万计的数据标签。在管理和描述商业银行客户标签时,标签体系的建立就显得格外重要。建立标签体系是通过厘清标签数据的加工层次及分类体系,构建高效的标签生产流程,对标签设计进行系统性的规划,并实现标签管理的快速规整。
-
构建高效的标签生产流程:由于商业银行客户标签数量庞大,数据从采集到开发成标签的链路十分复杂,如果不对标签生产流程进行系统化的分割管理,标签生产过程会进入难追踪、不可控的状态。
-
对标签设计进行系统性的规划:商业银行标签应用场景丰富,相关数据内容也多种多样,因此在标签设计之初就需要遵循一套标准的框架体系,使得标签设计可以在生命周期管理的各个阶段能保持同标准、高效能。
-
实现标签管理的快速规整:面对海量的商业银行客户标签,必须对标签进行分门别类,以实现高效的标签检索。需要特别注意的是,标签检索的需求不只体现在标签的使用过程中,在标签的配置和衍生过程中也同样重要。
2)面向复用性和灵活性的数据标签
在管理和描述商业银行客户标签时,标签体系的建立就显得格外重要。建立标签体系主要为了实现两个目标,即对标签设计进行系统性的规划,以及对标签管理的快速规整。
如果前台的业务需求直接由后台开发人员逐一实现,那么后台开发低频的开发测试流程会成为整个标签开发工作的瓶颈。
为了应对以上问题,前端应用的数据标签需要由前台业务部门来主导管理配置,即所谓“业务标签”;后台开发部门提供的内容从“成品标签”转换为“可拓展的标签”;中台数据部门维护“可拓展标签”的门类、标准和质量,即所谓“中台标签”。
中台标签是数据资产的全集,是所有需沉淀、可复用有价值的标签池。中台标签类目体系比较稳定,是对客户、产品等对象的本质描述及普适分类,与业务场景松耦合。中台标签分类体系应当由数据管理部门统一操作、管理及运维。
业务标签侧重于业务场景,根据实际需要构建标签分类体系,并基于中台标签配置。业务标签分类体系由业务部门自行创建和管理,数据管理部门可参与提供建议。
业务标签与中台标签的对比关系如下表所示:
3)业务标签及中台标签生命周期管理
业务标签与中台标签的运作频率及目标是不同的,业务标签以业务需求为驱动核心及目标,迭代频率高,存续期短,可以理解为前台标签;中台标签以(标签)数据沉淀为目标,追求(标签)数据的可复用性及可拓展性,迭代频率低,存续期长。
虽然业务标签与中台标签在许多方面存在差异,但是他们的设计过程是相互融合互补的,即可以选择先根据业务需求设计业务标签,再对业务标签进行类目划分,拆解成可复用可沉淀的中台标签;也可以先规划中台标签,再结业务需求组合出业务标签。业务标签与中台标签生命周期的“内循环”与“外循环”如下图所示。
业务部门主要参与业务标签的生命周期管理,根据实际业务场景来划分业务标签的管理、访问及使用权限。数据管理部门主要参与中台标签的生命周期管理。
3.数据标签的进一步分类属性
1)时效性分类
根据标签内容的稳定性,可以将标签分为静态标签与动态标签。针对不同时效的标签,将会配置不同的标签生产、更新及监控策略。
-
静态标签:指长期甚至永远都不会发生改变的标签。比如性别,出生日期,这些数据都是既定的事实或处于稳定状态,几乎不会改变。此类标签维护成本较低。
-
动态标签:一般存在有效期,需要定期更新,保证标签的有效性,比如用户的购买力,用户的活跃情况等。动态标签需要着重管理数据日期,考虑数据连续性及历史数据的定期保留策略。
2)层次分类
根据标签数据的提炼层次,可以将标签分为四种类型:事实标签、模型标签、预测标签及自定义标签。
-
事实标签:是对客户基本事实的描述,从原始数据中提取,不掺杂主观或其他规则成分。此类标签不仅可以直接使用,还可以通过各种方式转换成衍生标签。
-
模型标签:是指基于客户的事实数据,通过人为定义规则,建立模型,计算得出标签实例,如支付偏好度。此类标签的主要功能是通过规则将复杂的多维信息降维成一维信息,规则一般表现为度量方法和阈值,比如客户移动端活跃度,客户月环比AUM增长度等。由于度量方法及阈值需人为设计,因此此类标签始终包含着一定的主观性,此类标签可以很大程度地提高对客户属性刻画的可读性和可用性。
-
预测标签:一般基于海量的用户历史行为数据,通过复杂的机器学习模型去挖掘其中的潜在数据规律,根据此规律对客户的现状或未来的行为进行推测与预演。比如可以根据用户的消费行为推测是否是有孩人士,或者根据客户历史的还款及消费行为推测他是否存在逾期风险。此类标签最大的特征是存在一定的偏差,因此在使用过程中,应始终充分理解其业务含义,在合适的场景应用。
-
自定义标签:由分行或客户经理手工标注的标签,标签名、标签值都可以由业务人员自行配置或填写。
3)标签对象分类
对象指需要研究的目标,是商业银行业务过程中的参与主体。根据基础数据标准,将标签对象分为7类,包括:客户、产品、账户、渠道、区域、员工、机构。
-
客户标签:是以客户为刻画对象的标签,包括对公客户及对私客户。以对私客户为例,对私客户标签的主键为统一的客户编号。客户标签可分为四个层级,包括客户的基本属性、行为关系、兴趣习惯、性格偏好。客户标签的基本属性到性格偏好,逐步从基础事实到提炼概况,存在依赖和递进关系。同时在客户标签内部,静态标签和动态标签是辩证统一的关系,基本属性属于典型的静态标签,但是客户的行为关系属于动态标签。随着提炼程度的增加,兴趣习惯和性格偏好会逐步固化稳定,又回归到了静态标签。
-
产品标签:是以商业银行零售产品为刻画对象的标签,此类标签的主键为统一的产品编号。产品标签也分为四个层次,包括产品的基本属性、主从属性、被动关系、价值评估。与客户标签相似,产品标签从基本属性到价值评估,产品标签内部也存在静态标签和动态标签的转变关系,一般来说,产品标签以事实标签为主。
-
其他对象标签:除了客户级产品对象标签外,我们同时需要其他对象类型的标签,以满足不同颗粒度下的数据需求。包括账户标签,用于描述指协议、合约对象;渠道标签,如手机银行和网银,用于记录用户的注册信息、登录信息、交易信息、埋点信息等;区域标签,用于记录银行业务在省份、地级市、区县等维度的汇总统计情况;员工标签,记录员工的基础信息、岗位角色信息、业绩信息等;机构标签,用于记录机构基本信息、层级信息、分类信息等。
4)类目(场景)分类
以零售业务场景分类为例,业务部门可根据中台标签配置相关业务标签,其本质为前台对中台标签标准的数据索引。
目前零售客户标签共分11个一级分类(场景),包括属性信息、社交信息、营销信息、服务信息、接触行为、账户行为、资产负债、风险管理、模型预测、综合评估、其他场景。分别下设二级分类,具体标签分类如下表所示:
03
企业级数据标签管理方案
业务标签直接服务于企业的业务需求,其开发需求是高频的,开发流程也需要更加敏捷,而可复用的中台标签往往是低频、稳定、重流程的。因此需要有一套管理方案能将两个不同频率的工作流程有机连结起来。
中台标签管理主要包括数据架构的设计、数据加工及流转流程等,该流程需要兼顾标签的需求管理、开发、测试、验收等环节,需要业务部门、数据管理部门、数据开发部门及测试部门的协同配合。
1.标签架构及管理流程
1)中台标签的数据架构
由于业务标签依赖的中台标签数据体量十分庞大,因此业务标签与中台标签都在企业级的数据计算平台中产生并存储,可以通过在计算平台中配置敏捷开发模块,为标签配置人员提供操作入口。以商业银行数据架构体系为例,中台标签及业务标签在企业数据架构中的关系如下图所示:
中台标签一般建立在模型层之上,或者作为模型层的组成部分,是一种面向业务场景的数据资产构建方式,它比数仓模型更加灵活,允许在一定范围内变化适应业务场景。
敏捷开发模块(配置模块)除了实现中台标签的灵活配置功能之外,还需记录中台标签转换成业务标签的过程,包括依赖、配置过程等信息。这些数据的血缘信息需记录在企业的数据治理平台,方便用户在调用业务标签时,能快速回溯所依赖的中台标签,同时可以根据业务系统统计的标签使用情况,推算中台标签的使用情况,进一步推动中台标签迭代升级。
2)中台标签组织结构及管理流程
业务标签和中台标签的配置开发流程涉及业务部门、数据管理部门、开发部门及测试部门。其中业务标签的负责部门为业务部门,中台标签的负责部门为数据管理部门,开发及测试部门负责中台标签的开发及测试工作。各部门的核心职责可以如下:
如上表所示,业务标签及中台标签分别由业务部门及数据管理部门负责,内容包括需求管理、数据质量、标签生命周期管理等,同时需要负责编制相应的规范及管理办法。
中台标签及业务标签的开发工作需要业务部门、数据管理部门协作完成,整理流程如下图所示:
业务部门在提出业务标签需求时,需要同时确认业务标签类目体系的建立及下挂,在明确业务标签逻辑的同时,进行业务标签验证案例的设计。在完成业务标签配置后,业务部门可将业务标签的类目体系下挂情况、标签元数据接入数据治理平台。
数据管理部门同时负责协助业务部门生成验证数据,并逐步提炼形成业务标签案例库。
2.标签管理规范及评价体系
1)业务标签及中台标签管理规范
为配合业务标签及中台标签的管理及使用,需要制定一系列规范、管理办法及使用手册。
《中台标签数据建设规范》:规定中台标签数据建设规范,包括:中台标签的设计、开发、测试、存储、传输、使用(调用、加工衍生、借用、展示)、更新、删除等过程节点中的口径及规范。
《中台标签数据管理办法》:规定中台标签数据使用过程的流程管理,包括中台标签相关的架构管理、数据使用管理、数据质量管理等方面的规范。
各业务标签数据管理办法:由各业务部门制定,规定业务标签数据使用过程的流程管理,包括但不限于业务标签相关的架构管理、标签生命周期管理、数据使用管理、数据质量管理等方面的规范,如《零售板块标签管理办法》等。
《中台标签使用手册》:需持续更新,面向中台标签用户(业务部门及数据管理部门),作为中台标签的使用手册,介绍中台标签的基本情况,指导用户配置业务标签。
2)标签评价体系
标签质量是度量标签价值的核心指标,可分为三个层次:数据质量、应用质量、业务质量。
数据质量:标签数据质量管理贯穿标签设计、开发、使用、归档等节点的全过程,核心是制定一套标签质量管理规则,配备具有监控策略配置、数据交叉验证工具、报表可视化功能的标签数据质量监控平台,实现监控工作的实际落地。标签数据质量需重点关注其完整性、准确性、一致性和及时性。
应用质量:应用质量的评估是从产品角度出发,评估标签对于产品应用的价值,通过标签的开发敏捷程度、调用量、使用的方便程度来度量。这些过程监控需要嵌入在标签的全生命周期管理过程中,是过程管理的重要环节。
业务质量:这个方面最难衡量,但却是最重要的,业务质量是对标签覆盖业务场景的范围,最终降本增效成果的度量。一般传统的衡量方式包括:收益法,即度量标签对企业数据业务的降本增效成果;市场法,即参考数据交易产业中的成交价格度量标签的价值;成本法,即用生成标签的相关资源成本度量标签价值。
04
商业银行数据标签应用场景
1.商业银行私银客户流失情况分析
高净值客群一直是商业银行关注的客群,商业银行可以通过零售客户标签数据,挖掘高净值客户流失原因,问题分布情况,形成流失高净值客群的客群画像,包括基本情况、空间分布情况及产品购买情况等。进而深挖分析对象的资金流出情况、代发及房贷情况、产品收益情况等,从而逐步构建出流失原因全貌。在此基础上,分析人员进一步深挖集团内高净值客户流失分布,实现了负责人颗粒度的问题定位,具有明确的指向性,为高净值客户精细化管理提供了充分的数据支撑。
分析人员可以通过企业的分析平台抽取数据,因此可以直接调用到中台标签及业务标签。在整体的数据提取过程中,需要用到不同层次的数据,如用户的基本信息、管户关系等。数据是一种静态标签,此类数据被作为中台标签记录在数据仓库中,分析人员可以直接从中台标签调取数据。而类似用户的资金流向,代发情况等数据,以高度汇总的明细表形式记录在中台标签中,分析人员可以在此基础上添加多种规则。由于此类数据是高度汇总的,整体的计算开销也能控制在可接受的范围内,使得整个过程兼顾了定制化与效率。
2.细分客群数字化经营
细分客群指根据客群的行为(对于行为分割)或特定特征(对于人口统计学分割的收入,例如区域、年龄等)挑选出的若干组客群。针对不同特征的客群,商业银行会配置不同的管理及营销策略,从而在适当的时间,适当的场合,为合适的人员提供合适的产品。
商业银行可以针对“养老客群”及“代发客群”进行深入研究,分析人员通过整合全行客户标签数据,构建出完整的客户画像,通过聚类算法将客户分层分类。在此基础上构建智能决策模块进行智能预判,实现高效客户获取及个性化客户经营。最终通过“全渠道”进行精准触达,通过营销技术栈实现数据闭环。
通过集团的客筛平台,基于业务部门已经配置完成的业务标签,可以快速筛选出客群并完成初步分组分层。分析人员通过业务标签可快速对客群的基本情况进行了解,但是业务标签仍然无法满足数据建模的需求。此时分析人员会根据理论模型需要,从中台标签库中挑选合适的素材,快速配置出需要的标签以备用。
在储备中台标签的情况下,面对此类企业级的数据建模项目,依然可能会出现数据不足的情况。这时候便会由数据管理部门启动中台标签开发流程,拆解当前中台标签无法满足的业务需求,构建中台标签需求。比如在进行“代发客群”案例分析时,补充建设“交易对手行业标签”这一中台标签。事实上行业标签并不是一个短期能完成的中台标签,但可以首先设计该标签的类目体系,在此基础上优先开发项目所需要的行业标签,后续再针对其余标签分批补充开发。
正是基于这种分层管理的标签体系,分析项目才能实现逐层调用和构建数据,在不改变原有标签体系架构的前提下,快速补充缺失数据并投入使用。