Aloudata
本项目案例由 Aloudata 投递并参与“数据猿年度金猿策划活动——2023大数据产业年度创新服务企业榜单/奖项”评选。
大数据产业创新服务媒体
——聚焦数据 · 改变商业
党的十八大以来,党中央、国务院不断加大金融科技创新支持力度,扩大金融科技创新在资本市场的试点范围。同时,2020年10月证监会发布《证券期货业科技发展“十四五”规划》,指出推进行业数字化转型发展是两大主题之一,并强调需加强科技治理体系、数据治理体系建设。数据治理是业务支撑能力应用场景数字化转型的基石,数字化转型是金融科技创新的关键环节。金融科技创新亦成为证券公司稳定运行、发展壮大的必然选择。
首创证券在保障业务系统平稳运行、加强合规管理和注重风险防范的基础上,持续加大金融科技投入,通过数字化水平的不断提升支撑业务战略的落地,依托金融科技保障业务的高质量增长。为满足经营发展需要,首创证券已建设有大量信息化应用系统,经内部调研发现,依然存在大量手工处理、加工数据的情况,导致各方的同一数据口径不一致、同一数据重复加工,耗费大量人力且效率不足,无法保障最终应用数据的质量。首创证券迫切希望打破各应用系统数据孤岛,梳理元数据、主数据,规范数据标准,建立数据模型,提供数据质量保障,实现金融数据价值的最大化。
为解决上述问题,持续提升经营分析、风险管理和监管报送等工作的数字化水平,首创证券决定建设新型的公司级数据中心,从数据应用出发,改变传统的数据仓库方法论,构建数据处理平台、指标中台和数据应用,提供数据治理整体方案,保障数据质量和安全,实现金融数据的作用与价值。
实施时间:
项目开始时间:2023年 7月
中间重要时间节点:2023年 11月
项目完结时间:2024年1月
应用场景
1、高质量经营战略决策
将首创证券各业务、各应用系统数据孤岛进行联通,集中分析整体经营情况,可进行不同业务间经营数据的横向对比,亦可进行同业务内的纵向对比,可支持实时查看各类业务考核指标完成进度,为公司管理层即时调整经营策略提供强有力的数据支撑。
2、数据资产化管理
通常,业务人员需对基础数据进行加工后应用,以支持业务决策。数据中心提供数据开发平台——指标中心,统一定义指标口径,指定指标数据责任人,保障出口数据质量;通过数据权限控制实现一次开发多人使用,避免数据重复开发,将数据资产化管理,提高数据应用效率。
3、数据共享
通过建设公司级数据中心,梳理并确定主数据内容、源头、责任岗位,保障数据质量。责任主岗维护一次数据后,即可供其它应用系统通过数据中心接口获取该主数据,既保障了各应用系统间同一数据的来源一致性,又减少了同一业务链条上多次手工维护数据造成的不确定性。数据中心汇集各应用系统的核心数据并提供接口,供应用系统获取其他数据,降低应用系统间共享数据的复杂度,提高数据安全性。
面临挑战
盘点发现,首创证券亟待解决的问题和场景包含以下方面:
1、数据孤岛现象严重:上万张数据表,分散在 10 多个不同业务系统、数据库和平台中,数据孤岛现象严重;
2、数据口径不一致:开发链路不一致,指标口径缺乏有效管理,导致同一业务指标从不同数据表或服务中取得的数据不一致;
3、口径溯源及影响面评估难:传统数据分析解决方案难以打通整体的数据血缘,导致指标的口径溯源困难;在调整数据链路时,也很难看清对下游的影响面;
4、数据使用与分析效率不足:投资经理对不同产品差异化分析的需求越来越高,但其很难通过数仓表自助完成数据提取,数据使用最后一公里痛点明显;
5、灵活性和敏捷性不足:证券市场变化迅速,需要快速调整分析策略,现有数据体系情况无法满足需求。
在此背景下,首创证券数据平台团队考察调研了多种数仓解决方案,传统数仓 + BI 的思路难以满足其对高效数据管理和智能分析的需求。
应用技术与实施过程
基于上述问题,首创证券联合 Aloudata大应科技制定了一套更高效、更统一、更智能的 DataFabric 架构理念下的敏捷数仓技术方案现代数据平台方案,适应数字化时代的新需求。
Data Fabric 是一种新的数据管理和集成方法,它将数据生态系统的复杂组件整合到一起,提供完整且有凝聚力的数据管理方案。与数据湖不同,Data Fabric 无需将数据移动到集中位置,而是依靠强大的数据虚拟化技术及数据治理策略来实现数据管理的统一。Data Fabric 数据管理方法,打破了传统数仓及数据湖等前几代数据处理技术限制,释放了数据的生产力。
因此,本方案摒弃传统数仓数据架构(贴源层->明细层->聚合层),基于 NoETL 理念进行跨数据源查询构建虚拟明细层,并根据下游使用数据情况智能化构建数据聚合层、自动化进行数据物化以提升数据应用性能,简化数据开发链条的长度,节约数据中心基础设施成本,降低数据中心运维成本,构建数仓新形态。
具体到方案设计,本敏捷数据分析方案实现了:
1、将外部采集数据、业务数据库数据(Mysql、Oracle、SqlServer等)以及对象存储数据统一通过 PDS(物理数据集,即业务库源表的映射)方式映射到敏捷数仓中,无需做一对一的数据复制,无需构建传统数仓的 ODS 层。
2、基于 PDS/VDS 定义新的 VDS(虚拟数据集,即定义了数据视图的取数逻辑),过程中,无需关心数据存储和计算调度等细节,也无需物理拷贝数据,可多层嵌套,直到定义出目标场景可用的虚拟数据集。
3、基于虚拟数据集进行统一模型和指标定义,并通过 API/JDBC 开放化接口对接外部的报表或者分析工具,或者通过 JDBC 导出到外部数据库或者文件,实现数据和外部系统的共享。
4、根据用户访问需求,配置投影加速策略,并由系统根据用户查询历史,智能构建加速策略,实现外部业务数据查询的快速响应。投影根据所属 VDS 的嵌套依赖关系,自动构建数据更新链路,实现自调度的自动化投影数据生产。
本方案在落地应用阶段先后完成数据虚拟化引擎、指标服务平台搭建,其中100% 均为信创技术和产品、覆盖数据的采集、管理、分析、展示等多个维度,2023 年底达到版本与服务稳定运行的效果。各下游应用系统均从本平台获取数据,提高数据一致性;指标性数据,均在此平台实现定义与开发,提升指标数据生产效率,保障指标数据的一致性,避免重复性的数据开发工作;平台的数仓架构,从整体成本节约了数据存储成本,提高数据开发效率,敏捷高效满足即时业务数据分析需求。
商业变化
依托 Aloudata AIR 逻辑数据平台、Aloudata CAN 自动化指标平台构建的 NoETL 敏捷数据分析方案在降低成本和技术创新等方面具有显著优势,取得了重大效益和示范成果:
1、10倍以上数据化运营效率:本方案重新定义了数据工作方式。无需等待数据同步和漫长 ETL 排期,人人皆可自助发现可信数据,随时进行全域数据探索和数据准备,实现企业数据化运营的极致敏捷。
2、最高100倍数据湖分析性能:本方案提供相比开源 Presto、Impala 等开源方案2倍以上的数据查询性能。通过智能加速技术,最高可实现100倍性能提升,带来交互式的数据分析体验。
3、50%以上存储成本节约:本方案基于对象存储技术构建数据湖,按需物化,相比开源 HDFS 方案成本节约近2/3,同时通过对无用数据存储的自动回收以及对相似数据存储的自动合并,大幅降低存储成本。
4、70%以上数据管理成本节约:该方案实现了元数据驱动的智能化、主动式、持续式数据管理,让数据管理走向“自动驾驶”,大量节省在数据治理和风险应对上的管理投入。
从技术创新角度,该方案通过 NoETL 理念,该方案能够减少数据冗余存储,提高数据 ETL 效率,降低数据应用开发复杂度,从而有效提高数据应用开发效率,并大幅度减少数据资产化方面投入的人力与物力成本。此外,该方案还提供全链路血缘分析,为 IT 技术人员和业务人员带来高效便捷的数据开发和应用体验,提高技术人员与业务人员沟通协作效率,促进公司业务发展和品牌建设,有效积累无形资产,推动公司业务转型和市场竞争力的形成,并实现了以下几大技术创新突破:
1、Data Fabric 架构实践
① 支持联邦查询:利用虚拟数仓技术,将首创证券众多散落在各处的业务数据进行统一管理和定义,无需拷贝原始数据(无需 ods 层),直接构建明细层(dwd 层),降低建设复杂度和存储成本。
② 通过虚拟化技术,提供一致的数据视图,通过一套查询语言来支持分析、报表及 AI 等场景的数据使用。
③ 智能物化加速:基于用户查询行为和业务元数据驱动的智能加速能力,使得数据查询分析相比传统 presto、impala 等查询引擎有近百倍的提升。通过智能自动化生产,全面替换了原来需要人工完成的数据集成、开发和运维的工作,降低成本、提升效率。
2、指标定义即生产、定义即服务
提供极为灵活、声明式的指标定义能力,依托数据自动化生产技术,定义的指标触发自动的指标数据生产,并通过 JDBC、API、EXCEL 插件等诸多通道提供给各种数据消费场景。
3、全链路血缘
提供了从报表到指标到敏捷数仓到原始业务库,端到端的全链路列级血缘能力,从而为指标口径溯源、变更影响面评估等提供了可靠的评估依据。
相关企业介绍
·首创证券
首创证券股份有限公司成立于2000年2月,注册资本27.3亿元人民币。2022年12月22日,公司在上海证券交易所挂牌上市交易(证券代码“601136”)。公司总部设在北京,控股股东为北京首都创业集团有限公司,实际控制人为北京市国资委。
经过二十余年的稳健发展,公司已成为具有全牌照经营资质,业务结构均衡、特色鲜明的综合类证券公司。公司业务范围涵盖资产管理、自营投资与交易服务、投资银行、证券经纪、财富管理、信用融资、研究咨询、期货、私募基金管理、另类投资等多个领域,为企业客户、机构客户、零售客户、高净值客户等提供各类专业金融服务解决方案,在资产管理、固定收益投资交易等领域形成了自身特色与品牌优势。多年来,公司一直保持良好的发展态势,经营管理规范,资产质量良好。
·Aloudata
Aloudata(大应科技) 是一家自动化数据管理软件提供商,国内 Data Fabric 架构理念引领者,以“让数据随时就绪”为使命,致力于消除数据管理技术瓶颈,提升 ETL 工程自动化水平,助力企业平滑升级至下一代大数据基础设施。
Aloudata 自主研发的 Aloudata AIR 逻辑数据平台支持异构数据的逻辑集成、整合与查询,通过自适应物化加速和自动回收技术,实现秒级查询响应并节省 50% 以上的存算成本;Aloudata BIG 主动元数据平台,基于全球独创的算子级血缘解析技术,让复杂数据链路看得清、管得住、治得动,实现更精细更智能的数据管理;Aloudata CAN 自动化指标平台,改变“业务提需求IT 开发”的传统模式,支持业务人员从任意颗粒度、任何维度灵活分析指标,实现指标“定义即开发、定义即服务”。
目前,Aloudata 各产品已在多家头部企业的复杂数据环境中落地,成功交付了多个 Data Fabric 最佳实践。