数据治理的数字画像

5fcba2b4615c62ca7db6478cf9f563ec.jpeg

随着全网步入大数据时代,企业的目光日益聚焦在利用大数据服务精细化营销、精细化运营上,各类客户画像、员工画像理论如雨后春笋般兴起,而数据应用的底层——数据治理,却鲜有整体的理论体系。如何避免治理工作自身“无的放矢”,如何量化数据基础建设的贡献,我们需要为数据治理工作描绘一张“数字画像”。这个命题的内涵外延非常丰富,在此我们选取用户体验、架构质量两个角度进行讨论。

加gzh”大数据食铁兽“,了解更多数据治理咨询

54e6235839ccc3e52a7b5dc19a4245f5.jpeg

一用户体验的数字画像

基于不同的感知角度,将用户分为外部客户、内部用户、管理层、技术人员四类,针对特定的业务场景刻画四类使用者所体会到的“科技赋能”。

de03fefd184f6033b24c2174074641cc.jpeg

1、外部客户

功能体验指标:功能体验指标用于衡量操作平台的易用性及直观程度。可以通过各类埋点,对用户的点击行为、页面停留时间、页面浏览深度进行跟踪。从而挖掘用户常使用的功能,探究用户的实际需要,对于常用功能可以开展功能的改版优化,进行同业产品比较、用户反馈调查等,重点关注主要功能的流畅度、实用性。

平台服务指标:

(1)服务平台一般利用API接口向外提供数据,因此,通过计算API调用率可以计算出其向外输出服务的活跃程度。

(2)由数据服务带来的产品升值也是需要衡量的一大重要指标。营销、运营等商业活动价值提升以一定的比例分配给其相应的数据治理工作,从业务部门有感的角度评估数据治理工作对营销等活动的赋能。

2、内部用户

便利性:过去业务部门向数据管理部门申请使用数据,通常使用邮件或行政流程的方式,这种方法无法实时跟踪申请进度,也无法在统一的页面集中管理,导致相关工作人员在查询与沟通上花费了大量精力。建立自动化、规范化流程以及线上运营工具,将极大地便利流程,因此,手工提取工单压降比率可以作为度量内部用户程度的指标。

时效性:线上化数据治理意味着资产地图、标准架构即存放在用户指尖,关键作业的全链路交付时间是触达内部用户的另一直观感受。该指标可以通过统计各节点的流转时间,计算相应平均值获得。

贡献度:不仅是底层的数据管理,数据的应用输出同样能够为用户带来实际业务价值。BI工具的使用、模型提供数量等指标标志着用户对于应用类数据成果的满意度。

3、管理层

质量提升:对于管理层而言,保障数据仓库、数据湖的“清澈”是他们关心的问题。由于监管报送结果是银保监对银行的重点考核指标,报送规定的数据质量达标率成为对于管理层数据治理成效最直观的反映。基于DQC的一系列指标同样可作为面向管理层的数据清洁度体现。

效率提升:除监管要求之外,数据运营成本对于全行管理也是至关重要的。只有建立规范和高效的数据架构,压降数据报表,降低储存、运维成本,才能实现精细化营运,维持高效率盈利。

4、技术人员

数据字典评分:当企业实施开发过程强管控时,数据字典的角色可看作是法律之于社会,其整体逻辑必须经得起反复推敲。在数据字典的查询页面设立评分反馈是一种简单但行之有效的方法。页面上有计划的引导,反映设计者关注开发人员的使用体验,从而让“吐槽”变成建议,优化和解决使用数据字典时遇到的问题。

二架构质量的数字画像

全行统一的数据架构应在追求高效率的同时降低成本,根据《华为数据之道》中信息架构的经典四范式,我们将从模型、分布、标准、资产四个角度对架构赋能能力进行度量。

0a76d63704c6cc68406bb0a44381463c.jpeg

1、模型

公共层加工频率:公共层中存放有事实数据、维表数据等等,它们支撑着指标体系中的一级指标层。在建立指标时,将维度规范化、集约化,提高公共指标的复用性,减少重复加工的操作,故公共层数据模型的复用率可作为公共层架构评估的指数之一。

应用层引用频率:类似于人际关系网络拓扑结构中的核心人物算法,该指数直接衡量应用层中数据的系统性重要程度,引导资产盘点的目标。数据血缘关系是一种有向的、无权值、无自环的网络图。被引用频率高的资产一般来源于关键业务实体中最准确和最及时的业务记录。这一些资产被跨部门、跨业务领域调用的概率最大,需要实现所有部门可访问并且访问到相同的数据。该指数还能够有效地筛选出“孤儿表”、临时表,减少资源投入和储存成本。

0c755160e5f6153bfbd8e4d77ad46ade.jpeg

2、分布

数据覆盖:对于大型银行而言,数以百计的系统,数以万计的库表在全国范围内分布式储存。采集是资产盘点的第一步,测量采集数在全量系统的覆盖率帮助我们明确当前采集的进度,定位未采集的数据来源。

数据冗余:数据冗余指同层数据的冗余,具体可分为两个来源。第一,多个物理位置中存储了相同意义的数据;第二,架构模型本身在设计上有较多的重复交叉项。

数据容量:数据容量是对数据中台的整体描述,它包括当前中台所囊括的整体数据体量的绝对值,也包含该体量随时间的增长比例。数据容量并非越高或者越低更理想,它需要结合银行的现状辩证性地看待。

3、标准

标准稳定性:数据标准规范化了数据含义、结构等等,应当满足内容统一、不交叉定义等条件,避免数据标准内部发生“数据打架”。

标准落标率:在标准的技术规范完备,主题齐全,标准已权威发布的前提下,标准落标率反映了数据标准“最后一公里”的执行情况。借助自动化工具,能够计算出各类分层、切片后的数据落标率,智能化地发现落标潜在问题。

4、资产

技术元数据统计:技术元数据打通了源数据和数据仓库,记录了数据从产生到消亡的过程。我们从中挑选出系统覆盖率、系统内表级覆盖率、表名以及字段名的有效率、枚举值的有效率等统计指标表示数据架构中技术类资产的产出效益。

企业活动命中率:数据资产是从业务流程、业务模型中抽取出来的数字化描述。标签资产对业务行为的命中率、指标资产对报表统计的命中率、报表资产的用户访问量等数值越高,代表着资产内容映射企业活动的准确度越高。

结束语

伴随着企业数字化转型不断深入,“数据治理的数字画像”从方法论到实践都将趋于完善,内容价值、安全性能、用户体验也会随之提高。如何动态地衡量数据治理工作成效,建立适合自身企业的“北极星指标”,是每一家处于智慧转型阶段的公司所必须研究的,它的成功将创造出不可估量的商业价值。

源:知乎

免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/155844.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GLB/GLTF在线纹理编辑

1、GLB/GLTF纹理介绍 GLB文件是将glTF文件及其所引用的资源文件(如纹理、着色器等)打包到一个二进制文件中。在GLB文件中,纹理数据可以通过嵌入式存储的方式进行存储。 GLB文件中的纹理数据包含了模型的材质信息和纹理图像数据。具体来说&a…

本地vscode安装GPU版本PyTorch

操作系统 windows, IDE环境vscode,本地GPU 可以新建一个jupyter文件,运行一些测试代码 确保装好显卡驱动 在底下调出终端窗口,默认是power shell,我喜欢用cmd窗口 激活自己的虚拟环境,输入命令 nvidia-smi 确保自己…

如何选择UMLChina服务

服务口号:聚焦最后一公里 斐力庇第斯从马拉松跑回雅典报信,虽然已是满身血迹、精疲力尽,但他知道:没有出现在雅典人民面前,前面的路程都是白费。 学到的知识如果不能最终【用】于您自己的项目之中,也同样是…

EDUSRC-记一个SHELL捡漏

目录 ​编辑 Jenkins - println绕过到shell命令执行 语法 Jenkins未授权访问(捡漏失败) Jenkins捡漏 弱口令 脚本执行(println失败) CHATGPT调教绕过 hack渗透视频教程,扫码免费领 Jenkins - println绕过到shell命令执行 语法 org"China Education and…

『Linux』GDB调试

前言 GDB 是由 GNU 软件系统社区提供的调试工具,同 GCC 配套组成了一套完整的开发环境,GDB 是 Linux 和许多类 Unix 系统中的标准开发环境。 一般来说,GDB 主要完成下面四个方面的功能: 启动程序:可以按照自定义的要求…

分布式数据库HBase(林子雨慕课课程)

文章目录 4. 分布式数据库HBase4.1 HBase简介4.2 HBase数据模型4.3 HBase的实现原理4.4 HBase运行机制4.5 HBase的应用方案4.6 HBase安装和编程实战 4. 分布式数据库HBase 4.1 HBase简介 HBase是BigTable的开源实现 对于网页搜索主要分为两个阶段 1.建立整个网页索引&#xf…

C语言中常用的字符串处理函数(strlen、strcpy、strcat、strcmp)

文章目录 写在前面1. strlen1.1 函数介绍1.2 模拟实现 2. strcpy2.1 函数介绍2.2 模拟实现 3. strcat3.1 函数介绍3.2 模拟实现 4. strcmp4.1 函数介绍4.2 模拟实现 写在前面 本篇文章介绍了C语言中常用的字符串处理函数,包括strlen、strcpy、strcat和strcmp。文章…

10-网络篇-DHCP获取的参数详解

一个设备接入路由器局域网时,是通过DHCP获取网络信息,从而完成网络配置的获取。如下图所示为windows系统通过DHCP所要获取的网络配置:IP、子网掩码、网关、DNS服务器。任何设备要上网前,都需要知道这几个参数,下面对这…

拼多多商品品牌数据采集接口,拼多多商品详情数据接口,拼多多API接口

拼多多商品品牌数据采集的方法如下: 手动数据采集。直接在拼多多平台上搜索并手动复制商品数据,适合采集小批量的商品数据。自动数据采集。通过爬虫来自动获取,具体步骤如下: 选择爬虫框架并安装。Python爬虫框架有很多&#xf…

13SpringMVC中拦截器的配置(拦截规则)和多个拦截器的preHandle,postHandle执行顺序原理详解

拦截器 Servlet中的过滤器的实现及其原理,参考文章 配置一个拦截器 SpringMVC中请求的处理流程: 用户请求—>listener—>filter—>DispatcherServlet—>filter—>preHandle—>controller—>postHandle 第一步: 编写一个Java类实现HandlerInterceptor(…

TCP/IP(五)TCP的连接管理(二)三次握手细节

一 ISN序列号探究 本文主要探究三次握手建立TCP连接的细节备注: 某些问题探究的比较深入,当前用不到,暂时通过链接引入进来吃水不忘挖井人: 小林 coding ① 初始序列号 ISN 是如何随机产生的 ISN: 初始化序列号 Initial Sequence Number 接收方和…

SQLAlchemy 使用封装实例

类封装 database.py #! /usr/bin/env python # -*- coding: utf-8 -*-import sys import json import logging from datetime import datetimefrom core.utils import classlock, parse_bool from core.config import (MYSQL_HOST,MYSQL_PORT,MYSQL_USER,MYSQL_PASS,MYSQL_DA…

CustomShapes/自定义形状, CustomCurves/自定义曲线, AnimateableData/数据变化动画 的使用

1. CustomShapes 自定义形状视图 1.1 资源图文件 therock.png 1.2 创建自定义形状视图 CustomShapesBootcamp.swift import SwiftUI/// 三角形 struct Triangle: Shape{func path(in rect: CGRect) -> Path {Path { path inpath.move(to: CGPoint(x: rect.midX, y: rect.mi…

Win10玩游戏老是弹回桌面的解决方法

在Win10电脑中,用户不仅可以办公,也可以畅玩各种各样的游戏。但是,有时候用户在玩游戏的时候,遇到了游戏老是自己弹回桌面的问题,这样是非常影响游戏体验的,却不清楚具体的解决方法。下面小编给大家带来了简…

二叉搜索树-- 删除节点-力扣 450 题

例题细节已经讲过&#xff08;二叉搜索树的基础操作-CSDN博客&#xff09;&#xff0c;用非递归和递归均可实现&#xff0c;这里只给出递归参考代码&#xff1a; public TreeNode deleteNode(TreeNode node, int key) {if (node null) {return null;}if (key < node.val) …

算法进阶——字符串的排列

题目 输入一个长度为 n 字符串&#xff0c;打印出该字符串中字符的所有排列&#xff0c;你可以以任意顺序返回这个字符串数组。 例如输入字符串ABC,则输出由字符A,B,C所能排列出来的所有字符串ABC,ACB,BAC,BCA,CBA和CAB。 数据范围&#xff1a;n<10 要求&#xff1a;空间复…

【JavaEE初阶】 死锁详解

文章目录 &#x1f38b;死锁的概念&#x1f333;死锁的三个典型情况&#x1f6a9;一个线程一把锁&#x1f6a9;两个线程两把锁&#x1f6a9;n个线程m把锁(哲学家就餐问题) &#x1f384;如何破除死锁&#x1f6a9;破坏循环等待 本文重点&#xff1a; 死锁咋回事 死锁的三个典型…

【SkyWalking】SkyWalking是如何实现跨进程传播链路数据?

文章目录 一、简介1 为什么写这篇文章2 跨进程传播协议-简介 二、协议1 Standard Header项2 Extension Header项3 Correlation Header项 三、跨进程传播协议的源码分析1 OpenTracing规范2 通过dubbo插件分析跨进程数据传播3 分析跨进程传播协议的核心源码 四、小结参考 一、简介…

亚马逊,速卖通,敦煌产品测评补单攻略:低成本、高安全实操指南

随着电商平台的发展和消费者对产品质量的要求提升&#xff0c;测评补单成为了商家们提升销售和用户口碑的关键环节。然而&#xff0c;如何在保持成本低廉的同时确保操作安全&#xff0c;一直是卖家们面临的挑战。今天林哥分享一些实用的技巧和策略&#xff0c;帮助卖家们产品的…

嵌入式C语言自我修养《内存堆栈管理》学习笔记

目录 一、Linux环境下的内存管理 二、栈的管理 三、堆内存管理 四、mmap映射区 五、内存泄漏与防范 六、常见的内存错误及检测 C程序中定义的函数、全局变量、静态变量经过编译链接后&#xff0c;分别以section的形式存储在可执行文件的代码段、数据段和BSS段中。当程序运…