数据指标与标签在数据分析中的关系与应用

导读:分享数据指标体系的文章很多,但讲数据标签的文章很少。实际上,标签和指标一样,是数据分析的左膀右臂,两者同样重要。实际上,很多人分析不深入,就是因为缺少对标签的应用。今天系统的讲解下。

一、 何为指标,何为标签,两者有何区别?

1、从内容上看:指标通常描述客观事实,标签往往存在人为划分。

指标是用来定义、评价和描述特定事物的一种标准或方式,多为数值型。比如:新增用户数、累计用户数、用户活跃率等是衡量用户发展情况的指标;月均收入、毛利率、净利率等是用来评价企业经营状况的指标。

标签是人为设定的,根据业务场景的需求,对目标对象运用一定的算法得到高度精炼的特征标识,标签是经过人为加工后的结果。比如客群标签可以分为长尾客户、高净值客户;产品标签有高风险和低风险。标签并不是一个客观的事实,而是由人为的定义和客观事实结合得到的数据标签。其核心的目的是划分不同的实体群组。

从二者之间的关系来说,指标和标签之间是可以相互转化的。指标可以从标签中转化,比如高净值客户的迁移率,其中高净值客户和长尾客户都是标签,但在标签的基础上增加一个迁徙率,就由标签转化为了指标。

同样标签也可以从指标转化得来,比如说银行中常用的数据标签:私行客户(AUM>=1000万),其中 AUM 就是数据指标,不同银行的标签设定可能是不同的。

2、从分类和场景上看:指标和标签的分类原则不同,使用的场景也不同。

1.指标分类一般来说指标常用的分类是相对固定的,会将指标分为原子指标、派生指标和衍生指标三类。

  • 原子指标:不叠加任何维度,仅是对业务事实的最基本描述,通常是一些整体指标,通过SQL直接统计出来的,比如客户数、项目数、成本支出数等等……
  • 派生指标:就是原子指标叠加一个或多个维度。广州在建的项目数是在建的项目数叠加地域维度;目前湛江停工的项目数,就是在建项目数加上地域维度和时间维度。
  • 衍生指标:很多时候仅仅叠加维度还不够,有时候我们还需要不同指标之间互相计算,最常见的就是求平均和占比,比如平均的项目标的、在建的项目和总项目的占比、回款额和合同额的占比……这就是衍生指标,即通过原子指标或派生指标互相加工而来。

2.标签分类标签可分为事实标签、规则标签和模型标签。

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

3.指标使用场景

指标通常拆解使用。比如一个较大的指标:客户数,可以拆解到不同维度上,并且加以限定词,比如手机银行客户数、七日内客户数的增量等,主要是用来监测和评价业务的效果。

4.标签使用场景

标签通常归纳使用,用来刻画某一个群体的特征,可以是客户也可以是产品,其核心是分类,给予不同类别不同的经营策略。

具体举例说明:指标体系通常会首先定义一个或几个北极星指标,比如银行常年使用AUM 作为北极星指标,将北极星指标拆解到现金/存款、投资理财或其他业务模块,同时用户也可以拆解为活跃用户和非活跃用户等。以此基础可以梳理出整体的指标框架,从而指导业务。在标签的使用场景上更多的偏向一线的营销场景,包括客户的经营、精准营销和资格判断等。通过不同客户的标签将其分成不同的类别,并进行不同的活动、资格或者产品的推送。也可以给产品打标签,用来标识产品适合哪类人群,在平安银行口袋 APP 这样的平台就做到了千人千面,每个人进去看到的具体内容是不一样的,这就是通过标签去筛选圈定的。

二、 指标体系相关概念

数据指标就是将大数据之“大”的精髓给提炼出来,展现每日观察数据的使用者最迫切想要看到的统计量。数据指标体系并不是第三方服务公司的专利,只要对埋点科学地进行数据采集,每个成型的互联网公司都可以自己搭建数据指标体系。

数据之大,很多时候人们并不知从哪里着手,甚至弄不清自己到底想要什么数据,这时候数据产品经理这一角色应运而生。数据产品经理既要完成数据体系设计,让原本无序或庞杂的数据变得“规矩”,又要根据业务场景的变化不断调整项目内容,推进项目进度,推进数据指标体系的建设与迭代。

数据指标体系的规划是平台型数据产品经理必备的能力,这也是数据产品经理有别于其他产品经理和数据分析师的方面。

《荀子》有云:“水能载舟,亦能覆舟。”在公司日常运营过程中,数据指标体系就像是水,孕育着生命,承载着万物。科学的数据指标体系能指引公司在正确的道路上不断前进,或者使平淡无常的业务焕发新生,而不合理的数据指标体系可能使得业务方无所适从。

1、什么是数据指标体系?

在了解什么是数据指标之前,我们思考一下为什么会出现指标,它是为了解决什么问题。人类及科学的发展是与时俱进的,早期为了使自然科学的实验及结果更具统一性及方便标准化衡量,一些标准化的专业指标应运而生。

随着人类社会的发展,社会科学也越来越需要统计学来进行事物的衡量,一系列统计学指标也逐步产生了。随着新信息技术的发展,数据指标逐步被大众认可为衡量目标的方法。

从社会科学角度看,指标是统计学的范畴,用于数据的描述性统计。指标是说明总体数量特征的概念及其数值的综合,故又称为综合指标。

在实际的统计工作和统计理论研究中,往往直接将说明总体数量特征的概念称为指标。传统的指标有国内生产总值(Gross Domestic Product,GDP)、国民生产总值(Gross National Product,GNP)、居民消费价格指数(Consumer Price Index,CPI)、沪深300指数等。

1. 什么是数据指标?

数据指标有别于传统意义上的统计指标,它是通过对数据进行分析得到的一个汇总结果,是将业务单元精分和量化后的度量值,使得业务目标可描述、可度量、可拆解。

数据指标需要对业务需求进行进一步抽象,通过埋点进行数据采集,设计一套计算规则,并通过BI和数据可视化呈现,最终能够解释用户行为变化及业务变化。常用的数据指标有PV、UV等。

本文提及的指标是衡量目标的方法,指标由维度汇总方式量度组成(见下图)。

指标的构成

  • 其中,维度是指从哪些角度衡量,是看待事物的视角与方向,决定了根据不同角度去衡量指标。
  • 汇总方式是指用哪些方法衡量,是统计汇总数据的方式。
  • 而量度主要是明确事物的具体目标是什么,是对一个物理量的测定,也用来明确数据的计量单位。

比如,播放总时长是指用户在一段时间内播放音频的时长总和(单位:分钟)。按照上述拆解,维度是指筛选的一段时间,汇总方式为计算了时间长度的总和,而量度就是统一的单位—分钟数。

这里,我们可以理解为指标是由这几个方面构成,相当于英文的构词法,前缀、后缀等共同形成了一个单词。

2. 什么是指标体系?

体系化的本质是将数据指标系统性地组织起来,具体会按照业务模型、按标准对指标不同的属性分类及分层。当然,不同的业务阶段、不同业务类型会有不同阶段的划分标准。

数据指标体系含有十分丰富的统计量,从宏观上看,它是一个相对全面的有机整体;从微观上看,每个数据指标都有其特定含义,反映了某一细节的客观事实。不同的数据指标定义不同,逻辑也不同,这些各种各样的统计量共同构成了数据指标体系,使其产生不可磨灭的价值。

总的来说,数据指标体系是对业务指标体系化的汇总,用来明确指标的口径、维度、指标取数逻辑等信息,并能快速获取到指标的相关信息。

2、数据指标体系的价值

数据指标体系是业务数据标准化的基础,其对指标进行了统一管理,体系化是为了方便统一修改、共享及维护。

宏观方面,数据指标体系建设是数据中台建设的重要一环,不仅符合“创新驱动”的意识,更是企业实现自身“数据驱动”发展的重要途径。

随着大数据和人工智能技术的发展,很多企业选择借助信息技术实现转型升级。在大数据时代早期,大部分数据并没有被充分地挖掘分析和利用。虽然数据规模非常大,但是却很难利用这些数据创造价值。而数据中台的提出及数据指标体系的构建,使得数据产生了实际价值。

有了数据指标,人们做决策时不再是按照经验“拍脑袋”,而是看看数据是怎样呈现的,能够及时基于数据进行战略调整及决策规划。

数据指标体系的价值主要体现在全面支持决策、指导业务运营、驱动用户增长,同时统一统计口径(如下图所示)。其中,作为压轴作用的统一统计口径对于数据指标体系而言具有战略意义。

数据指标体系的价值

在一个整体中,如果不能统一口径,那么一切分析及对比的参考价值就会显得无意义,各方也会陷入公说公有理,婆说婆有理的尴尬局面。由此说明,对于衡量整个公司的业务价值而言,建立一套统一标准的数据指标体系的作用不言而喻。

1. 全面支持决策

数据指标极具参考价值,公司的管理层为了更准确地进行战略决策,需要搭建完备的数据指标体系。一个相对全面的数据指标体系,可以让管理者对公司的发展从数据层面有一个比较客观的认知,而不是管中窥豹,这样在进行战略决策时,可以保持相对理性。

而对于新业务的洞察,也可以不断融入新的数据指标,丰富指标体系,灵活且全面地把握业务发展趋势,为未来的决策提供借鉴。

2. 指导业务运营

不懂数据的产品不是好运营,为了便捷地了解产品现状及业务效果,指标体系中会有很多拆解的细分指标,这些数据的变动反映的是用户对于运营情况的最新反馈,为运营的业务决策提供了数据支持。用户运营可以根据这些数据,了解用户的喜好,决定下一步的运营策略和活动开展。

例如,对于阅读行业来说,内容编辑会基于自己对内容的认知,将一组有共性特征的书籍组成一个书单推送给用户,那么指标体系中也会有相应的指标反映用户对这个书单的偏好。内容编辑就可以通过这些指标,了解用户的偏好,决定下一步是否要继续尝试这种类型的专题。

3. 驱动用户增长

最近最火的词莫过于用户增长,数据指标体系中的用户行为数据,可以让产品及运营人员对用户的行为路径和喜好模式有一个比较深入的理解。剖析用户的行为特征,助力用户价值的提升,让产品及运营更聚焦于产品细节的优化,更好地进行监测,提升用户留存及转化。

人们在分析和挖掘用户行为的过程中,也许会发现不少新的用户增长点。体系化的指标结合了用户的场景,且多个不同的指标和维度可以串联起来进行全局分析,解决了非体系化指标无法串联的痛点。

公司在深入进行数据分析后,可能会在原有业务中发现某个点潜藏着巨大商业价值,从而单独把这块业务重点推进,实现用户增长的二次腾飞。

4. 统一统计口径

从技术角度来看,数据中台是为了汇总与融合企业内的全部数据,甚至外部数据,打破数据隔阂,解决数据标准与口径不一致的问题。数据指标体系化有个好处是可以实现指标的统一管理,实现统一的统计口径,避免定义模糊和逻辑混乱,影响数据质量。

同时,完备的数据指标体系也可减少重复统计的问题,从而避免日志上报产生的数据冗余和重复分析产生的服务器资源浪费。

三、 标签体系相关概念

标签由标签和标签值组成,打在目标对象上,如图所示。

打标签示例

标签由互联网领域逐步推广到其他领域,打标签的对象也由用户、产品等扩展到渠道、营销活动等。

  • 在互联网领域,标签有助于实现精准营销、定向推送、提升用户差异化体验等;
  • 在行业领域,标签更多助力于战略分级、智能搜索、优化运营、精准营销、优化服务、智慧经营等。

标签分为事实标签、规则标签和模型标签,如图所示。

三种类型的标签

  • 事实标签是描述实体的客观事实,关注实体的属性特征,如一个部件是采购件还是非采购件,一名员工是男性还是女性等,标签来源于实体的属性,是客观和静态的;
  • 规则标签是对数据加工处理后的标签,是属性与度量结合的统计结果,如货物是否是超重货物,产品是否是热销产品等,标签是通过属性结合一些判断规则生成的,是相对客观和静态的;
  • 模型标签则是洞察业务价值导向的不同特征,是对于实体的评估和预测,如消费者的换机消费潜力是旺盛、普通还是低等,标签是通过属性结合算法生成的,是主观和动态的。

标签管理分为标签体系建设打标签1、标签体系建设

  1. 选定目标对象,根据业务需求确定标签所打的业务对象,业务对象范围参考公司发布的信息架构中的业务对象。
  2. 根据标签的复杂程度进行标签层级设计。
  3. 进行详细的标签和标签值设计,包括标签定义、适用范围、标签的生成逻辑等:
  • 事实标签应与业务对象中的属性和属性值保持一致,不允许新增和修改;
  • 规则标签按照业务部门的规则进行相关设计;
  • 模型标签根据算法模型生成。

2、打标签

1. 打标签数据存储结构

打标签是建立标签值与实例数据的关系,可以对一个业务对象、一个逻辑数据实体、一个物理表或一条记录打标签。

为了方便从“用户”视角查找、关联、消费标签,可增加用户表,将标签归属到该“用户”下,这里的“用户”是泛指,可以是具体的人,也可以是一个组织、一个部门、一个项目等。

2. 打标签的实现方法

  • 事实标签:根据标签值和属性允许值的关系由系统自动打标签。
  • 规则标签:设计打标签逻辑由系统自动打标签。
  • 模型标签:设计打标签算法模型由系统自动打标签。

总结:

本文首先区分了标签和指标两个概念的一些异同;后面分别介绍了指标和标签体系的一些相概念,指标体系的梳理及应用价值等,标签要根据实际的应用场景出发,建立体系化的标签。

免责声明:本文素材和观点均基于当前可获得的资料和作者的个人理解进行撰写。本文章及其中所涉及的内容仅供读者参考和交流之用,并不构成任何专业建议、投资意见或法律指导,如文中有涉及您的著作权或所有权问题,请及时联系我们修改或下架文章,谢谢~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/477695.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Exploring Prompt Engineering: A Systematic Review with SWOT Analysis

文章目录 题目摘要简介方法论背景相关工作评估结论 题目 探索快速工程:基于 SWOT 分析的系统评价 论文地址: https://arxiv.org/abs/2410.12843 摘要 在本文中,我们对大型语言模型 (LLM) 领域的提示工程技术进行了全面的 SWOT 分析。我们强…

Android 常用命令和工具解析之内存相关

目录 1 基本概念 1.1 PSS & RSS & USS & VSS 1.1.1 PSS 1.1.2 RSS 1.2 Dirty & Clean & SwapPss 1.2.1 Private Dirty 1.2.2 Private Clean 1.2.3 SwapPss Dirty 1.3 Swap & buffers & cache 1.3.1 Swap 1.3.2 buffers 1.3.3 cache 2…

使用Go 语言连接并操作 MySQL 数据库

新建项目,我这里使用的vscode: 1.新建项目初始化: 手动创建工程文件夹go安装目录->src->projectName 在项目下创建 main.go文件: 在vscode中点击文件->打开文件夹,选择刚刚新建的文件夹。打开后&#xff0…

YOLOv11融合[NeurlS2022]递归门控卷积gnconv模块及相关改进思路

YOLOv11v10v8使用教程: YOLOv11入门到入土使用教程 YOLOv11改进汇总贴:YOLOv11及自研模型更新汇总 《HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions》 一、 模块介绍 论文链接:https://arxiv.org…

从零开始-VitePress 构建个人博客上传GitHub自动构建访问

从零开始-VitePress 构建个人博客上传GitHub自动构建访问 序言 VitePress 官网:VitePress 中文版 1. 什么是 VitePress VitePress 是一个静态站点生成器 (SSG),专为构建快速、以内容为中心的站点而设计。简而言之,VitePress 获取用 Markdown…

使用Notepad++工具去除重复行

使用Notepad工具去除重复行 参考链接:https://blog.csdn.net/londa/article/details/108981396 一 、使用正则表达式 1、对文本进行排序,让重复行排在一起 2、使用正则表达式替换(注意)^(.*?)$\s?^(?.*^\1$) 在替换时选择正…

RabbitMQ和RocketMQ相关面试题

RabbitMQ和RocketMQ面试题 RabbitMQ1.RabbitMQ各部分角色2.如何确保RabbitMQ消息的可靠性?3.什么样的消息会成为死信?4.死信交换机的使用场景是什么?5.TTL6.延迟队列7.消息堆积问题8.MQ集群 RocketMQ1.RocketMQ各部分角色2.RocketMQ如何保证高…

【机器学习chp5】线性回归

推荐文章1,三种角度详细分析了L1,L2正则化的本质。 【王木头 L1、L2正则化】三个角度理解L1、L2正则化的本质-CSDN博客 推荐文章2,其中有各种梯度下降的优化算法分析。 【王木头梯度下降法优化】随机梯度下降、牛顿法、动量法、Nesterov、…

【AI系统】GPU 架构回顾(从2018年-2024年)

Turing 架构 2018 年 Turing 图灵架构发布,采用 TSMC 12 nm 工艺,总共 18.6 亿个晶体管。在 PC 游戏、专业图形应用程序和深度学习推理方面,效率和性能都取得了重大进步。相比上一代 Volta 架构主要更新了 Tensor Core(专门为执行…

Windows11深度学习环境配置

CUDA、CUDNN 一、安装另一个版本的CUDA 下载.exe文件,网址打不开自己开热点就能解决:CUDA Toolkit 11.2 Downloads | NVIDIA Developer 若遇到“You already have a newer version of the NVIDIA Frameview SDK installed” 1.把电脑已经存在的FrameVi…

H.265流媒体播放器EasyPlayer.js H5流媒体播放器关于如何查看手机端的日志信息并保存下来

现今流媒体播放器的发展趋势将更加多元化和个性化。人工智能的应用将深入内容创作、用户体验优化等多个方面,带来前所未有的个性化体验。 EasyPlayer.js H.265流媒体播放器属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放&#…

力扣.5.最长回文子串力扣.14最长公共前缀力扣219.存在重复元素II力扣.67二进制求和

目录 力扣.5.最长回文子串 力扣.14最长公共前缀 力扣219.存在重复元素II 力扣.67二进制求和 力扣.5.最长回文子串 中心拓展算法,假设以i位置为中心两边可以扩展到多少,所以当对应一个中间位置的时候,可以定义两个指针,对应一个…

Vue.js 插槽 Slots 实际应用 最近重构项目的时候遇到的...

前端开发中 插槽 Slots 是一个重要的概念 我们可以查看一下vue.js的官方文档 https://cn.vuejs.org/guide/components/slots 类似于连接通道一样 可以把核心代码逻辑搬到另外的地方 做一个引用 而原先的地方可能并不能这样书写 对于这个概念我在vue的官方文档里面找到了…

快速识别模型:simple_ocr,部署教程

快速识别图片中的英文、标点符号、数学符号、Emoji, 模型会输出图片中文字行的坐标位置、最低得分、识别结果。当前服务用到的模型:检测模型、数字识别、英文符号识别。 一、部署流程 1.更新基础环境 apt update2.安装miniconda wget https://repo.anaconda.com/…

Android mk/bp构建工具介绍

零. 前言 由于Bluedroid的介绍文档有限,以及对Android的一些基本的知识需要了(Android 四大组件/AIDL/Framework/Binder机制/JNI/HIDL等),加上需要掌握的语言包括Java/C/C等,加上网络上其实没有一个完整的介绍Bluedroid系列的文档&#xff0…

docker安装使用Elasticsearch,解决启动后无法访问9200问题

1.docker安装、启动es docker pull elasticsearch:8.13.0docker images启动容器 docker run -d -p 9200:9200 -p 9300:9300 -e ES_JAVA_OPTS"-Xms256m -Xmx256m" --name es01 8ebd258614f1-d 后台运行-p 9200:9200 -p 9300:9300 开放与主机映射端口-e ES_JAVA_OPTS…

揭秘云计算 | 5、关于云计算效率的讨论

一、 公有云效率更高? 解:公有云具有更高的效率。首先我们需要知道效率到底指的是什么。这是个亟须澄清的概念。在这里效率是指云数据中心(我们将在后文中介绍其定义)中的IT设备资源利用率,其中最具有代表性的指标就是…

【终端美化】Ubuntu 下 Zsh 与 Oh-My-Zsh 美化与插件配置指南

目录 1. 检查是否已安装 zsh2. 安装 zsh3. 设置 zsh 为默认 Shell4. 安装 oh-my-zsh4.1 使用 curl 安装4.2 使用 wget 安装(如果 curl 不可用)4.3 迁移 Bash 自定义配置到 Zsh打开Files并显示隐藏文件复制需要的配置内容粘贴到 Zsh 配置文件保存并关闭文…

Spring Boot与MyBatis-Plus的高效集成

Spring Boot与MyBatis-Plus的高效集成 引言 在现代 Java 开发中,MyBatis-Plus 作为 MyBatis 的增强工具,以其简化 CRUD 操作和无需编写 XML 映射文件的特点,受到了开发者的青睐。本篇文章将带你一步步整合 Spring Boot 与 MyBatis-Plus&…

html+js实现图片的放大缩小等比缩放翻转,自动播放切换,顺逆时针旋转

效果图&#xff1a; <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>图片预览</title><sty…