【干货】公司年终业绩分析报告,你的数据统计对么?

每年年终或新年伊始,公司管理层都要从各个角度比如部门、产品线等考察公司过去一年的业绩,作为数据分析团队,你需要向管理层准备这样的数据分析报告,而在此过程中,你可能会面临着这样的问题:

* 公司的组织架构在过去的一年中发生了调整,部分人员的所属部门也因此发生了变动,那各部门的业绩如何统计?
* 由于业务优化,公司一些产品的分类发生了变更,那全年各产品分类的销售数字如何统计?

 

为了生成上述业绩报告,多维数据分析是最常用与高效的技术手段。通过多维建模,将员工业绩、产品销售定义为事实表,把员工、产品、日期等定义为维度表,从而方便高效的从各个维度对公司核心 KPI 进行汇总统计和对比分析,以下便是基于销售数据的一个简单多维分析模型示例。

 

图表1:一个简单的多维模型示例标题

 

事实表一般会每天更新,而维度表尽管基本稳定,但也会随着时间发生变化,比如产品的分类、客户的国家、员工的部门等,这就是多维数据分析中的缓慢变化维概念(Slowly Changing Dimension, SCD)。如何处理这个变化,回答本文开始的问题,需要根据查询分析的特定需求分别处理,业界称之为缓慢变化维度的处理

 

缓慢变化维度的常见处理方法

 

一般来说,最为常见的缓慢变化维度的处理方法有类别 1 (Type 1) 和类别 2 (Type 2),其具体处理方法和查询举例如下:

* 类别 1:维度表中直接覆盖原值,查询时只能使用最新的维度属性,反应维度最新状态(latest status);
* 类别 2:维度表中添加新的记录,通常增加有效期字段来区分,记录维度表所有历史变化,从而使得历史可追溯。在查询时一般使用当时的维度属性,反应历史事实(historical truth)。

 

以图表1的多维模型为例,假设产品 iPhoneX 在 2018 年双 11 后,分类从 3C 调整为了 Mobile,以下分别是类别 1 和类别 2 对产品维度表的处理方法,以及在查询 2018 年各产品分类的销售数字时的结果:

 

图表2: 缓慢变化维类别 1 和类别 2 的处理方法与查询结果示例标题

 

注:类别 2 的处理方法有各种具体实现方法,比如常见的拉链表,但基本原理一致。

 

讲到这里,相信各位已经对文章开头的问题已经有答案了,现在需要做的就是和业务方沟通,统一数据统计口径,然后在 ETL 或者数据仓库中具体实现。在一些复杂的场景中,还会使用到类别 3 和类别 4,甚至是混合的处理方法,本文不在此进行深入讨论,具体内容各位可以参考相关文档。

 

Kyligence的缓慢变化维处理实践

 

在大数据场景下,为了加速数据分析的性能与并发,基于多维模型(Cube)进行预计算是最为行之有效的方法之一。开源顶级项目 Apache Kylin 便是其中代表,而基于它为核心的企业级大数据分析平台 Kyligence Enterprise,更是实现了 PB 级数据的亚秒级查询响应和数以千计的高并发访问。

 

默认情形下 Apache Kylin 与 Kyligence Enterprise 对所有维度表均做类别 2 处理,每次 Cube 刷新时记录当时的维度表数据,以便在查询时使用并反应当时的历史事实。

 

启用缓慢变化维类别 1

 

在默认情形下,当用户需要使用最新维度表信息统计结果时,即需要类别 1 处理方法时,就需要刷新所有 Cube 历史数据,这带来了大量额外的计算开销,在海量数据场景下无法接受。因此,Kyligence Enterprise 从 v3.2.2 版本之后,内生支持缓慢变化维类别 1,用户可以在定义模型时,通过简单的设置,即可对维度表启用缓慢变化维类别1处理,如下图:

 

标题图表3 Kyligence 支持缓慢变化维类别1处理

 

对于启用了缓慢变化维 Type 1 的维度表,Kyligence Enterprise 将仅保留一个最新版本,并在每次 Cube 数据刷新时更新该维度表,而在查询时,所有 Cube 历史数据(Segments)将与该最新的维度表联接并反馈查询结果,其原理如下图所示:

标题图表4 Kyligence 支持缓慢变化维类别1处理原理

 

总结

 

以上便是多维分析中缓慢变化维与常见处理方法的简单介绍,以及 Kyligence 与 Apache Kylin 在大数据场景下的实践。

 

在海量数据多维分析场景下,Kyligence Enterprise 实现了灵活的缓慢变化维类别 1 和类别 2 的处理,既保障了查询性能,又避免了不必要的 Cube 数据刷新的开销,从而满足不同的数据分析需求,大幅提升大数据分析的效率。

 

未来 Kyligence 还会做更多探索与改进,比如类别 1 和类别 2 的灵活切换,支持更多缓慢变化维处理类型等,敬请期待。

 

更多详情,请参考 Kyligence 官方网站:

Kyligence - Enterprise OLAP for Big Data​www.kyligence.io

 

或 Kyligence Enterprise 用户手册:

https://docs.kyligence.io​docs.kyligence.io

 

关于Kyligence

Kyligence 由首个来自中国的 Apache 软件基金会顶级开源项目 Apache Kylin 核心团队组建,是专注于大数据分析领域创新的数据科技公司。Kyligence 提供基于 Apache Kylin 的企业级大数据智能分析产品 Kyligence Enterprise,以及基于公有云的托管式 Kylin 在线服务 Kyligence Cloud。目前,Kyligence 已赢得了海内外多家金融、保险、证券、电信、制造、零售、广告等企业级客户。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/27464.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

销售业绩-各区负责人大盘情况PPT汇报

文中业绩数据和人物-纯属虚构,仅供学习参考,不代表任何实际意义。 ----数据来源网上公开脱敏数据集 文章目录 广州各区负责人-销售业绩BI大盘情况一、PPT汇报1.广州-华南大区整体情况 总结 广州各区负责人-销售业绩BI大盘情况 一、PPT汇报 1.广州-华南…

AIGC浪潮来袭,奇点云“数智科技大会”洞见AI加速的数智未来

“进化,发生在每一个数字化场景。” 5月25日,以“数据进化论”为主题,由StartDT(奇点云、GrowingIO)主办的2023 StartDT Day数智科技大会在杭召开。企业客户、行业专家、技术专家与数万位参会伙伴相聚云上,…

大模型引爆算力缺口,智算中心是正“途”

中共中央、国务院印发的《数字中国建设整体布局规划》指出,要夯实数字中国建设基础,其中重要的一方面,就是系统优化算力基础设施布局,引导通用数据中心、超算中心、智能计算中心、边缘数据中心等合理梯次布局,加强传统…

关于大模型对未来影响的一点看法

人们总是高估了未来一到两年的变化,低估了未来十年的变革。 ---比尔盖茨 近来OpenAI的GPT技术可以说在全球都带来了巨大的影响,也让大家看到了什么叫大力出奇迹。chatGPT和GPT4的能力给了大家很大的震撼,其流畅自如、逻辑清晰、出众的能力&am…

从函数空间的角度重新理解傅里叶变换

文章目录 函数空间向量空间投影指数形式的傅里叶级数其他形式的投影傅里叶变换短时傅里叶变换(STFT)、Gabor变换与小波变换短时傅里叶变换Gabor变换小波变换不确定性原理 Paley-Wiener理论Paley-Wiener Condition 或者 Paley-Wiener CriterionPaley-Wiener Theorem陶哲轩(Terre…

小雨的三周年创作纪念日 —— # 大型立flag现场

写在最前面 听说写《我的创作纪念日》会有红包掉落!让我来试试~ ლ(ڡლ) Tips 您发布的文章将会展示至 里程碑专区 ,您也可以在 专区 内查看其他创作者的纪念日文章优质的纪念文章将会获得神秘打赏哦 机缘 最初成为创作者的初心,是大一时…

人工智能前沿——2022年最流行的十大AI技术

深度学习Tricks,第一时间送达 目录 1、语言识别 2、自然语言生成 3、机器学习平台 4、深度学习平台 5、决策管理 6、虚拟代理 7、AI优化硬件 8、机器人处理自动化 9、生物计量学 10、网络防御 >>>一起交流!互相学习!共同进…

机器学习与微分方程的浅析

大家都已经使用机器学习了,尤其是基于神经网络的深度学习,chatGPT甚嚣尘上,还需要深入理解微分方程么?不论答案是啥,都会涉及到二者的对比,那么,机器学习与微分方程的区别又是什么呢&#xff1f…

从“数据”与“信息”的概念之差看 AIGC 工具衍生数据对人类社会的影响

今天看到“腾讯科技”昨晚发表的“陆奇最新演讲实录:我的大模型世界观”,其中对“信息”及“信息搬运”的说法促使笔者撰写本文。 陆奇先生在展示“三位一体结构演化模式”时说明,“任何复杂体系,包括一个人、一家公司、一个社会&…

GPT / GPT-2 / GPT-3 / InstructGPT 进化之路

原文: 目录 引言 近期,ChatGPT 火遍圈内外,连微博热搜都出现了它的身影。突然之间,好多许久未联系的各行各业的同学好友都发来“问候”:ChatGPT 是什么? 其实,ChatGPT 的成功并非一朝一夕&…

Paperreading:ChatGPT is not all you need. A State of the Art Review of large Generative AI models

ChatGPT is not all you need. A State of the Art Review of large Generative AI models 最先进的大型AI生成模型综述 原文链接 Abstract 在过去两年中,已经发布了大量大型生成模型,例如 ChatGPT 或 Stable Diffusion。具体而言,这些模型…

Power BI调用飞书API,抓取多维表格中的数据

第一步:收集相关参数 首先,我们打开飞书开放平台的开发文档,链接地址是 https://open.feishu.cn/document/server-docs/docs/bitable-v1/notification 我们清楚我们的目的是读取数据而已,所以我们直奔主题。 获得API的链接及另…

ChatGPT万物皆可接,你体会到了么?

引言: 当前AI技术的快速发展,已经在许多领域中得到了广泛的应用。如果你还没有玩过或者动手玩过的,我建议你还是自己搞一搞比较好,腾讯云的服务器也不贵,每月几十块钱,如果没有技术能力,或者对…

程序员的悲哀是什么?

推荐阅读:阿里领导猝死,留下孤儿寡母 知乎上有个热门讨论帖:程序员的悲哀是什么? 本文整理了一些网友回答。 网友:zhang文1 996嫌累,摸鱼觉得没意思,使用开源库觉得没技术含量,自己造…

VM虚拟机中如何设置ip地址

当我们在windows环境下,在cmd命令行中输入ipconfig可以看到我们的主机ip地址,但是我们创建了一台虚拟机,并且装好系统时,输入ifconfig(这里和windows下命令不一样,不要搞混了)时,会发现得不到ip地址&#x…

在centos虚拟机中修改IP地址

文章目录 修改centos虚拟机IP地址1.确定静态IP地址2.修改网卡配置3.重启网络服务4.重启虚拟机5.查看修改后的IP 修改centos虚拟机IP地址 1.确定静态IP地址 2.修改网卡配置 输入命令:vi /etc/sysconfig/network-scripts/ifcfg-ens33 TYPEEthernet PROXY_METHODnon…

修改虚拟机的IP地址(一看就懂)

修改虚拟机IP地址 修改文件内容查询查询网关和子网掩码DNSMAC地址 修改文件内容 相信用过VM克隆虚拟机的小伙伴们都知道,克隆虚拟机是会把IP地址等都会直接复制过来。 如果先打开克隆的虚拟机,就会把原来虚拟机的IP地址给“抢”过来,那么原来…

VirtualBox 中给虚拟机设置IP

在虚拟机关闭的状态下,在 VirtualBox 中选择 主机->设置->网络->网卡2,勾选 启用网络连接,选择 仅主机(host-only)网络。 启动虚拟机,在虚拟机中打开terminal(快捷键CtrlT)…

【使用心得】ChatGPT变成我的私人厨师

使用ChatGPT之后,我的生活变得更加丰富了。它以一个私人厨师的身份,为我提供各种健康美味的菜谱,以及干货知识、烹饪技巧等等,让我能够轻松地做出口感和营养都兼备的佳肴。 与此同时,Chat GPT也会根据我的口味喜好、食…

王慧文的光年之外离OpenAI还有多远?

‍数据智能产业创新服务媒体 ——聚焦数智 改变商业 ChatGPT的火爆让AIGC站上了风口,行业迎来重大变局。 AIGC热潮席卷之下,大厂人纷纷投身AI大模型创业大军,大模型创业“百团大战”已打响。前有美团联合创始人王慧文官宣创业—— “光年之外…