数据仓库的实际应用示例-广告投放平台为例

数据仓库的数据分层通常包括以下几层:

  1. ODS层:存放原始数据,如日志数据和结构化数据。
  2. DWD层:进行数据清洗、脱敏、维度退化和格式转换。
  3. DWS层:用于宽表聚合值和主题加工。
  4. ADS层:面向业务定制的应用数据层。
  5. DIM层:一致性维度建模,包括低基数和高基数维度数据。

image.png

为了更好地理解数据仓库的各个方面,我们以一个广告投放平台为例,详细说明各个层级的数据处理和使用,并附带一些代码示例。

1. ODS层

ODS(Operational Data Store)层存放的是原始数据。比如,广告点击日志数据。

示例数据

{"log_id": "12345","user_id": "67890","ad_id": "54321","timestamp": "2023-06-21T12:00:00Z","action": "click","cost": 0.5
}
2. DWD层

DWD(Data Warehouse Detail)层进行数据清洗、脱敏、维度退化和格式转换。

数据清洗代码示例(使用PySpark):

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, from_unixtime# 创建SparkSession
spark = SparkSession.builder.appName("DWD Layer").getOrCreate()# 读取ODS层数据
ods_data = spark.read.json("hdfs://path/to/ods/data")# 数据清洗
dwd_data = ods_data.withColumn("timestamp", from_unixtime(col("timestamp")))# 写入DWD层
dwd_data.write.mode("overwrite").json("hdfs://path/to/dwd/data")
3. DWS层

DWS(Data Warehouse Service)层用于宽表聚合和主题加工。

宽表聚合代码示例

from pyspark.sql.functions import sum# 聚合用户点击行为数据
dws_data = dwd_data.groupBy("user_id").agg(sum("cost").alias("total_cost"))# 写入DWS层
dws_data.write.mode("overwrite").json("hdfs://path/to/dws/data")
4. ADS层

ADS(Application Data Store)层面向业务定制的应用数据层。比如,计算每个广告的总点击次数。

业务定制数据处理代码示例

from pyspark.sql.functions import count# 计算每个广告的总点击次数
ads_data = dwd_data.groupBy("ad_id").agg(count("action").alias("click_count"))# 写入ADS层
ads_data.write.mode("overwrite").json("hdfs://path/to/ads/data")
5. DIM层

DIM(Dimension)层用于一致性维度建模。

维度建模示例

# 读取广告信息维度数据
ad_info = spark.read.json("hdfs://path/to/dim/ad_info")# 读取ADS层数据
ads_data = spark.read.json("hdfs://path/to/ads/data")# 关联广告信息维度数据
final_data = ads_data.join(ad_info, "ad_id")# 写入最终数据
final_data.write.mode("overwrite").json("hdfs://path/to/final/data")

数据指标示例

数据指标分为原子指标、复合指标和派生指标。下面以广告点击数据为例说明各类指标的计算。

原子指标

# 原子指标:广告点击次数
ad_clicks = dwd_data.filter(col("action") == "click").count()
print(f"广告点击次数: {ad_clicks}")

复合指标

# 复合指标:点击率
total_impressions = dwd_data.filter(col("action") == "impression").count()
click_through_rate = ad_clicks / total_impressions
print(f"点击率: {click_through_rate}")

派生指标

# 派生指标:按天计算的点击次数
daily_clicks = dwd_data.filter(col("action") == "click").groupBy("date").count()
daily_clicks.show()

结论

通过以上示例代码,我们可以看到数据仓库各个层级的数据处理流程,以及如何定义和计算各种数据指标。这些规范和方法不仅帮助企业构建高效、可维护的数据仓库系统,还能为业务决策提供有力的数据支持。

希望这个简单的示例能够帮助读者更好地理解数据仓库的设计和应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/355974.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一个自定义流程的平台

脚本语言使用的是C#,当用户发布一个新的流程时,会把C#的脚本编译成dll,然后添加到微服务中,因为有了硬编译,所以执行速度是非常快的。逻辑脚本支持调试,可以断点和逐行调试。平台提供了调试工具&#xff0c…

DevEco鸿蒙开发请求网络交互设置

首先,在鸿蒙项目下config.json中找到module项,在里面填写"reqPermissions": [{"name": "ohos.permission.INTERNET"}] 在页面对应js文件内,填写import fetch from system.fetch;。 GET和POST区别 GET将表单数…

人工智能--搭建人工神经网络

欢迎来到 Papicatch的博客 文章目录 🍉引言 🍉神经元与感知器 🍈神经元(Neuron) 🍈感知器 🍉损失函数与梯度下降算法 🍈损失函数 🍈梯度下降算法 🍉…

如何解决跨境传输常见的安全及效率问题?

在当今全球化的商业版图中,企业为了拓展国际市场和增强竞争力,跨境传输数据已成为一项不可或缺的业务活动。合格的数据跨境传输方案,应考虑以下要素: 法律合规性:确保方案符合所有相关国家的数据保护法律和国际法规&am…

ffmpeg音视频开发从入门到精通——ffmpeg下载编译与安装

音视频领域学习ffmpeg的重要性 音视频领域中ffmpeg的广泛应用,包括直播、短视频、网络视频、实时互动和视频监控等领域。掌握FM和音视频技术可以获得更好的薪酬。 学习建议音视频学习建议与实战应用 音视频处理机制的学习,需要勤加练习,带…

永磁同步电机驱动死区补偿

1 死区效应及补偿 1. 1 死区效应 在本文的电机控制嵌入式系统中,逆变器为三 相电压型桥式逆变电路,如图 1 所示。 在理想状态 下,上桥臂和下桥臂的控制信号满足互补通断原则, 即上桥臂开通时,下桥臂关断,反之亦然。 而在实际 应用中,开关管的通断需要一定的开通时…

使用GPT/文心实现诗词作画

在教育领域中,古诗词一直是培养学生文化素养和审美能力的重要载体。选择合适的古诗词进行学习和欣赏,不仅能够增强他们的语言表达能力,还能促进他们对中国传统文化的理解和热爱。本文将结合AI技术,将古诗词转换为图画。 1、选择适…

板凳--------第60章 SOCKET:服务器设计

60.1 迭代型和并发型服务器 1016 1.迭代型: 服务器每次只处理一个客户端,只有当完全处理完一个客户端的请求后才会去处理下一个客户端。只适用于快速处理客户端请求的场景,因为每个客户端都必须等待,直到前面所有的客户端都处理完…

mongosh常用命令详解及如何开启MongoDB身份验证

目录 Mongosh常用命令介绍 连接到MongoDB实例 基本命令 查看当前数据库 切换数据库 查看所有数据库 查看当前数据库中的集合 CRUD操作 插入文档 查询文档 更新文档 删除文档 替换文档 索引操作 创建索引 查看索引 删除索引 聚合操作 数据库管理 创建用户 …

安卓Context上下文

目录 前言一、Context简介二、Application Context2.1 Application Context的创建过程2.2 Application Context的获取过程 三、Activity的Context创建过程四、Service的Context创建过程 前言 Context也就是上下文对象,是Android较为常用的类,但是对于Co…

网络虚拟化考题

vrrp讲过吗??? d 每一层都是什么设备啊 abcd 为啥流量不可控不可视 c是啥意思 讲过吗 abc aNET网络虚拟化是啥啊 为啥?? 啥是CDN?????

奔驰EQS SUV升级原厂主动式氛围灯效果展示

以下是一篇关于奔驰 EQs 升级原厂主动氛围灯案例的宣传文案: 在汽车科技不断演进的今天,我们自豪地为您呈现奔驰 EQs 升级原厂主动氛围灯的精彩案例。 奔驰 EQs,作为豪华电动汽车的典范,其卓越品质与高端性能有目共睹。而此次升…

充电学习—6、电量计FuelGauge

电量计功能: 检测电池 计量电量 电量计首要工作: 计算电池的剩余容量、充满时容量、电量百分比 电量百分比 剩余容量 / 充满时容量 * 100% SOC RM / FCC * 100% 典型的一个电池包框架: 包含电芯、电量计IC、保护IC、充放电MOSFET、保险丝…

TrueNAS系统在ARM平台上的移植

随着家庭及中小型企业对存储和共享需求的日益增长,高效、可靠的文件存储系统成为支撑各类应用的关键。 在众多存储系统中,TrueNAS以其卓越的数据完整性与可靠性、简洁高效的应用程序部署和管理、灵活的虚拟化应用添加能力,以及出色的可用性&a…

【SpringBoot】SpringBoot:打造现代化微服务架构

文章目录 引言微服务架构概述什么是微服务架构微服务的优势 使用SpringBoot构建微服务创建SpringBoot微服务项目示例:创建订单服务 配置数据库创建实体类和Repository创建服务层和控制器 微服务间通信使用RestTemplate进行同步通信示例:调用用户服务 使用…

【面试题】风险评估和应急响应的工作流程

风险评估和应急响应是网络安全管理中两个重要的环节。下面分别介绍它们的工作流程: 一、风险评估工作流程: 1.确定评估范围:明确需要评估的信息系统或资产的范围。 2.资产识别:识别并列出所有需要评估的资产,包括硬件…

约束求解器方案设计

1.约束求解介绍 给定一个几何对象(点、直线段、圆、圆弧、平面等)的集合G和一个关于集合G中几何对象之间约束(点的位置、直线段的长度、圆弧对应的圆心角角度、垂直、相切等) 的集合C,则在二元组(G,C)中根…

鸿蒙开发网络管理:【@ohos.request (上传下载)】

上传下载 说明: 本模块首批接口从API version 6开始支持。后续版本的新增接口,采用上角标单独标记接口的起始版本。 导入模块 import request from ohos.request;限制与约束 默认支持https,如果要支持http,需要在config.json里…

如何利用AI简历工具为实习简历加分?

时间匆匆,我们又迎来了毕业季。大学生活丰富多彩,学业同样重要。毕业答辩对于每位大学生来说都是一道重要的门槛。回想起那些为了答辩准备而熬夜、焦虑的日子,那份努力至今难忘。 虽然答辩的准备工作可能相当繁琐,但幸运的是&…

cd 命令特殊路径符 mkdir命令

cd 特殊路径符 cd . 表示当前目录,比如 cd ./Desktop表示切换到当前目录下的Desktop目录内,和 cd Desktop效果一致。cd … 表示上一级目录,比如 cd … 即可切换到上一级目录,cd…/…切换到上二级目录。cd ~ 表示 HOME 目录&#…