数据平台之数仓模型设计

文章目录

- 前言
- 一、维度建模基本概念
- - 1.1 事实表
  - 1.2 维度表
- 二、维度建模三种模式
- - 2.1 星型模型
  - 2.2 雪花模式
  - 2.3 星座模式
- 三、ChatGPT代替Sql Boy
- - 3.1 简单案例
  - 3.2 复杂案例
- 四、总结

前言

看到几篇不错的文章，自己总结合并了分享给小伙伴

金博尔和恩门共同开创的数仓建模的设计方法，这个方法对于后来基于数据湖的现代数据仓库的设计有重要的意义，所以你有必要了解：

恩门提出的建模方法自顶向下（这里的顶是指数据的来源，在传统数据仓库中，就是各个业务数据库），基于业务中各个实体以及实体之间的关系，构建数据仓库。比如，在一个最简单的买家购买商品的场景中，按照恩门建模的思维模式，首先你要理清这个业务过程中涉及哪些实体。买家、商品是一个实体，买家购买商品是一个关系。所以，模型设计应该有买家表，商品表，和买家商品交易表三个模型。

金博尔建模与恩门正好相反，是一种自底向上的模型设计方法，从数据分析的需求出发，拆分维度和事实。那么用户、商品就是维度，库存、用户账户余额是事实。

这两种方法各有优劣，恩门建模因为是从数据源开始构建，构建成本比较高，适用于应用场景比较固定的业务，比如金融领域，冗余数据少是它的优势。金博尔建模由于是从分析场景出发，适用于变化速度比较快的业务，比如互联网业务。由于现在的业务变化都比较快，所以我更推荐金博尔的建模设计方法。

一、维度建模基本概念

维度模型是数据仓库工程领域最流行的数仓建模经典。维度建模以分析决策的需求出发构建模型，构建的数据模型为分析需求服务，因此它重点解决用户如何更快速完成分析需求，同时还有较好的大规模复杂查询的响应性能。

维度建模是专门应用于分析型数据库、数据仓库、数据集市建模的方法。数据集市可以理解为是一种小型数据仓库。

1.1 事实表

发生在现实世界中的操作型事件，其所产生的可度量数值，存储在事实表中。从最低的粒度级别来看，事实表行对应一个度量事件，反之亦然。事实表表示对分析主题的度量。比如一次购买行为我们就可以理解为是一个事实。

图中的订单表就是一个事实表，可以理解他就是在现实中发生的一次操作型事件，每完成一个订单，就会在订单中增加一条记录。

事实表的特征：表里没有存放实际的内容，他是一堆主键的集合，这些ID分别能对应到维度表中的一条记录。事实表包含了与各维度表相关联的外键，可与维度表关联。事实表的度量通常是数值类型（条/个/次），且记录数会不断增加，表数据规模迅速增长。

1.2 维度表

维度表示要对数据进行分析时所用的一个量,比如你要分析产品销售情况, 你可以选择按类别进行分析,或按区域分析。这样的按…分析就构成一个维度。

上图中的用户表、商家表、时间表这些都属于维度表。这些表都有一个唯一的主键，然后在表中存放了详细的数据信息。

例如：交易金额分析分析

男性用户的订单金额、联想商品的订单金额、第一季度的订单金额、手机的订单金额、家里下单的订单金额

例如：学生分析

姓张的同学有多少、男性的同学有多少、江苏的同学有多少、身高小于170cm的同学有多少、年龄小于23岁的同学有多少。

每个维度表都包含单一的主键列。维度表的主键可以作为与之关联的任何事实表的外键，当然，维度表行的描述环境应与事实表行完全对应。维度表通常比较宽，是扁平型非规范表，包含大量的低粒度的文本属性。

总的说来，在数据仓库中不需要严格遵守规范化设计原则。因为数据仓库的主导功能就是面向分析，以查询为主，不涉及数据更新操作。

事实表的设计是以能够正确记录历史信息为准则。

维度表的设计是以能够以合适的角度来聚合主题内容为准则。

二、维度建模三种模式

2.1 星型模型

星形模式(Star Schema)是最常用的维度建模方式。星型模式是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星形模式的维度建模由一个事实表和一组维表成，且具有以下特点：

维表只和事实表关联，维表之间没有关联；
每个维表主键为单列，且该主键放置在事实表中，作为两边连接的外键；
以事实表为核心，维表围绕核心呈星形分布；

2.2 雪花模式

雪花模式(Snowflake Schema)是对星形模式的扩展。雪花模式的维度表可以拥有其他维度表的，虽然这种模型相比星型更规范一些，但是由于这种模型不太容易理解，维护成本比较高，而且性能方面需要关联多层维表，性能也比星型模型要低。所以一般不是很常用。

2.3 星座模式

星座模式是星型模式延伸而来，星型模式是基于一张事实表的，而星座模式是基于多张事实表的，而且共享维度信息。
前面介绍的两种维度建模方法都是多维表对应单事实表，但在很多时候维度空间内的事实表不止一个，而一个维表也可能被多个事实表用到。在业务发展后期，绝大部分维度建模都采用的是星座模型

三、ChatGPT代替Sql Boy

ChatGPT是一个基于自然语言处理和机器学习技术的人工智能模型，可以用于生成文本、回答问题、翻译等任务。在数据库管理和数据分析领域中，SQL是一种常用的查询语言，用于从关系型数据库中检索和操作数据。生成SQL语句可以帮助用户快速有效地提取数据，提高工作效率。

利用ChatGPT生成SQL的背景是基于自然语言查询数据库的需求。对于那些不熟悉SQL的人来说，学习SQL的成本比较高，而且SQL语法繁琐，容易出错。ChatGPT可以为用户提供一种更为自然的交互方式，让用户可以使用日常语言进行查询，将查询需求转化为SQL语句，并执行查询操作。这种方式更加方便，也可以帮助用户提高查询效率和准确性。因此，利用ChatGPT生成SQL可以帮助用户快速实现数据库查询和数据分析的需求，提高工作效率和准确性。

3.1 简单案例

假设有一家销售公司，需要查询销售额最高的产品和对应的销售额。公司的数据库中有两个表：产品表（Product）和订单表（Orders），它们之间通过产品编号（ProductId）建立了一对多的关系。现在，公司的销售经理想要查询销售额最高的前5个产品及其对应的销售额。为了实现这个查询，可以使用ChatGPT生成SQL语句。
首先，销售经理可以向ChatGPT提供以下自然语言查询：

“查询销售额最高的前5个产品及其对应的销售额”

ChatGPT可以将这个查询转化为以下SQL语句：

SELECT p.ProductName, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

3.2 复杂案例

例如，假设销售经理需要查询在2021年第一季度（1月1日至3月31日）中，销售额最高的5个产品及其对应的销售额和销售数量。为了实现这个查询，需要向ChatGPT提供更为详细和精准的自然语言描述：

“查询2021年第一季度（1月1日至3月31日）中，销售额最高的5个产品及其对应的销售额和销售数量。订单表（Orders）中包含订单创建日期（OrderDate）字段，订单状态（Status）字段，产品表（Product）中包含产品名称（ProductName）字段，产品单价（UnitPrice）字段和产品数量（Quantity）字段。”

ChatGPT可以将这个查询转化为以下SQL语句：

SELECT p.ProductName, SUM(o.Quantity) AS SalesQuantity, SUM(o.Quantity * o.UnitPrice) AS SalesAmount
FROM Product p
INNER JOIN Orders o ON p.ProductId = o.ProductId
WHERE o.OrderDate BETWEEN '2021-01-01' AND '2021-03-31' AND o.Status = 'Completed'
GROUP BY p.ProductName
ORDER BY SalesAmount DESC
LIMIT 5;

四、总结

数仓的建模理论是非常有必要掌握的。

每一个指标的计算，往往都是通过指标的审核->模型的建立->指标的开发。

以流程的方式进行数仓开发。

接着就是sql的编写，不管是简单的SQL或者复杂的SQL，我们都可以借助GPT进行编写

即使不是很完善，但是在我们修改提示词之后，我相信也能够给我们一个基础的SQL代码框架。

ChatGPT可以根据用户提供的自然语言查询，自动生成相应的SQL语句，从而简化数据查询和分析的过程。

但是我们需要注意以下：

1.为了确保生成的SQL语句的准确性和可靠性，用户需要提供清晰、简洁和准确的自然语言描述，以及数据表结构和相关字段信息。
2.ChatGPT生成的SQL语句的精度和准确性受到模型的训练数据和算法的影响。因此，在使用ChatGPT生成SQL语句时，需要进行必要的检查和验证，以确保结果的准确性和可靠性。
3.ChatGPT可以帮助用户快速生成简单的SQL语句，但在处理复杂的查询需求时，可能需要用户的参与和进一步的修改优化。
4.ChatGPT的出现使得数据查询和分析工作更加便捷和自动化，但并不代表人工智能技术可以完全替代人类的工作。在实际工作中，程序员仍然需要掌握SQL语法和数据库管理技能，以确保数据分析和查询的准确性和可靠性。

总之，ChatGPT可以帮助我们快速生成SQL语句，从而简化数据查询和分析的过程。但是，在使用ChatGPT生成SQL语句时，需要注意保证自然语言描述的准确性和数据表结构的清晰性，以确保结果的准确性和可靠性。

同时，我们也需要持续学习和提高自己的SQL语法和数据库管理技能，以适应变化的市场需求