第十一章 数据仓库和商务智能 10分

11.1.0语境关系图

在这里插入图片描述

11.1 Q 建立数据仓库,有哪些步骤?如何建设?【6 个步骤非常重要!必须知道】

1. 理解需求(P)(目的明确,ETL)

(1) 考虑业务目标和业务战略。
(2) 确定业务领域并框定范围。
(3) 访谈,了解业务人员需求,问题及访问的数据。
(4) 掌握关键指标和计算口径。

2. 定义和维护 DW 和 BI 架构(P)

(1) 确定数据仓库/商务智能技术架构。
(2) 确定数据仓库/商务智能管理流程。

3. 开发数据仓库和数据集市(D)【建立表】

(1) 建立源到目标的映射关系。
(2) 修正和转换数据。

4. 加载数据仓库(D)

== (1) 工作量最大的部分。
(2) 延迟要求【时延决定了数据加载方法,实时加载/CDC/流数据加载】、源可用性、批处理时间窗口。
(3) 数据质量问题。==

5. 实施 BI 产品组合(D)【多给几个产品,自己编程、PowerBI、Rapidminer等】

== (1) 根据需要对用户进行分组。
(2) 将工具与用户要求匹配。==

6. 维护数据产品(O)

(1) 发布管理。
(2) 管理数据产品开发生命周期。
(3) 监控和调优加载过程。
(4) 监控和调优商务智能活动和性能。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

11.2 OLAP&OLTP 差别【可能会考】

在这里插入图片描述
Q1:OLAP 和 OLTP 差别有哪些?【多选题】
A1:OLTP 用于日常交易处理,OLAP 用于查询、分析、决策;
OLTP 用于简单小事务,操作少量数据,OLAP 用于复杂查询、大量数据;
OLTP 数据一般为当前最新数据(实时),数据规模 GB,OLAP 一般为历史数据(批量),数据规模 TB-PB;
OLTP 一般满足三范式,OLAP 一般逆规范化,反范式,星型模型;
OLTP 用户一般为操作人员、低层管理人员,OLAP 一般为决策人员,高级管理人员;
OLTP 的 DB 设计为面向应用,OLAP 设计为面向主题;OLTP 软件技术为数据库,OLAP 软件技术为数据仓库。

Q2:index 索引(快速搜索)用在 OLAP 还是 OLTP?
A2:OLAP。

Q3:逆规范化,用在 OLAP 还是 OLTP?
A3:OLAP,OLTP 应满足 3NF。

用作 OLAP 的软件:Netezza,Hadoop,Hiva(开源,不建议用,性能很慢)。

三种经典的 OLAP 实现方法
1)关系型联机分析处理(ROLAP)。
ROLAP 通过在在关系数据库(RDBMS)的二维表中使用多维技术来支持 OLAP。星型架构是 ROLAP 环境中常用的数据库设计技术。
2)多维矩阵型联机分析处理(MOLAP)。
MOLAP 通过使用专门的多维数据库技术支持 OLAP。【数据量有限制,现在用的不多】。
3)混合型联机分析处理(HOLAP)。
ROLAP 和 MOLAP 的结合。HOLAP实现允许部分数据以 MOLAP 形式存储,而另一部分数据存储在ROLAP中。控件的实现方式各不相同,设计师对分区的组合也各有不同。

11.3 F2 数仓的主要组件有哪些?【主要 3 个】’

数据仓库:是一个由 源系统、数据集成 ETL 加载、数据存储区域 (必须:中央数据仓库,可选:ODS、立方体、数据集市、主数据、暂存区)等众多组件组成的数据管理系统。
在这里插入图片描述

11.4 商务智能

商务智能是一套完整的数据解决方案,旨在用来将企业中现有的数据进行有效的整合,快速提供的提供报表并提出决策依据,帮助企业做出明智的业务经营决策的一系列分析活动和技术应用,常见的应用包括统计分析、仪表盘、数据大屏等
(以业务人员用数需求为中心:固定报表、指标多维查询分析、明细数据、管理层决策仪表盘、移动端可视化应用、数据挖掘模型应用、数据模板)。
Q:商务智能与数仓、大数据区别?
A:商务智能 BI 主要用作前端分析展现(统计分析、仪表盘、数据大屏)(powerBI)。
数仓是后台,主要用于管理后端数据(hive),数据仓库与商务智能不一样,数据仓库强调 BI。
大数据强调 AI。

涉及银行金融机构:客户领域、风控领域、运营领域。
新客户获取模型、客户交叉营销模型、客户细分明细模型、客户激活模型、客户价值提升模型、客户维挽模型、支付路径优化模型、客户经营能力分析模型、内部审计模型、客户信用风险预警模型、贷款控制点分析、盈利能力预测模型、网点选址模型。

11.5 F1Inmon 和 Kimball 关于数仓的差别有哪些?

Inmon(数据仓库之父)关系型,Kimball 多维性。
企业信息工厂(Bill Inmon):企业信息工厂是两种主要的数据仓库建设模式之一,是面向主题的、整合的、随时间变化的、包含汇总和明细的、稳定的历史数据集合。
多维数据仓库(Ralph Kimball):多维数据仓库是数据仓库开发的另一个主要模式,仓库数据存储在多维数据模型中,以维度和事实定义。
常见模型包括星型和雪花型等。
Q1:张三,2021 年,上海,卖出多少车,维度和指标?(多维模型)
A1:4 个维度(员工张三,时间 2021 年,地点上海,产品汽车),1 个指标(多少辆)。
在这里插入图片描述
在这里插入图片描述
Kimball 图更清晰(组件及组件之间的关系,需要了解血缘关系)。注意 kimball 图中,右侧数据访问工具至数据展示区的访问箭头,数据访问工具中区分 BI 和 AI,
BI:即席查询、报表撰写、分析型应用;
AI:模型预测、打分、数据挖掘。
考试暂时不用管上面 2 个图。

11.6 F4&Q 数仓、数据湖、数据中台的相同点和不同点有哪些?【重要】

数仓: 结构化数据进入数仓、ETL、业务场景是明确的,交付物对已经发生的事情的总结或展现,侧重 BI;(但也可以做 AI)国内企业100%。
数据湖: 结构化数据+非结构化数据进入数据湖,ELT,业务场景是不一定明确的,交付物对未知的预测或挖掘,侧重 AI;(也可以做BI)国内企业40%。
数据中台: 建设在数仓、数据湖之上,更多的是打标签、归类等工作,平台层数据在数仓、数据湖中,在此基础上,建设数据中台【阿里巴巴图是关键】)国内企业 20%。

关系:数据仓库构建了企业级的数据模型,大数据平台在此基础上进行拓展,解决了海量、实时数据的计算和存储问题,而数据中台则是将数据服务化后提供给业务系统,目标是将数据能力渗透到各个业务环节。
在这里插入图片描述
上图为阿里巴巴示范图,从下往上(国外示范图习惯从左往右)。
数据源→采集与转化→平台层→数据中台。

Q1:采集与转化中,由哪几部分构成?
A1:一般由 4 部分构成,
1)结构化数据采集 ETL+ESB;
2)非结构化数据采集File3)实时数据采集 Kafka+ws;
4)流数据(无法进入数仓,需要在数据湖中处理)。Q2:阿里巴巴认为的平台层有哪些?
A2:3+1 数据仓库、大数据平台(所谓的数据湖)、实时数据处理、数据实验室(不上生产系统,做 POC)。

平台层之上为数据中台(阿里巴巴创造名称,上图中绿色部分):主要为指标、标签等工作,如精准营销、业务分析、智能客服、客户洞察、产品洞察、行业洞察、智能运营、风险监控、财务分析、大数据运维、数据可视化、数据共享、标签库、离线分析、在线分析、海量检索、机器学习、NLP 自然语言处理、计算机视觉、知识图谱/关系图谱。
在这里插入图片描述
在这里插入图片描述

11.7 F5 数仓和数据湖的架构图【最有可能画设计图,数仓、数据湖、数据中台,非常重要!】

在这里插入图片描述
数据通过源运营系统进入集结区域,可直接到 ODS,也可以进入中心仓库。注意 ODS 双向箭头中心仓库,ODS 不是进入数仓的必备环节,而是与数仓平级(阿里巴巴图是不正确的,ODS 不是贴源层)。最下方 DW 也可以进数据湖。
右侧上方影响报告为 BI,下方比较、评估、预测、学习为 AI。
目前 BI 软件不能用作 AI 分析,但 AI 软件(Rapidminer)部分可用作BI。
阿里巴巴图:
在这里插入图片描述
Iso:组件、组件之间的关系、设计原则。

Q2:已经有数仓的情况下,为什么还要建设数据湖?
A2:判断业务场景,客服中心接电话,由经理监听电话判断是否认真工作,现在有音频要求,但目前数仓无法处理音频,所以需要建设数据湖,如果有大量非结构化数据需要处理,建立数据湖。

11.8 ETL 和 ELT 区别【面试会问】

在这里插入图片描述
ETL:目标数据仓库。
ELT:目标数据湖。

11.9 F3 数据分析的自助服务是什么?(PPTP85)

Dataselfservice 低代码软件(无需编程):PowerBI 出BI 报告,Rapidminer(人工智能)做预测及挖掘。
根据用户权限提供各种功能。
按照标准计划推送给用户。
提供自助服务。通过门户执行报表取数。
以业务为中心构建仪表板。

11.10 F6 数仓的一些疑难问题,比如 SCD、星型和雪花模型的融合等?

Q1:SCD 如何解决?【参考第 5 章】
A1:渐变类维度 slow changing dimensions
1.覆盖 Overwrite,新值覆盖旧值。
2.新行 New Row,新值写在新行中,旧行被标记为非当前值。
3.新列 New Column,一个值的多个实例列在同一行的不同列中,而一个新值意味着将系列中的值向下一点写入,以便在前面为新值流出空间。最后一个值被丢弃。

Q2:星型和雪花模型
A2:星型没有层级(日期维度),雪花模型有层级关系(如日期→月→季→年)。
Q3:CDC change Data capture 增量抽取方法【可能会考选择题】
A3:4 种 CDC 方法(时间戳增量加载、日志表增量加载、数据库交易日志、消息增量),数据量最大的 CDC 是全量加载。

在这里插入图片描述

11.11 F7 指标体系

数据自助服务有赖于 2 部分建设:元数据管理(首要工作),指标体系建设。
建立企业级指标体系的意义:纵向、横向比较。指标口径清晰,统一规范;
支持用户的自助灵活用数;有效控制报表开发成本。
Q:针对银行业金融机构有哪些指标?
A:核心价值指标(盈利性指标、业务运营指标、资源和局限性指标、宏观经济指标等)。
关键指标(对银行的业务经营和管理决策具有重要意义,作为核心价值指标的补充(通过指标重要性评分得出),形成上百个关键指标提供用户使用)。
常用指标(绩效考核、风险管理、财务报告、监管统计)。
基础指标库(客户经理指标、产品经理指标、信贷评审员指标)。数据来源系统(涵盖外部监管,如(银监会、人民银行)统计要求、银行高管统计需求(如行长报告)、各业务条线统计需求(如支付结算、信用卡、产品管理、投资理财、渠道管理、客户资产管理、投资银行、信贷、贸易融资等)、机构和员工绩效考核需求、以及同业领先实践补充)。

建立指标和维度的主题应用场景和多维模型(不再是传统意义上的多维模型,而是 ROLAP,基于关系型数据库,对接多维方法的多维模型)。

Q:保障指标落地难点有哪些?
A:1)调整组织架构;
2)主数据定了标准,可能无法贯标;
3)指标体系。

相关软件:
PowerBI 创建报表。
Kettle 做 ETL(美国用 talend 较多)。
Mahout 做推荐引擎。
CIA、美国军方使用组合:数据仓库数据库 Netezza,数据集成ETL Obention,前端 palantir(找到本拉登的,《指环王》剧中能穿越时空、看到一切的水晶球)。
在数仓中规划落实元数据
在这里插入图片描述
案例:上海一家银行指标体系(3k 多指标)。
参考书《阿里巴巴零售模型白皮书》。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/393118.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

FFMPEG 序列帧图片合成视频

需求: 将多张.png图片合成为视频 注意: 1需要Windows电脑 2将图片重命名 下载EXE 官网 https://ffmpeg.org/download.html#build-windows 解压后长这样 将图片和exe放在同一目录下 文件中找个空白地,Shift右键 进入PowerShell 输入命令: ./ffm…

Python 画 等高线图

Python 画 等高线图 flyfish 通过三维图形与投影等高线相结合的方式,能够直观地看到三维函数的形状以及在平面上等值线的分布。 等高线是一种用来表示三维表面在二维平面上的方法。它们是通过在固定高度(或深度)处切割三维表面来创建的平面…

Java零基础之多线程篇:不得不学的并发工具类!

哈喽,各位小伙伴们,你们好呀,我是喵手。运营社区:C站/掘金/腾讯云;欢迎大家常来逛逛 今天我要给大家分享一些自己日常学习到的一些知识点,并以文字的形式跟大家一起交流,互相学习,一…

数学建模--智能算法之鱼群算法

目录 核心原理 应用与实现 实现步骤 性能分析与改进 鱼群算法在解决哪些具体优化问题方面表现最佳? 如何根据不同的应用场景调整鱼群算法的参数设置以提高其性能? 鱼群算法与其他群体智能优化算法(如遗传算法、粒子群优化)…

C++ | Leetcode C++题解之第316题去除重复字母

题目&#xff1a; 题解&#xff1a; class Solution { public:string removeDuplicateLetters(string s) {vector<int> vis(26), num(26);for (char ch : s) {num[ch - a];}string stk;for (char ch : s) {if (!vis[ch - a]) {while (!stk.empty() && stk.back(…

html+css前端作业和平精英2个页面(无js)

htmlcss前端作业和平精英2个页面&#xff08;无js&#xff09;有视频播放器等功能效果 网页作品代码简单&#xff0c;可使用任意HTML编辑软件&#xff08;如&#xff1a;Dreamweaver、HBuilder、Vscode 、Sublime 、Webstorm、Text 、Notepad 等任意html编辑软件进行运行及修改…

lvs的dr模式综合实践

目录 ​编辑虚拟机准备工作 ​编辑​编辑​编辑 配置过程 配置client主机 配置router主机 配置lvs主机&#xff08;vip使用环回来创建&#xff09; 配置server1主机&#xff08;vip使用环回来创建&#xff09; 配置server2主机&#xff08;vip使用环回来创建&#xff0…

《数据结构》(C语言版)第1章 绪论(下)

第1章 绪论 1.3 抽象数据类型的表示与实现1.4 算法与算法分析 1.3 抽象数据类型的表示与实现 数据类型 数据类型是一组性质相同的值的集合, 以及定义于这个集合上的一组运算的总称。 抽象数据类型(ADTs: Abstract Data Types) 更高层次的数据抽象。由用户定义&#xff0c;用…

3DM游戏运行库合集离线安装包2024最新版

3DM游戏运行库合集离线安装包是一款由国内最大的游戏玩家论坛社区3DM推出的集成式游戏运行库合集软件&#xff0c;旨在解决玩家在玩游戏时遇到的运行库缺失或错误问题。该软件包含多种常用的系统运行库组件&#xff0c;支持32位和64位操作系统&#xff0c;能够自动识别系统版本…

快速上手AWS cloudfront产品

AWS CloudFront&#xff0c;亚马逊推出的卓越全球内容分发网络服务&#xff0c;专为加速网站内容的极速传输而设计&#xff0c;旨在大幅度削减加载延迟&#xff0c;同时确保内容传递过程中的高度安全性和无懈可击的可靠性。借助CloudFront的强大功能&#xff0c;用户能够轻松实…

腾讯云服务器windows系统如何转linux系统

本人购买了腾讯云服务&#xff0c;进去后发现是windows系统的&#xff0c;有点郁闷&#xff08;使用不习惯&#xff09;&#xff0c;于是就去查查看看能不能将Windows系统转成linux系统&#xff0c;网上也有解决办法&#xff0c;但是貌似跟现在的腾讯云后台不一致&#xff0c;下…

Flink学习之Flink SQL(补)

Flink SQL 1、SQL客户端 1.1 基本使用 启动yarn-session yarn-session.sh -d启动Flink SQL客户端 sql-client.sh--退出客户端 exit;测试 重启SQL客户端之后&#xff0c;需要重新建表 -- 构建Kafka Source -- 无界流 drop table if exists students_kafka_source; CREATE TABL…

软件生命周期(二)

1. 软件生命周期定义 软件生命周期&#xff08;SDLC&#xff09;是软件开始研制到最终废弃不用所经历的各个阶段 – 软件开发模型 2. 瀑布型生命周期模型 瀑布模型规定自上而下&#xff0c;相互衔接的固定次序&#xff0c;如同瀑布流水&#xff0c;逐级下落&#xff0c;具有…

sqli-labs(超详解)——Lass32~Lass38

Lass32&#xff08;宽字节注入&#xff09; 源码 function check_addslashes($string) {$string preg_replace(/. preg_quote(\\) ./, "\\\\\\", $string); //escape any backslash$string preg_replace(/\/i, \\\, $string); …

double类型 精度丢失的问题

前言 精度丢失的问题是在其他计算机语言中也都会出现&#xff0c;float和double类型的数据在执行二进制浮点运算的时候&#xff0c;并没有提供完全精确的结果。产生误差不在于数的大小&#xff0c;而是因为数的精度。 一、double进行运算时,经常出现精度丢失 0.10.2使用计算…

记录一次网关无响应的排查

1. 使用jstack pid > thread.txt 打印进 thread.txt 文件里 去观察线程的状态。 我发现&#xff0c;一个线程在经过 rateliter的prefilter后, 先是调用 consume方法&#xff0c;获取到锁。 接着在执行 jedis的 evalsha命令时 一直卡在socket.read()的状态。 发现jedis官…

软件测试必备技能

在软件测试领域&#xff0c;以下是一些必备的技能和能力&#xff0c;可以帮助你成为一名优秀的软件测试工程师&#xff1a; 1. 测试基础知识&#xff1a; 熟悉软件测试的基本概念、原则和流程&#xff0c;包括不同类型的测试&#xff08;如单元测试、集成测试、系统测试&#…

这几个高级爬虫软件和插件真的强!

亮数据&#xff08;Bright Data&#xff09; 亮数据是一款强大的数据采集工具&#xff0c;以其全球代理IP网络和强大数据采集技术而闻名。它能够轻松采集各种网页数据&#xff0c;包括产品信息、价格、评论和社交媒体数据等。 网站&#xff1a;https://get.brightdata.com/we…

LLM(大语言模型)「Agent」开发教程-LangChain(三)

v1.0官方文档&#xff5c;最新文档 一、LangChain入门开发教程&#xff1a;Model I/O 二、基于LangChain的RAG开发教程 LangChain是一个能够利用大语言模型&#xff08;LLM&#xff0c;Large Language Model&#xff09;能力进行快速应用开发的框架&#xff1a; 高度抽象的组件…

智能仪表板DevExpress Dashboard v24.1 - 新增级联参数过滤

使用DevExpress Analytics Dashboard&#xff0c;再选择合适的UI元素&#xff08;图表、数据透视表、数据卡、计量器、地图和网格&#xff09;&#xff0c;删除相应参数、值和序列的数据字段&#xff0c;就可以轻松地为执行主管和商业用户创建有洞察力、信息丰富的、跨平台和设…