《数据仓库与数据挖掘》 总复习

试卷组成  

第一章图

第二章图

第三章图

第四章图 

第五章图

第六章图

第九章图

第一章 DW与DM概述 (特点、特性)

DB到DW

主要特征

(1)数据太多,信息贫乏(Data Rich, Information Poor)。

(2)异构环境数据的转换和共享。(不同数据库数据结构不一样,如何整合?)

(3)利用数据进行事务处理转变为利用数据支持决策。

总结:D多,异构,事决

好多D,DB和DW发生争执给他们异构体,事情解决

演变4点

(1)DB用于事务处理,DW用于决策分析。

(2)DB保持事务处理的当前状态。 DW既保存过去的数据又保存当前的DB中的数据。

随业务的变化一直更新,保存当前数据。

不随时间变化而变化,保留历史数据和当前数据。

(3)DW的数据是大量DB的集成。

(4)对DB的操作比较明确,操作数据量少。 对DW操作不明确(通过某种算法),操作数据量大。

总结:事决,状态,集成,操作

想要事情解决,D保持良好状态,集成精力施以操作

OLTP到 OLAP

联机事务处理 (On Line Transaction Processing,OLTP)

概念:用户的数据可以立即传送到计算中心进行处理,短时间内给出处理结果。

实时系统(Real Time System)

联机分析处理 (On Line Analytica Processing,OLAP)

概念:多维数据库和多维分析

元数据 (Meta Data)

什么是元数据?

描述数据的数据(Data About Data)

为什么研究?

数据越多,越需要能对数据进行描述说明的数据。

重要性:数据仓库中数据的描述(数据字典)

元数据的分类?

  1. 关于数据源的元数据
    对不同平台上的数据源的物理结构和含义的描述。(提示我们如何将数据转换到DW中)
  2. 关于数据模型的元数据
    描述了DW中有什么数据以及数据之间的关系。
  3. 关于DW映射的元数据
    是数据源与DW数据间的映射。 (获取数据的第一步)
  4. 元数据反映DW中的数据项从哪个数据源抽取的,经过哪些ETL
    关于DW使用的元数据。
  5. DW中信息使用情况的描述。

总结:D源模W映用,物含关系,映射使用

元数据的分类查看原魔应用

DW特点(6)

  1. 面向主题
    每一个主题基本对应一个宏观的分析领域。(对什么决策?)
  2. 集成的
    对不同的数据来源进行统一数据结构和编码。
  3. 稳定的
    大量的历史数据(只进不出)
  4. 随时间变化(长时间)
  5. 数据量很大
  6. 软、硬件要求较高
    巨大的硬件平台
    并行的数据库系统

特点总结:题集稳时数要求

DW提及问题时要数要求

本书核心

数据仓库是为辅助决策而建立的

DM

  • 知识发现 (Knowledge Dicovery in Database,KDD):从数据中发现有用知识的整个过程。主要算法是归纳学习算法。
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。

DM与OLAP比较

  • OLAP多维分析:切片、切块、钻取操作。辅助决策。
  • DM:任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。
    确定一个高价值的客户或可能离开的客户特征。

第二章 DW原理

DW结构包含哪几类数据?

(5:历当轻高元)

数据集市 (Data Marts)

概念:更小、更集中、具特定应用的DW。

特性:规模小、特定应用、面向部门、快速实现、投资快速回收、可升级到完整DW。

分类?

独立数据集市 (Dependent Data Mart)

        数据来源:直接来源于各生产系统

从属数据集市 (Independent Data Mart)

        数据来源:直接来自中央DW

数据集市与DW差别?

  • 主题
    DW:面向企业范围。
    数据集市:面向某一特定部门。
  • 数据详细程度
    DW:非常详细
    数据集市:低,概要多
  • 数据组织
    DW:第三范式等。
    数据集市:星型模型。

总结:题详细组织,企部,高低,三星

主题公园的D详细组织,起步高低的三星

DW系统结构

由数据仓库(DW)、仓库管理和分析工具三部分组成。

1、仓库管理包括什么? (4部分)

(1)数据建模:是建立DW的数据模型(Data Model)

DW数据模型按设计过程分类?

  • 概念数据模型

    • 最高层次的数据模型, 它定义了组织的数据仓库的业务概念和需求。

  • 逻辑数据模型

    • 概念数据模型的具体化, 它描述了数据元素之间的关系,但不涉及存储细节。

  • 物理数据模型

    • 逻辑数据模型的实现, 它详细描述了数据在数据库中的存储方式。

总结:概逻物,需求关系存储

盖螺屋,rrs

(2)数据抽取、转换、装载 (ETL: Extract、Transform、Load) 70%工作量
  • 抽取(Extract)

    • 第一步,从各种数据源中收集数据。 批量实时提取数据。

  • 转换(Transform)

    • 核心步骤,将原始数据转换成适合DW格式的数据。

      • 转换过程

        • 数据清洗 (去除错误和不一致的数据)

        • 数据集成 (合并来自不同源的数据)

        • 数据聚合 (汇总数据以减少数据量)

        • 数据映射 (将数据映射到数据仓库模型)

        • ......

    • 转换过程确保数据的一致性、准确性,并满足数据仓库的业务需求。

  • 装载(Load)

    • 最后一步,涉及将转换后的数据加载到DW中。

  • 总结:ETL,收集数据,转格式,加载DW

(3)元数据
  • 3功能:DW字典,指导ETL工作,指导用户使用DW。

(4)系统管理
  • 4部分:数据管理、性能监控、存储器管理、安全管理。

总结:数性存安

dpss

2、分析工具

(1)查询工具:可视化工具

(2)多维分析工具(OLAP工具)

(3)数据挖掘(DM)工具

(4)C/S工具

DW运行结构

  1. 典型的客户/服务器(C/S)
  2. DW应用的三层C/S结构

C/S(OLAP,DW) 有个公用OLAP层,工作效率更高

DW的数据模型

  • 多维数据模型

    • 星型模型

      • 由“事实表”(大表)以及多个“维表”(小表)所组成。

    • 雪花模型

      • 对星型模型的维表进一步层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域。

    • 星网模型

      • 将多个星型模型连接起来形成网状结构。

    • 第三范式

      • 传统DB设计理论

        • 减少数据冗余

  • 优势

    • 星型模型

      • 多维数据分析时速度很快

        • 但是增加维度将是很困难的事情。

    • 第三范式

      • 海量数据(如TB级),大量的动态业务分析

第三章 OLAP (联机分析处理)

概念

定义

OLAP是共享多维信息的快速分析。

4个特征

1、快速性

2、可分析性

3、多维性

4、信息性

总结:快可多信

快速的多维分析信息值得信赖

特点

  • 1.线性(On Line),由网络上的C/S结构完成。

  • 2.多维分析,OLAP的核心所在。

准则 (主要4条)

  • (1)多维数据分析;

  • (2)客户/服务器结构;

  • (3)多用户支持;

  • (4)一致的报表性能等。

    • 数据维数和数据的综合层次增加时, 提供的报表能力和响应速度不应该有明显的降低。 (即便D量,维度增加,速度不应该下降)

OLAP的数据模型

  • 分类

    • MOLAP数据模型

      • Multidimensional Online Analytical Processing

      • 基于多维数据库存储方式建立的OLAP

      • 表现为“超立方”结构,采用类似于多维数组的结构。

    • ROLAP数据模型

      • Relational Online Analytical Processing

      • 是基于关系数据库的OLAP。

      • 是一个平面结构,用关系数据库表示多维数据时,采用星型模型。

  • 比较

    • 1.数据存取速度(MOLAP的响应速度快 )

      • M

      • R需要转化SQL语句

    • 2.数据存储的容量( ROLAP存储容量上没有限制)

      • R

      • M立体方式存放数据,数据量级不大

    • 3.多维计算的能力(MOLAP能够支持高性能计算 )

      • M

      • R无法多行/维计算

    • 4.维度变化的适应性(ROLAP对于维表的变更有很好的适应性 )

      • R

      • M增维需重建DB

    • 5.数据变化的适应性( ROLAP对于数据变化的适应性高 )

      • R

      • M在数据频繁变化时需要大量重新计算

    • 6.软硬件平台的适应性(ROLAP适应性很好 )

      • R

    • 7.元数据管理

      • 均无成形标准。

    • 总结:as计维变适管,多关多关关关无

      • 存计为多,其余为关

多维数组的表示

(维1,维2,……,维n,变量)

一个4维的结构,即(产品,地区,时间,销售渠道,销售额)。(元组)

多维数据的显示

  • 多维数据的显示只能在平面上展现出来。

  • 多维数据的分析视图

    • 平面显示多维数据,利用行、列和页面三个显示组表示。(页面,行,列,指标维)

      • 页面:商店3(商店维) 行:月份(时间维:1月,2月,3月) 列:产品(产品维:上衣,裤子,帽子) 指标维:固定成本,直接销售

多维数据分析的基本操作分别是怎么执行的?

(切片、切块、旋转、钻取)

  • 1.切片

    • 选定多维数组的一个二维子集的操作。

  • 2. 切块

    • 多维数组的某个维上选定某一区间的维成员的操作。

    • 选定多维数组的一个三维子集的操作。

  • 3. 钻取

    • 维度的细分。

    • 向上钻取(drill up )

      • 向上钻取获取概括性的数据。

      • 缩小地图:区-市-省-国

    • 向下钻取(drill down )

      • 向下钻取是使用户在多层数据中能通过导航信息而获得更多的细节性数据。

      • 放大地图:国-省-市-区

  • 4.旋转

    • 得到不同视角的数据。 相当于平面数据将坐标轴旋转。

  • 总结:片块上下转,二三概细多视角。

数据立方体

概述:实际为数据仓库结构图中的综合数据层(轻度和高度)。

多维数据集的属性分类?

  • 维属性

  • 度量属性

典型的压缩型数据立方体

  • (1)冰山立方体

    • 数据的筛选:在冰山立方体的生成计算中,仅聚集高于(或低于)某个阈值的子立方体。

  • (2)紧凑数据立方体

    • 用一条数据来代表之前表中的多条数据元组压缩如(产品,地区,时间,销售渠道,销售额)

  • (3)外壳片段立方体

  • (4)流式数据立方体

第四章 DW的决策支持

DW用户

信息查询者 (业务层面)

  • user

    • 是使用DW的主要用户。

  • 特点

    • 以一种可预测的、重发性的方式使用数据仓库平台。

  • 作用

    • 使用数据仓库能发现目前存在的问题。

  • 方法

    • 创建数据阵列

    • 预连接表格

    • 预聚集数据

    • 聚类数据

知识探索者 (分析决策)

  • user

    • 典型的DM者。

  • 特点

    • 有一个完全不可预测的、非重复性的数据使用模式。

  • 作用

    • 发现问题并找出原因。

  • 方法

    • 创建单独的探索仓库,不影响数据仓库的常规用户。

      • “标识技术”数据压缩,提高数据分析速度。

    • 使用模型帮助决策分析。

    • 采用数据挖掘工具来获取商业知识。

总结比较:

  • user

    • DW;DM

  • 特点

    • 可预测,重发性;不可预测和重复

  • 作用

    • 找到问题;问题和原因

第五章 DM原理(了解即可)

KDD

概念:从数据中发现有用知识的整个过程。

过程

  • 数据准备、DM、结果评估

数据准备的三个步骤?

数据选择,数据预处理,数据转换

DM
  • KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。

  • 按照DM任务采取不同方法

    • 聚类方法 (结果未知)

      • 在没有类别的数据中,按照”距离“远近聚集若干类别。

      • 典型方法:k均值聚类算法,统计分析方法,机器学习方法,神经网络方法等

    • 分类方法 (结果已知)

      • 对有类别的数据,找出各类别的描述知识。

      • 典型方法:ID3、C4.5、IBLE等分类算法

总结

有无类别

结果评估
  • 数据质量好坏的两个影响因素?

    • DM技术的有效性

    • 挖掘数据的质量和数量

总结:技术和数据

DM任务和分类

DM任务

  • (1)关联分析

    • 两个或多个数据项的取值之间重复出现且概率很高时,它就存在某种关联,可以建立起这些数据项的关联规则。

  • (2)时序模式

    • 通过时间序列搜索出重复发生概率较高的模式

  • (3)聚类

    • 在没有类的数据中,按“距离”概念聚集成若干类。

    • 距离

      • 同一类别中个体之间的距离较小

      • 而不同类别上的个体之间的距离偏大

  • (4)分类

    • 在聚类的基础上,对已确定的类找出该类别的概念描述,它代表了这类数据的整体信息。

    • 类的内涵描述

      • 特征描述

        • 对类中对象的共同特征的描述。

      • 辨别性描述

        • 对两个或多个类之间的区别的描述

  • (5)偏差检测

    • 从数据分析中发现异常情况

  • (6)预测

    • 利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类,特征等

什么是聚类和分类?

决策树知识

  • ps:在其基础上考计算题 (信息熵和信息增益)

  • 决策树是一种常用的机器学习算法,用于分类和回归任务。

  • 基本概念

    • 决策树通过一系列的问题将数据分割成不同的分支,最终达到一个结论或决策。

  • 构建过程

    • 从根节点开始,选择一个特征和阈值进行分割,递归地在子节点上重复这个过程,直到满足停止条件。

  • 特征选择

    • 特征选择是决策树构建中的关键步骤,用于决定在每个节点上使用哪个特征进行分割。常见的特征选择方法包括信息增益、信息增益率和基尼不纯度。

第六章 信息论方法 (计算题)

  • 决策树方法 (了解即可)

    • 决策树是一种知识表示形式,它是对所有样本数据的高度概括。

    • 决策树,如ID3、C4.5方法,是把信息量最大的属性作为树或子树的根结点,属性的取值作为分枝。

ID3决策树

  • 结点

    • 根结点

      • 是所有样本中信息量最大的属性。

    • 中间结点

      • 是该结点为根的子树所包含的样本子集中信息量最大的属性。

    • 叶结点

      • 是样本的类别值。

信息熵和信息增益

  • 信息传递系统 (信道模型)

    • 发送端(信源)

    • 接收端(信宿)

    • 连接两者的通道(信道)

  • 概念

    • 1、信息熵 H(U) 也称为先验熵

      • 先验不确定性

        • 先验不确定性不能全部被消除,只能部分地消除

      • 接收端(信宿)不确定发送端(信源)状态。

        • 是信源输出前的平均不确定性,也称先验熵。

      • 总结

        • P(U):所有例子中的正例和反例在总例的占比

        • H(U):(-占比log占比)二者相加

    • 2、条件熵H(U/V) 也称为后验熵

      • 后验不确定性

      • 通信结束之后,信宿仍然具有一定程度的不确定性。

      • 后验不确定性总要小于先验不确定性 H(U/V)< H(U)

        • 相等,表示信宿没收到信息。

        • 后验不确定性为0,表示信宿收到全部信息。

      • 总结

        • P(V):属性某一取值在总例的占比

        • P(U/V):属性某一取值的正反例占比

        • H(U/V):(-总例占比×(属性取值占比log属性取值占比)之和)之和

    • 3、信息量用互信息来表示,也称为信息增益=先验熵-后验熵 I(U,V)=H(U)- H(U/V)

      • 信息是用来消除(随机)不确定性的度量。

      • 总结

        • 计算所有属性的互信息量I

    • 4、建决策树树根和分支

      • 树根

        • 选择互信息量I最大的特征值

      • 分支

        • 划分特征子集F

    • 5、递归建树

      • 继续求剩余特征的互信息量,找互信息量最大的一个作为分支的根结点向下分支,最后标记正反例(分类)

计算

第九章 遗传算法和计算智能 (了解)

遗传算法 (Genetic Algorithms,GA)

是模拟生物在自然环境中的遗传和进化过程而形成的一种自适应全局优化搜索算法。

遗传算子

  • 选择 (Selection)

    • 依据每个染色体的适应值大小,适应值越大,被选中的概率就越大,其子孙在下一代产生的个数就越多。

    • 选择操作是建立在群体中个体的适应值评估基础上的,目前常用的选择算子有适应值比例法、最佳个体保存法、期望值方法等。

  • 交叉(重组) (Crossover)

    • 通过染色体重组来产生新一代染色体。

  • 变异 (Mutation)

    • 变异增加了遗传算法找到接近最优解的能力。

    • 变异就是以很小的概率,随机地改变字符串某个位置上的值。把某一位的内容进行变异。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/369290.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

H2 Database Console未授权访问漏洞封堵

背景 H2 Database Console未授权访问&#xff0c;默认情况下自动创建不存在的数据库&#xff0c;从而导致未授权访问。各种未授权访问的教程&#xff0c;但是它怎么封堵呢&#xff1f; -ifExists 很简单&#xff0c;启动参数添加 -ifExists &#xff0c;它的含义&#xff1a…

【机器学习】机器学习的重要方法——线性回归算法深度探索与未来展望

欢迎来到 破晓的历程博客 引言 在数据科学日益重要的今天&#xff0c;线性回归算法以其简单、直观和强大的预测能力&#xff0c;成为了众多领域中的基础工具。本文将详细介绍线性回归的基本概念、核心算法&#xff0c;并通过五个具体的使用示例来展示其应用&#xff0c;同时探…

CASS7.0按方向和距离绘制图形

1、绘制工具 2、按方向和距离绘制 &#xff08;1&#xff09;切换方向 &#xff08;2&#xff09;距离输入

Python函数缺省参数的 “ 坑 ” (与C++对比学习)

我们都知道Python函数的缺省参数可以降低我们调用函数的成本&#xff0c;但是一般我们的缺省参数都是不可变对象&#xff0c;如果是可变对象&#xff0c;我们对其多次调用会发生什么呢&#xff1f; def func(arr[]):arr.append(Hello)print(arr)func() func() func() 这貌似…

MongoDB-社区版-本地安装

系统&#xff1a;win10 1. 下载server:Download MongoDB Community Server | MongoDB 我选的zip包 2. 下载shell&#xff1a;MongoDB Shell Download | MongoDB 我选的zip包 3. 启动server 4. 启动shell, 完成

MYSQL函数进阶详解:案例解析(第19天)

系列文章目录 一、MySQL的函数&#xff08;重点&#xff09; 二、MySQL的窗口函数&#xff08;重点&#xff09; 三、MySQL的视图&#xff08;熟悉&#xff09; 四、MySQL的事务&#xff08;熟悉&#xff09; 文章目录 系列文章目录前言一、MySQL的函数1. 聚合函数2. group_c…

Redis 多数据源自定义配置 Spring Boot 升级版

文章目录 1.前言2.git 示例地址3.需求4.代码实现4.1 application.properties 配置文件4.2 获取 application.properties 中的 redis 配置4.2.1 Environment 对象来获取自定义 redis 配置 4.3 初始化 RedisTemplate 对象&#xff0c;并注册到 Spring IOC 容器4.3.1 初始化方法4.…

spring boot (shiro)+ websocket测试连接不上的简单检测处理

1、用前端连接测试的demo一切正常&#xff0c;但是到了项目中连接不上了 一开始以为是地址错&#xff0c;但是换了apifox测试也是不可以。 2、考虑是shiro进行了拦截了&#xff0c;所以就访问不到了地址&#xff0c;那么就放行。 3、再次用apifox测试&#xff0c;成功了。 当然…

马拉松报名小程序的设计

管理员账户功能包括&#xff1a;系统首页&#xff0c;个人中心&#xff0c;用户管理&#xff0c;赛事信息管理&#xff0c;赛事报名管理&#xff0c;活动商城管理&#xff0c;留言板管理&#xff0c;系统管理 微信端账号功能包括&#xff1a;系统首页&#xff0c;赛事信息&…

C++:智能指针

目录 前言 1.内存泄漏及其危害 2.内存泄漏分类&#xff1a; 3.如何检测内存泄漏 4.如何避免内存泄漏 一、为什么需要智能指针&#xff1f; 二、智能指针的使用及其原理 1.RAII 2.智能指针 3.std::auto_ptr 4.std::unique_ptr 5.std::shared_ptr 6.std::weak_ptr…

SA 注册流程

目录 1. UE开机后按照3GPP TS 38.104定义的Synchronization Raster搜索特定频点 2.UE尝试检测PSS/SSS&#xff0c;取得下行时钟同步&#xff0c;并获取小区的PCI&#xff1b;如果失败则转步骤1搜索下一个频点&#xff1b;否则继续后续步骤&#xff1b; 3.解析Mib&#xff0c;…

从0到1构建渠道运营体系:实战案例与策略指南

引言 在当今竞争激烈的市场环境中&#xff0c;有效的渠道运营是企业实现产品或服务快速触达目标用户、提升市场份额的关键。从零开始构建一个高效的渠道运营体系&#xff0c;不仅需要深思熟虑的策略规划&#xff0c;还需要灵活应变的实战操作。本文将结合实战案例&#xff0c;…

JDK新特性之协程

在 JVM 中&#xff0c;java 线程直接映射内核线程&#xff0c;因此 java 线程的创建、销毁和调度都要依赖内核态的操作&#xff08;系统调用&#xff09;。而协程是真正的用户线程&#xff0c;如上图所示很多的协程可以映射很少的几个内核线程&#xff0c;并且协程的创建、销毁…

gitee代码初次上传步骤

ps. 前提是已经下载安装gitee 一、在本地项目目录下空白处右击&#xff0c;选择“Git Bash Here” 二、初始化 git init 三、添加、提交代码&#xff08;注意add与点之间的空格&#xff09; git add . git commit -m 添加注释 四、连接、推送到gitee仓库 git remote add …

Renderless 思想正在影响前端开发

本文由前端小伙伴方长_beezen 原创。欢迎大家踊跃投稿。 原文链接&#xff1a;https://juejin.cn/post/7385752495535472655 前言 截止到 2024 年&#xff0c;跨端应用开发所需要考虑的兼容性&#xff0c;已经涵盖了框架、平台和设备类型等多个方面&#xff0c;例如&#xff1…

「ETL趋势」分区支持PostgreSQL、Greenplum、Gauss200, 定时任务支持Kettle

FineDataLink作为一款市场上的顶尖ETL工具&#xff0c;集实时数据同步、ELT/ETL数据处理、数据服务和系统管理于一体的数据集成工具&#xff0c;进行了新的维护迭代。本文把FDL4.1.9最新功能作了介绍&#xff0c;方便大家对比&#xff1a;&#xff08;产品更新详情&#xff1a;…

MYSQL篇二:数据库的操作

文章目录 1. 创建数据库1.1 查看数据库列表1.2 创建与删除数据库 2. 数据的编码问题3. 字符集和校验规则3.1 查看系统默认字符集以及校验规则3.2 查看数据库支持的字符集3.3 查看数据库支持的字符集校验规则3.4 校验规则对数据库的影响 4. 操纵数据库4.1 查看当前是哪一个数据库…

安装docker compose与elasticsearch,kibana

1.docker compose安装 1.1是否已安装docker docker -v 1.2安装docker compose curl -SL https://github.com/docker/compose/releases/download/v2.18.0/docker-compose-linux-x86_64 -o /usr/local/bin/docker-composeps:如果网络太慢可直接在博客中下载附属文件 下载后修…

【二】Ubuntu24虚拟机在Mac OS的VMware Fusion下无法联网问题

文章目录 1.环境背景2. 需求背景3. 解决方法3.1 在mac的终端查看虚拟机NAT网络3.2 查看unbuntu节点2的网络配置3.3 问题定位与解决3.3.1 检查是否有冲突3.3.2 冲突解决方法 4. 总结4.1 NAT 网关的原理4.2 VMware Fusion 的 NAT 模式4.3 为什么网关冲突会引起问题4.4 理解配置冲…

python作业一

1. #A.方法一 num int(input("请输入要打印的层数:")) for n in range(1, num1):s ""for i in range(1, n1):s f"{i}" " "print(s) #方法二&#xff1a; iint(input("i:")) for i in range(1,i1):s""for j i…