DAMA-DMBOK2重点知识整理CDGA/CDGP——第14章 大数据与数据科学

目录

一、分值分布

二、重点知识梳理

1、引言

1.1 业务驱动因素

1.2 原则

1.3 基本理念

2、活动

2.1 定义大数据战略和业务需求

2.2 选择数据源

2.3 获得和接收数据源

2.4 制定数据假设和方法

2.5 集成和调整数据进行分析

2.6 使用模型探索数据

2.7 部署和监控

3、工具

3.1 大规模并行处理(MPP)

3.2 基于分布式文件的数据库

4、方法

4.1 解析建模

4.2 大数据建模

5、实施指南

5.1 战略一致性

5.2 就绪评估/风险评估

6、大数据和数据科学治理


一、分值分布

        CDGA:4分(4单选)

        CDGP:10分(2单选 4多选)

                考点:

                        业务驱动和原则;

                        基本概念;

                        活动;

                        工具和技术;

二、重点知识梳理

1、引言

语境关系图:

1.1 业务驱动因素

业务驱动因素:期望抓住从多种流程生成的数据集中发现的商机,是提升一个组织大数据和数据科学能力的最大业务驱动力。

1.2 原则

原则:组织应仔细管理与大数据源相关的元数据,以便对数据文件及其来源和价值进行准确的清单管理。

1.3 基本理念

数据科学

  • 组成部分:
    • 1)数据挖掘
    • 2)统计分析
    • 3)机器学习
  • 依赖:
    • 1)丰富的数据源。
    • 2)信息组织和分析。
    • 3)信息交付。
    • 4)展示发现和数据洞察。
  • 数据科学的过程:
    • 1)定义大数据战略和业务需求。
    • 2)选择数据源。
    • 3)采集和提取数据资料。
    • 4)设定数据假设和方法。
    • 5)集成和调整数据进行分析。
    • 6)使用模型探索数据。
    • 7)部署和监控。

大数据

  • 定义(3V):
    • 1)数据量大(Volume)。大数据的量非常大(通常大于100TB,在1PB~1EB范围内)。
    • 2)数据更新快(Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
    • 3)数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
    • 4)数据黏度大(Viscosity)。指数据使用或集成的难度比较高。
    • 5)数据波动性大(Volatility)。指数据更改的频率,以及由此导致的数据有效时间短。
    • 6)数据准确性低(Veracity)。指数据的可靠程度不高。
  • 大数据架构:

数据湖:数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。

  • 数据湖可提供的场景:
    • 1)数据科学家可以挖掘和分析数据的环境。
    • 2)原始数据的集中存储区域,只需很少量的转换(如果需要的话)。
    • 3)数据仓库明细历史数据的备用存储区域。
    • 4)信息记录的在线归档。
    • 5)可以通过自动化的模型识别提取流数据的环境

        数据湖可以作为Hadoop其他数据存储系统集群服务数据转换和数据集成等数据处理工具的一种复合配置来实施。这些处理程序使跨基础架构的分析简化软件变得更加便利,从而使配置结合在起。

        数据湖的风险在于,它可能很快会变成数据沼泽——杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。为了理解数据湖中的数据是如何关联和连接的,数据架构师或者数据工程师通常使用单一键值或其他技术(语义模型、数据模型等),科学家和其他可视化开发人员通过这些技术数据即可知道如何使用数据湖中存储的信息

基于服务的架构(Services-Based Architecture,SBA):为一种立即提供(如果不是完全准确或完整)数据的方法,并使用相同的数据源来更新完整、准确的历史数据集。

  • SBA组件:
    • 1)批处理层(Batch Layer)。数据湖作为批处理层提供服务,包括近期的和历史的数据。
    • 2)加速层(Speed Layer)。只包括实时数据。
    • 3)服务层(Serving Layer)。提供连接批处理和加速层数据的接口

机器学习:机器学习(Machine Learning)探索了学习算法的构建和研究,它可以被视为无监督学习和监督学习方法的结合

  • 无监督学习:通常被称为数据挖掘
    • 算法类型:基于找到的那些隐藏的规律(数据挖掘)
  • 监督学习:是基于复杂的数学理论,特别是统计学、组合学和运筹学。
    • 算法类型:基于通用规则(如将SPAM邮件与非SPAM邮件分开)。
  • 强化学习:即没有通过教师的认可就实现了目标优化,如驾驶车辆
    • 算法类型:基于目标的实现(如在国际象棋中击败对手)。

语义分析:媒体监控和文本分析是从大量非结构化或半结构化数据(如事务数据、社交媒体、博客和Web新闻网站)中检索并获得见解的自动化方法,用于感知人们对品牌、产品、服务或其他类型主题的感觉和看法。使用自然语言处理(NLP)分析短语或句子、语义察觉情绪,并揭示情绪的变化,以预测可能的情景

数据和文本挖掘:数据挖掘(Data mining)是一种特殊的分析方法,它使用各种算法揭示数据中的规律。它最初是机器学习的一个分支,属于人工智能的一个子领域。

  • ◼ 数据挖掘(Data mining)技术:
    • 1)剖析(Profiling)。
    • 2)数据缩减(Data reduction)。
    • 3)关联(Association)。
    • 4)聚类(Clustering)。
    • 5)自组织映射(Self-organizing maps)。

预测分析:预测分析(Predictive Analytics)是有监督学习的子领域,用户尝试对数据元素进行建模,并通过评估概率估算来预测未来结果。预测分析深深植根于数学,特别是统计学,与无监督学习拥有许多相同的组成部分,对预期预测结果进行测量时差异是可控的。

基于可能事件(购买、价格变化等)与可变因素(包括历史数据)的概率模型开发。

预测模型的最简单形式是预估(Forecast)。

规范分析(Prescriptive Analytics):它对将会影响结果的动作进行定义,而不仅仅是根据已发生的动作预测结果。规范分析预计将会发生什么,何时会发生,并暗示它将会发生的原因。

运营分析(Operational Analytics):运营BI或流式分析,是从运营过程与实时分析的整合中产生的。运运营分析包括跟踪和整合实时信息流,根据行为预测模型得出结论,并触发自动响应和警报。

数据可视化:可视化(Visualization)是通过使用图片或图形表示来解释概念、想法和事实的过程。数据可视化通过视觉概览(如图表或图形)来帮助理解基础数据。数据可视化压缩并封装特征数据,使其更易于查看。通过这种方式,有助于发现商机,识别风险或凸显信息。

数据混搭(Data Mashups):将数据和服务结合在一起,以可视化的方式展示见解或分析结果。

2、活动

2.1 定义大数据战略和业务需求

  • 大数据战略的评估标准:
    • 1)组织试图解决什么问题,需要分析什么。
    • 2)要使用或获取的数据源是什么。
    • 3)提供数据的及时性和范围。
    • 4)对其他数据结构的影响以及与其他数据结构的相关性。
    • 5)对现有建模数据的影响。

2.2 选择数据源

  • 需要了解以下内容:
    • 1)数据源头。
    • 2)数据格式。
    • 3)数据元素代表什么。
    • 4)如何连接其他数据。
    • 5)数据的更新频率。
  • 要审查数据源和创建这些源的流程:
    • 1)基础数据。
    • 2)粒度。
    • 3)一致性。
    • 4)可靠性。
    • 5)检查/分析新数据源。

2.3 获得和接收数据源

获取时需要捕获有关源的关键元数据,如来源、大小、时效性和相关内容的额外知识。迭代地识别当前数据资产基础和这些数据源的差距,使用分析、可视化、挖掘或其他数据科学方法探索这些数据源,以定义模型算法输入或模型假设。在整合数据之前,应先评估数据的质量。 

2.4 制定数据假设和方法

制订数据科学解决方案需要构建统计模型,找出数据元素和数据集内部以及二者之间的相关性和趋势。模型的效果取决于输入数据的质量和模型本身的健全性。

2.5 集成和调整数据进行分析

准备用于分析的数据包括了解数据中的内容、查找各种来源的数据间的链接以及调整常用数据以供使用。

2.6 使用模型探索数据

  • 1.填充预测模型。需要使用历史信息预先填充配置预测模型,这些信息涉及模型中的客户、市场、产品或模型触发因素之外的其他因素。
  • 2.训练模型。需要通过数据模型进行训练。训练包括基于数据重复运行模型以验证假设,将导致模型更改。训练需要平衡,通过针对有限数据文件夹的训练避免过度拟合。
  • 3.评估模型。将数据放入平台并准备分析后,数据科学就开始了。针对训练集进行模型构建、评估和验证。
  • 4.创建数据可视化。必须满足与模型目的相关的特定需求,每个可视化应该能够回答一个问题或提供一个见解。

2.7 部署和监控

满足业务需求的模型,必须以可行的方式部署到生产中,以获得持续监控。

  • 步骤
    • 1.揭示洞察和发现。洞察应与行动项目相关联,这样组织才能从数据科学工作中受益。
    • 2.使用附加数据源迭代。数据科学是一个迭代的过程

3、工具

改变了我们查看数据和信息方式的技术

  • 1)数据库内的高级分析。
  • 2)非结构化数据分析(Hadoop,MapReduce)。
  • 3)分析结果与操作系统的集成。
  • 4)跨多媒体和设备的数据可视化。
  • 5)链接结构化和非结构化信息的语义。
  • 6)使用物联网的新数据源。
  • 7)高级可视化能力。
  • 8)数据扩展能力。
  • 9)技术和工具集的协作。

3.1 大规模并行处理(MPP)

大规模并行处理(MPP)的出现是大数据和数据科学的首批推动者之一,因为它提供了在相对较短的时间内分析巨量信息的手段

大规模并行处理(MPP)的无共享数据库技术,已成为面向数据科学的大数据集分析标准平台。基于分布式文件的数据库。数据库内算法。大数据云解决方案。统计计算和图形语言。数据可视化工具集。

3.2 基于分布式文件的数据库

基于文件的解决方案中使用的模型称为MapReduce。该模型有三个主要步骤:

  • 1)映射(Map)。识别和获取需要分析的数据。
  • 2)洗牌(Shuffle)。依据所需的分析模式组合数据。
  • 3)归并(Reduce)。删除重复或执行聚合,以便将结果数据集的大小减少到需要的规模。

4、方法

4.1 解析建模

  • 解析模型与不同的分析深度相关联:
    • 1)描述性建模以紧凑的方式汇总或表示数据结。
    • 2)解释性建模是数据统计模型的应用,主要是验证关于理论构造的因果假设。预测分析的关键是通过训练模型来学习,学习方法的效果取决于它在测试集(与训练集相互独立)上的预测能力。

4.2 大数据建模

对数据仓库进行物理建模的主要驱动因素是为查询性能而启用数据填充。

5、实施指南

管理数据仓库数据的许多一般规则适用于管理大数据

  1. 确保数据源可靠
  2. 具有足够的元数据以支持数据使用
  3. 管理数据质量
  4. 确定如何整合来自不同源的数据
  5. 以及确保数据安全且受到保护

实施大数据环境的差异与一组未知问题有关

  1. 如何使用数据
  2. 哪些数据有价值
  3. 需要保留多长时间

5.1 战略一致性

战略交付成果应考虑管理以下要素

  • 1)信息生命周期。
  • 2)元数据。
  • 3)数据质量。
  • 4)数据采集。
  • 5)数据访问和安全性。
  • 6)数据治理。
  • 7)数据隐私。
  • 8)学习和采用。
  • 9)运营。

5.2 就绪评估/风险评估

评估与关键成功因素相关的组织准备情况,具体包括

  • 1)业务相关性。
  • 2)业务准备情况。
  • 3)经济可行性。
  • 4)原型。
  • 5)可能最具挑战性的决策将围绕数据采购、平台开发和资源配置进行。
  • 6)数字资料存储有许多来源,并非所有来源都需要内部拥有和运营。
  • 7)市场上有多种工具和技术,满足一般需求将是一个挑战。
  • 8)保护具有专业技能的员工,并在实施过程中留住顶尖人才,可能需要考虑替代方案,包括专业服务、云采购或合作。
  • 9)培养内部人才的时间可能会超过交付窗口的时间。

6、大数据和数据科学治理

解决的问题

  • 1)寻源。来源有哪些,什么时候接入源,什么是特定研究的最佳数据来源。
  • 2)共享。组织内部和外部要签订的数据共享协议和合同、条款和条件。
  • 3)元数据。数据在源端意味着什么,如何解释输出端的结果。
  • 4)丰富。是否丰富数据,如何丰富数据,以及丰富数据的好处。
  • 5)访问。发布什么,向谁发布,如何以及何时发布。企业数据视图应该推动数据处理决策。

数据科学和可视化标准:最佳实践是建立一个定义和发布可视化标准和指南的社区,并在指定的交付方法中审查工件,这对于面向客户和监管的内容尤为重要。

  • 标准可能包括:
    • 1)分析范例、用户团体、主题域的工具标准。
    • 2)新数据的请求。
    • 3)数据集流程标准。
    • 4)采用中立的、专业的陈述过程,避免产生有偏见的结果,并确保所有要素都以公平一致的方式完成,包括:
      • ①数据包含和排除。
      • ②模型中的假设。
      • ③结果统计有效性。
      • ④结果解释的有效性。
      • ⑤采用适当的方法。

元数据:元数据需要作为数据提取的一部分进行谨慎管理,否则数据湖将迅速成为数据沼泽。

数据质量:大多数成熟的大数据组织,使用数据质量工具集扫描数据输入源,以了解其中包含的信息。大多数高级数据质量工具集都提供了一些功能,使组织能够测试假设,并构建有关其数据的知识。例如:

  • 1)发现。信息驻留在数据集中的位置。
  • 2)分类。基于标准化模式存在哪些类型的信息。
  • 3)分析。如何填充和构建数据。
  • 4)映射。可以将哪些其他数据集与这些值匹配。

度量指标

  • 1.技术使用指标。
  • 2.加载和扫描指标。
  • 3.学习和故事场景。
    • 常用的测量方法包括:
      • 1)已开发模型的数量和准确性。
      • 2)已识别的机会中实现的收入。
      • 3)避免已识别的威胁所降低的成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/145068.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Android 遍历界面所有的View

关于作者:CSDN内容合伙人、技术专家, 从零开始做日活千万级APP。 专注于分享各领域原创系列文章 ,擅长java后端、移动开发、商业变现、人工智能等,希望大家多多支持。 目录 一、导读二、概览三、实践四、 推荐阅读 一、导读 我们…

FFmpeg 命令:从入门到精通 | ffmpeg 命令分类查询

FFmpeg 命令:从入门到精通 | ffmpeg 命令分类查询 FFmpeg 命令:从入门到精通 | ffmpeg 命令分类查询ffmpeg -versionffmpeg -buildconfffmpeg -formatsffmpeg -muxersffmpeg -demuxersffmpeg -codecsffmpeg -decodersffmpeg -encodersffmpeg -bsfsffmpeg…

【QT】使用toBase64方法将.txt文件的明文变为非明文(类似加密)

目录 0.环境 1.背景 2.详细代码 2.1 .h主要代码 2.2 .cpp主要代码,主要实现上述的四个方法 0.环境 windows 11 64位 Qt Creator 4.13.1 1.背景 项目需求:我们项目中有配置文件(类似.txt,但不是这个格式,本文以…

信息安全:网络安全漏洞防护技术原理与应用.

信息安全:网络安全漏洞防护技术原理与应用. 网络安全漏洞又称为脆弱性,简称漏洞。漏洞一般是致使网络信息系统安全策略相冲突的缺陷,这种缺陷通常称为安全隐患。 安全漏洞的影响主要有机密性受损、完整性破坏、可用性降低、抗抵赖性缺失、可…

Java | Maven(知识点查询)

文章目录 Maven知识速查1. Maven概述2. Maven的作用3. Maven的下载4. Maven的环境配置5. Maven 的基础组成5.1 Maven仓库5.1.1 本地仓库配置:5.1.2 中央仓库配置:5.1.3 镜像仓库配置 5.2 Maven坐标 6. Maven项目6.1 手工创建Maven项目6.2 自动构建项目 7…

【C++】map、set,multiset和multimap的使用及底层原理【完整版】

目录 一、map和set的使用 1、序列式容器和关联式容器 2、set的使用讲解 3、map的使用讲解 二、multiset和multimap 1、multiset和multimap的使用 2、OJ题:前k个高频单词 一、map和set的使用 1、序列式容器和关联式容器 序列式容器:vector/list/s…

【计算机网络】详解TCP协议(上) TCP协议头结构 | ACK确认应答 | 超时重传机制

创作不易&#xff0c;本篇文章如果帮助到了你&#xff0c;还请点赞 关注支持一下♡>&#x16966;<)!! 主页专栏有更多知识&#xff0c;如有疑问欢迎大家指正讨论&#xff0c;共同进步&#xff01; 更多计算机网络知识专栏&#xff1a;计算机网络&#x1f525; 给大家跳段…

ubuntu apt工具软件操作

apt工具 -----> 网关 国内网络(仓库源) 美国网络(仓库源)/etc/apt/sources.list https://mirrors.tuna.tsinghua.edu.cn/help/ubuntu/sudo apt-get update sudo apt install sl 安装包 sudo apt-cache show sl 查看包信…

leetCode 123.买卖股票的最佳时机 III 动态规划 + 状态压缩

123. 买卖股票的最佳时机 III - 力扣&#xff08;LeetCode&#xff09; 给定一个数组&#xff0c;它的第 i 个元素是一支给定的股票在第 i 天的价格。设计一个算法来计算你所能获取的最大利润。你最多可以完成 两笔 交易。 注意&#xff1a;你不能同时参与多笔交易&#xff0…

自定义注解实现Redis分布式锁、手动控制事务和根据异常名字或内容限流的三合一的功能

自定义注解实现Redis分布式锁、手动控制事务和根据异常名字或内容限流的三合一的功能 文章目录 [toc] 1.依赖2.Redisson配置2.1单机模式配置2.2主从模式2.3集群模式2.4哨兵模式 3.实现3.1 RedisConfig3.2 自定义注解IdempotentManualCtrlTransLimiterAnno3.3自定义切面Idempote…

【Spring Cloud】深入探索 Nacos 注册中心的原理,服务的注册与发现,服务分层模型,负载均衡策略,微服务的权重设置,环境隔离

文章目录 前言一、初识 Nacos 注册中心1.1 什么是 Nacos1.2 Nacos 的安装&#xff0c;配置&#xff0c;启动 二、服务的注册与发现三、Nacos 服务分层模型3.1 Nacos 的服务分级存储模型3.2 服务跨集群调用问题3.3 服务集群属性设置3.4 修改负载均衡策略为集群策略 四、根据服务…

c# 中的类

反射 Activator.CreateInstance class Program {static void Main(string[] args){//反射Type t typeof(Student);object o Activator.CreateInstance(t, 1, "FJ");Student stu o as Student;Console.WriteLine(stu.Name);//动态编程dynamic stu2 Activator.Cre…

Quartus医院病房呼叫系统病床呼叫Verilog,源代码下载

名称&#xff1a;医院病房呼叫系统病床呼叫 软件&#xff1a;Quartus 语言&#xff1a;Verilog 要求&#xff1a; 1、用1~6个开关模拟6个病房的呼叫输入信号,1号优先级最高;1~6优先级依次降低; 2、 用一个数码管显示呼叫信号的号码;没信号呼叫时显示0;有多个信号呼叫时,显…

【文献阅读】Pocket2Mol : 基于3D蛋白质口袋的高效分子采样 + CrossDocked数据集说明

Pocket2Mol: Efficient Molecular Sampling Based on 3D Protein Pockets code&#xff1a; GitHub - pengxingang/Pocket2Mol: Pocket2Mol: Efficient Molecular Sampling Based on 3D Protein Pockets 所用数据集 与“A 3D Generative Model for Structure-Based Drug Desi…

CVE-2020-11978 Apache Airflow 命令注入漏洞分析与利用

简介 漏洞软件&#xff1a;Apache Airflow影响版本&#xff1a;< 1.10.10 环境 Vulhub 漏洞测试靶场 复现步骤 进入 /root/vulhub/airflow/CVE-2020-11978/ 目录运行以下命令启动环境 # 初始化数据库 docker compose run airflow-init # 开启服务 docker compose up -…

SEO的优化教程(百度SEO的介绍和优化)

百度SEO关键字介绍&#xff1a; 百度SEO关键字是指用户在搜索引擎上输入的词语&#xff0c;是搜索引擎了解网站内容和相关性的重要因素。百度SEO关键字可以分为短尾词、中尾词和长尾词&#xff0c;其中长尾词更具有针对性和精准性&#xff0c;更易于获得高质量的流量。蘑菇号-…

PMSM——转子位置估算基于QPLL

文章目录 前言仿真模型观测器速度观测位置观测转矩波形电流波形 前言 今后是电机控制方向的研究生的啦&#xff0c;期待有同行互相交流。 仿真模型 观测器 速度观测 位置观测 转矩波形 电流波形

Lua表实现类

--类 Student { name "Holens",age 1,sex true,Say1 function()print(Student.name.."说话了")end,Say2 function(t)print(t.name.."说话了2")end } Student.Say1() print("*************************************")--声明后添加…

数据结构与算法基础-(5)---栈的应用-(1)括号匹配

&#x1f308;write in front&#x1f308; &#x1f9f8;大家好&#xff0c;我是Aileen&#x1f9f8;.希望你看完之后&#xff0c;能对你有所帮助&#xff0c;不足请指正&#xff01;共同学习交流. &#x1f194;本文由Aileen_0v0&#x1f9f8; 原创 CSDN首发&#x1f412; 如…

ESP8266使用记录(四)

放上最终效果 ESP8266&Unity游戏 整合放进了坏玩具车遥控器里 最终只使用了mpu6050的yaw数据&#xff0c;因为roll值漂移…… 使用了https://github.com/ElectronicCats/mpu6050 整个流程 ESP8266取MPU6050数据&#xff0c;处理后通过udp发送给Unity显示出来 MPU6050_Z…