15(第十四章,大数据和数据科学)

目录

概述

基本概念

数据仓库/传统商务智能与数据科学的比较

数据科学的过程

大数据

大数据来源

数据湖

机器学习

监督学习

无监督学习

强化学习

扩展

1、数据仓库(Data Warehouse)

2、数据湖(Data Lake)

3、大数据平台1.0

4、数据中台

5、数据底座

6、湖仓一体化大数据平台(Data Lakehouse)

7、数据仓库、数据湖和湖仓一体的差异


概述

传统的商务智能(BI)提供“后视镜”式的报告,通过分析结构化的数据展示过去的趋势。

信息收敛三角:

数据科学将数据挖掘、统计分析、机器学习与数据集成整合,结合数据建模能力,去构建预测模型、探索数据内容模式。因为数据分析师或数据科学家会使用一些科学的方法来开发和评估模型,所有开发预测模型有时被称为数据科学。

基本概念

数据仓库/传统商务智能与数据科学的比较

数据仓库/传统商务智能数据科学
描述性分析预测性分析规范性分析
事后结论洞察预见

基于历史:

过去发生了什么?

为什么发生?

基于预测模型:

未来可能会发生什么?

基于场景:

我们该做什么才能保证事情发生?

数据科学的过程

  1. 定义大数据战略和需求
  2. 选择数据源
  3. 获得和接收数据源
  4. 制定数据假设和方法
  5. 集成和调整进行数据分析
  6. 使用模型探索数据
  7. 部署和监控

大数据

早期通过3V来定义大数据的特征:数据量大(Volume)、数据更新快(Velocity)、数据类型多样/可变(Variety)

后来V列表有了更多的扩展:

  1. 数据量大 (Volume)。大数据通常拥有上千个实体或数十亿个记录中的元素。
  2. 数据更新快 (Velocity)。指数据被捕获、生成或共享的速度。大数据通常实时地生成、分发及进行分析。
  3. 数据类型多样/可变(Variety/Variability)。指抓取或传递数据的形式。大数据需要多种格式储存。通常,数据集内或跨数据集的数据结构是不一致的。
  4. 数据黏度大(Viscosity)。指数据使用或集成的难度比较高
  5. 数据波动性大 (Volatility)。指数据更改的频率,以及由此导致的数据有效时间短
  6. 数据准确性低 (Veracity)。指数据的可靠度不高。

大数据来源

来源于结构化数据和非结构化数据。

从上图其实我们能看出来:

数据仓库是面向BI的;

数据科学是面向AI的。

数据湖

数据湖是一种可以提取、存储、评估和分析不同类型和结构海量数据的环境,可供多种场景使用。例如,它可以提供:

  1. 数据科学家可以挖掘和分析数据的环境。
  2. 原始数据的集中存储区域,只需很少量的转换 (如果需要的话)。
  3. 数据仓库明细历史数据的备用存储区域。
  4. 信息记录的在线归档。
  5. 可以通过自动化的模型识别提取流数据的环境。

数据湖的风险在于,它可能很快会变成数据沼泽一一杂乱、不干净、不一致。为了建立数据湖中的内容清单,在数据被摄取时对元数据进行管理至关重要。

机器学习

预测分析是有监督学习的子领域,规范分析比预测分析更进一步。

监督学习

基于通用规则,例如将SPAM邮件与非SPAM邮件区分开,这种结果是有限制的,刚刚那个例子,结果就是“是”或“否”。

无监督学习

基于找到的哪些隐藏的规律(数据挖掘),结果是无限的,例如让他去预测明年的销售业绩是多少这种。

强化学习

基于目标的实现,例如让他在国际象棋中击败对手。

扩展

我们凑这篇文章,介绍下数据仓库、大数据平台、数据湖、数据中台、数据底座、湖仓一体化大数据平台的差异。

1、数据仓库(Data Warehouse)

听过很多次了,数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。数据仓库是数据库的一种概念上的升级,可以说是为满足新需求而设计的一种新数据库,能容纳更加庞大的数据集

2、数据湖(Data Lake)

数据湖是将来自不同数据源、不同数据类型(结构化、半结构化、非结构化)的数据,以原始格式存储进行存储的系统,并按原样存储数据,而无需事先对数据进行结构化处理。是各种原始数据的集合(不产生数据),原则上不对数据进行清洗、整合(不能对业务数据进行修改),入湖数据需要进行注册(经过流程制度的处理,如确定数据Owner,满足要求)。

3、大数据平台1.0

个性化、多样化数据,以处理海量数据存储、计算及流数据实时计算等场景为主的一套基础设施,以 Hadoop、Spark、Hive 等作为大数据基础能力层,在大数据组件上搭建包括数据分析、机器学习程序等 ETL 流水线,另外可以包括数据仓库系统等核心功能。

4、数据中台

阿里提出的中国本地的一个概念,数据中台是企业级数据能力共享平台,提供企业级数据服务,实现数据共享。数据通过分层与水平解耦,经过汇聚、存储、整合、分析、加工,沉淀公共的数据能力,再经过服务封装,形成通用的调用接口,为前端应用提供数据服务调用,支撑前端应用敏捷迭代和快速构建。数据直接用于业务链路和交易场景, 服务更多业务。数据中台不是一个标准化的产品,是一整套策略和解决方案的集合。

5、数据底座

数据底座是企业统一的数据平台,是数据的逻辑集合,由数据湖和数据主题联接两层构成,集成公司内部各个业务系统数据及外部数据,为业务可视、分析、决策等数据消费提供数据服务。数据底座由数据湖和数据主题联接构成。

6、湖仓一体化大数据平台(Data Lakehouse)

是新兴起的一种数据架构,它同时吸收了数据仓库和数据湖的优势,数据分析师和数据科学家可以在同一个数据存储中对数据进行操作,同时它也能为公司进行数据治理带来更多的便利性。就是把面向企业的数据仓库技术与数据湖存储技术相结合,为企业提供一个统一的、可共享的数据底座。

大数据平台1.0+数据中台的功能+数据运营的功能=大数据平台2.0=湖仓一体化大数据平台(简称大数据平台)

7、数据仓库、数据湖和湖仓一体的差异

数据仓库、数据湖和湖仓一体之间的差异主要体现在以下几点。

  • (1)数据类型:数据仓库内部高度结构化且多为关系型数据库,一般只支持在入仓前完成处理工作的结构化数据存储;数据湖可包容开放的数据类型,但其主要存储原始格式的数据,数据加工处理属于额外工作;湖仓一体存储所有类型的已处理和原格式数据。 
  • (2)采集过程:数据仓库的写时模式需在数据入仓前预先建模,并按照既定的ETL模式,以专属格式导入;数据湖的读时模式在数据入湖后按需定义架构,湖中数据以开放格式存在以适应多变的业务需求,ELT;湖仓一体同时支持预定义数据和开放数据导入以及需求导向的数据加工转换。 
  • (3)访问方式:数据仓库内的数据访问以SQL(Structured Query Language)为主,用户可以获取具有专属格式的数据;数据湖和湖仓一体配置大量开放API,可支持对数据的直接读取,读取方式包括SQL、 R、Python等语言,湖仓一体同时支持原格式和处理后数据的访问。 
  • (4)可靠性和安全性:数据仓库发展较为成熟,基于其高度结构化的管理能力,可实现高质量和安全性的数据存储;数据湖内部数据具有多源异构性,尚未形成有效治理策略,易导致数据沼泽,这也是其当前面临的最大挑战;湖仓一体在湖存储机制上添加数据仓库管理功能和数据安全保障机制,可显著提高数据可靠性和安全性。
  • (5)适用场景:数据仓库适用于BI(Business Intelligence)、SQL应用和报告等;数据湖适用于数据科学和机器学习,二者仅支持有限应用场景;湖仓一体可同时满足SQL分析需求和数据科学、机器学习等高级分析需求,且支持直接在原始数据上应用各类分析工具,以及对流数据的持续处理和实时分析。
数据类型采集过程访问方式可靠性和安全性使用场景
数据仓库结构化、已处理数据写时模式SQL为主,支持API数据质量高、安全性高BI
数据湖结构化、半结构化、非结构化原始数据读时模式开放API数据质量低、安全性低、易形成数据沼泽AI
数仓一体结构化、半结构化、非结构化原始数据写时模式、读时模式开放API数据质量高、安全性高丰富场景

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/317257.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

外贸企业邮箱是什么?Zoho Mail——你的专业外贸邮局

外贸企业邮箱是什么?做外贸行业必须要有企业邮箱吗?这是一些外贸企业的困惑。外贸企业邮箱和我们平时使用的个人邮箱有着几方面的不同。一是安全稳定;二是功能丰富性;三是存储空间更大。Zoho Mail企业邮箱在这些方面都能满足外贸企…

OpenCV如何实现背投(58)

返回:OpenCV系列文章目录(持续更新中......) 上一篇:OpenCV直方图比较(57) 下一篇:OpenCV如何模板匹配(59) 目标 在本教程中,您将学习: 什么是背投以及它为什么有用如何使用 OpenCV 函数 cv::calcBackP…

Java 获取 Outlook 邮箱的日历事件

Java 获取 Outlook 邮箱的日历事件 1.需求描述2.实现方案3.运行结果 IDE:IntelliJ IDEA 2022.3.3 JDK:1.8.0_351 Outlook:Microsoft Office 2016 1.需求描述 比如现在需要获取 Outlook 邮箱中四月的全部的会议安排,如下图所示 …

简单谈谈URL过滤在网络安全中的作用

用户花在网络上的时间越来越多,浏览他们最喜欢的网站,点击电子邮件链接,或利用各种基于网络的 SaaS 应用程序供个人和企业使用。虽然这种不受约束的网络活动对提高企业生产力非常有用,但也会使组织面临一系列安全和业务风险&#…

STM32G030F6P6TR 芯片TSSOP20 MCU单片机微控制器芯片

STM32G030F6P6TR 在物联网(IoT)设备中的典型应用案例包括但不限于以下几个方面: 1. 环境监测系统: 使用传感器来监测温度、湿度、气压等环境因素,并通过无线通信模块将数据发送到中央服务器或云端平台进行分析和监控。…

Windows之隐藏特殊文件夹(自定义快捷桌面程序)

作者主页:点击! 创作时间:2024年5月1日12点55分 祝大家劳动节快乐~ Windows中的特殊文件夹是指一些预定义的文件夹,用于存储特定类型的数据或文件。这些文件夹通常由操作系统或应用程序使用,但用户也可以访问和管理它…

selenium 4.x 入门(环境搭建、八大元素定位)

背景 Web自动化测现状 1. 属于 E2E 测试 2. 过去通过点点点 3. 好的测试,还需要记录、调试网页的细节 一、selenium4.x环境搭建 一键搭建 pip3 install webdriver-helper 有建议要 1.0.1 版本的,但本人按上面的是可以正常使用(看…

【docker 】Windows10安装 Docker

安装 Hyper-V Hyper-V 是微软开发的虚拟机,仅适用于 Windows 10。 按键: win键X ,选着程序和功能 在查找设置中输入:启用或关闭Windows功能 选中Hyper-V 点击确定 安装 Docker Desktop for Windows Docker Desktop 官方下载…

013、Python+fastapi,第一个后台管理项目走向第13步:建立python+fastapi项目,创建cache模块

一、说明 在今天学习RuoYi-Vue3-FastAPI的代码过程中,我遇到了几个问题,下面说说自己的感想 二、自定义的log装饰器 源码中是log_annotation.py,代码也没什么好说的,这个知识点到处都是文章,可以在csdn上搜索学习&a…

数据结构—C语言实现双向链表

目录 1.双向带头循环链表 2.自定义头文件: 3.List.cpp 文件 3.1 newnode()函数讲解 3.2 init() 函数 初始化 3.3 pushback()函数 尾插 3.4 pushfront()函数 头插 3.5 popback() 尾删 3.6 popfront() 函数 头删 3.7 insert()函数 在pos之后插入 3.8 popbac…

ZooKeeper 环境搭建详细教程之三(真集群)

ZooKeeper 搭建详细步骤之三(真集群) ZooKeeper 搭建详细步骤之二(伪集群模式) ZooKeeper 搭建详细步骤之一(单机模式) ZooKeeper 及相关概念简介 真集群搭建 搭建 ZooKeeper 真集群涉及多个步骤,包括准备环境、配置文件设置、启动服务以及验证集群状态。 以下是一个简…

AC+AP三层组网实验(华为)

一,技术简介 APAC架构是一种常见的无线局域网(WLAN)组网方式,主要由接入点(Access Point,简称AP)和接入控制器(Access Controller,简称AC)组成。 在APAC架构…

PotatoPie 4.0 实验教程(25) —— FPGA实现摄像头图像直方图均衡变换

图像的直方图均衡是什么? 图像的直方图均衡是一种用于增强图像对比度的图像处理技术。在直方图均衡中,图像的像素值被重新分配,以使得图像的直方图变得更均匀,即各个像素值的分布更加平衡。这意味着直方图中每个像素值的频率大致…

免费ChatGPT合集——亲测免费

1、YesChat 无需登录 网址:YesChat-ChatGPT4V Dalle3 Claude 3 All in One Freehttps://www.yeschat.ai/ 2. 讯飞星火 要登录 讯飞星火大模型-AI大语言模型-星火大模型-科大讯飞 3.通义千问 要登录 通义我是通义,一个专门响应人类指令的…

【webrtc】MessageHandler 5: 基于线程的消息处理:以PeerConnection信令线程为例

peerconn的信令是通过post 消息到自己的信令线程消息来处理的PeerConnectionMessageHandler 是具体的处理器G:\CDN\rtcCli\m98\src\pc\peer_connection_message_handler.hMachinery for handling messages posted to oneself PeerConnectionMessageHandler 明确服务于 signalin…

什么是域名解析?域名解析的完整流程是什么?如何清理DNS缓存?(附源码)

目录 1、什么是域名? 2、为什么使用域名? 3、域名解析的完整流程 4、调用gethostbyname系统接口将域名解析成IP地址 5、为什么需要清理系统DNS缓存? 6、使用cmd命令清理DNS缓存 7、通过代码去清除系统DNS缓存 C软件异常排查从入门到精…

Eagle for Mac:强大的图片管理工具

Eagle for Mac是一款专为Mac用户设计的图片管理工具,旨在帮助用户更高效、有序地管理和查找图片资源。 Eagle for Mac v1.9.2中文版下载 Eagle支持多种图片格式,包括JPG、PNG、GIF、SVG、PSD、AI等,无论是矢量图还是位图,都能以清…

Orange3数据可视化(树查看器-决策树)

树视图 分类和回归树的可视化。 输入 树:决策树 输出 选中的数据:从树节点中选中的实例 数据:带有额外一列,显示每个点是否被选中 这是一个多功能的小部件,用于展示分类和回归树的2D可视化。用户可以选择一个节点…

吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.11-1.12

目录 第二门课: 改善深层神经网络:超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第一周:深度学习的 实践层面 (Practical aspects of Deep Learning)1.11 神经网络的权重…

Aker(安碁科技)晶振产品应用和选型

一、石英晶体振荡器简介 在电子电路系统中,特定的动作需要严格按照一定的顺序进行,以确保数据被正确处理和操作,时钟信号就成了系统工作的重要引导者。而且在多模块复杂电路系统中,为了确保不同功能模块能协调一致地工作&#xf…