【数据科学导论】第一二章·大数据与数据表示与存储

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀数据处理与分析_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 前言

2. 大数据

2.1 大数据入门

2.1.1 定义

2.1.2 大数据的界限

2.1.3 大数据特点(4V)

2.2 数据科学

2.2.1 大数据与数据科学

2.2.2 定义

2.2.3 数据处理过程

3. 数据的表示与存储

3.1 数据分类与表示

3.1.1 结构化数据

3.1.2 半结构化数据

3.1.3 非结构化数据

3.2 数据存储

3.2.1 结构化数据的存储

3.2.1.1 结构化数据存储在哪里

3.2.1.2 结构化数据存储的手段

使用 DISTINCT 去重查询结果中的单个列,返回唯一的值

使用 DISTINCT 去重查询结果中的多个列,返回满足多列组合唯一的结果。

3.2.1.3 结构化数据存储的优化

3.2.2 非结构化数据存储

3.2.2.1 MongoDb

3.2.2.2 Neo4j

3.2.2.3 Redits

3.2.2.4 HBase

3.2.2.5 NoSQL总结(必背)

4. 总结


1. 前言

【数据处理与分析】专栏主要专注于数据处理和数据分析。

专栏中的【数据科学导论】部分是对整个大数据科学所有技术(包括数据处理、数据分析)的一个概论,适用于想要快速入门大数据的友友们🥰🥰~~~

【数据科学导论】整体学习脉络:

  1. 数据科学导论——研究数据科学
  2. 数据科学——研究大数据处理
  3. 大数据处理过程——采集、表示与存储、预处理、建模分析、可视化、决策
  4. 大数据处理过程指导数据科学导论内容

【数据科学导论】持续更新中🎢🎢🎢 

2. 大数据

2.1 大数据入门

2.1.1 定义

定义1:大数据是一种数据规模大到在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工 具处理范围的数据集合

定义2:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)

2.1.2 大数据的界限

  • 简单查询。数据量为TB至PB级称为大数据
  • 复杂查询。数据量为GB至TB级称为大数据

PB是大数据层次的临界点 

大数据的定义需要考虑数据查询与分析的复杂程序 

2.1.3 大数据特点(4V)

高时效性:1秒定律

高价值:价值巨大但价值密度低

高数据量:PB称为大数据层次的临界点

高类型数量:关系数据库数据、音频视频数据、结构化数据等

2.2 数据科学

2.2.1 大数据与数据科学

1、数据是人工智能的基石

2、数据是基础

2.2.2 定义

基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科。

数据科学是一门专门处理大数据的学科

2.2.3 数据处理过程

采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策

【数据科学导论】整体学习脉络:

  1. 数据科学导论——研究数据科学
  2. 数据科学——研究大数据处理
  3. 大数据处理过程——采集、表示与存储、预处理、建模分析、可视化、决策
  4. 大数据处理过程指导数据科学导论内容

3. 数据的表示与存储

3.1 数据分类与表示

3.1.1 结构化数据

可以使用关系型数据库表示和存储的数据,拥有固定结构。

结构化数据能够很好被数据库存储:

  • 有严格的数据结构和格式的要求。
  • 因此用树结构就可以在磁盘中很好的完成存储、查询和处理。

3.1.2 半结构化数据

弱结构化数据,虽然没有关系型数据库那么严格的结构要求,但是也存在一定的结构。如XML、JSON

3.1.3 非结构化数据

没有固定数据结构,没有统一格式。如文本、图片、视频、音频等

3.2 数据存储

3.2.1 结构化数据的存储

3.2.1.1 结构化数据存储在哪里

对于结构化数据可以直接存储在关系数据库中

结构化数据——》有很强结构性——》可以转化为关系结构——》存储在关系数据库 

具体解释如下:

数据库:有组织、可共享的大量数据集合 

数据库管理系统:对数据库的管理,位于用户和操作系统之间。

优点:

1、数据结构化,管理效率高

2、用户只需指出干什么,不必仔细说怎么干

3、对于事务的支持,有高一致性

3.2.1.2 结构化数据存储的手段

利用SQL语言完成结构化数据的存储,具体SQL语言介绍

类别一:Data Definition Language (DDL) 数据定义语言(create,delete等)

DDL:定义各种表结构

创建: 

create table studeng (sid char(20),cid char(20);
)

删除: 

drop table tb1;

修改: 

alter table test4_02
add avg_score numeric(3,1)

类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
增:

Insert into Students(sid,name,login,age,gpa)
values('111','smith','smith@qq',11,3.3)

删: 

delete from Student S
where S.name='Smith'

改: 

update test4_01 Sset sum_score=(select sum(score)from pub.student_course Twhere S.sid=T.sid)

类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别

类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据) 

SELECT	DISTINCT age FROM students
使用 DISTINCT 去重查询结果中的单个列,返回唯一的值
SELECT	DISTINCT NAME,age,score FROM students
使用 DISTINCT 去重查询结果中的多个列,返回满足多列组合唯一的结果。
-- 1. LEFT JOIN: 左连接,返回左表(employees)所有记录,以及右表(departments)中连接字段相等的记录
SELECT e.employee_id, e.name, e.department_id, d.department_name
FROM employees e
LEFT JOIN departments d
ON e.department_id = d.department_id;-- 2. RIGHT JOIN: 右连接,返回右表(departments)所有记录,以及左表(employees)中连接字段相等的记录
SELECT e.employee_id, e.name, e.department_id, d.department_name
FROM employees e
RIGHT JOIN departments d
ON e.department_id = d.department_id;-- 3. INNER JOIN: 内连接,只返回两个表中连接字段相等的记录
SELECT e.employee_id, e.name, e.department_id, d.department_name
FROM employees e
INNER JOIN departments d
ON e.department_id = d.department_id;-- 4. FULL JOIN: 外连接,返回两个表中的所有行,左连接 + 右连接
SELECT e.employee_id, e.name, e.department_id, d.department_name
FROM employees e
FULL JOIN departments d
ON e.department_id = d.department_id;-- 5. NATURAL JOIN: 自然连接,自动根据两个表中的同名列进行连接
SELECT e.employee_id, e.name, e.department_id, d.department_name
FROM employees e
NATURAL JOIN departments d;

left join : 左连接,返回左表中所有的记录以及右表中连接字段相等的记录。
right join : 右连接,返回右表中所有的记录以及左表中连接字段相等的记录。
inner join(join) : 内连接,又叫等值连接,只返回两个表中连接字段相等的行。
full join : 全连接,返回两个表中的行:left join + right join。

natural join:自然连接,自动匹配同列名的数据。


3.2.1.3 结构化数据存储的优化

对数据库设计的研究

问题:存在冗余

严格按照范式要求来设计数据库的表格

问题:严格保证关系的有效性

只有满足这三个完整性,才可以说数据库的设计是合适的

问题:数据库查询效率 

3.2.2 非结构化数据存储

非结构化数据或者半结构化数据并没有结构化数据那种强结构化的特性。因此不能转化为关系来处理,不能使用关系型数据库。

非关系数据库(NoSQL)应运而生!!😍😍

非关系数据库是一系列针对不同非结构化数据存储的数据库,而不是单单一种数据库,

非关系型数据库有:

3.2.2.1 MongoDb

3.2.2.2 Neo4j

专门用于存储图数据——图数据是关系型数据,数据之间存在很强烈的联系(关系)。

这个关系和关系型数据库的关系是不同的!!

图数据用关系型数据库存储非常复杂(关系种类会很多),同时不是所有节点之间都是全连接的,因此存在很多冗余。

图数据库的优点:

  1. 图数据库直接以图的形式存储图数据(不用对数据进行转化)
  2. 利用图论的知识来做查询
3.2.2.3 Redits

3.2.2.4 HBase

3.2.2.5 NoSQL总结(必背)

1、为什么需要NoSQL数据库?

  • 从数据类型来说:大数据时代来临,我们面对的数据除了结构化的数据还有非结构化、半结构化的数据。这些数据用关系数据库来存储效果很差。
  • 从高并发读写来说:传统的关系数据库为了保证事务特性,每次操作都做了很多限制(例如上锁等),这会降低访问数据库的效率。但是在很多情况下事务是不一定要保证的,例如两个用户短时间内看的博客内容不同是不重要的(当然,事务对于银行取钱这很重要)。NoSQL不保证事务特性,从而提高了并发处理的性能;Redit数据库使用了内存做缓存的方法提高了并发处理速度;NoSQL很多都支持分分布式存储和计算,提高并发处理的性能。
  • 从数据量来说:但数据量很大时,针对条件的查询在SQL下会很消耗成本,但是使用HBase列存储效果就很好;当数据量大时,分布式并发处理的效果比SQL的单独处理更好;集合运算在Redits上很快,图运算在Neo4j上处理很快。

2、几种NoSQL的应用场景?

3、NoSQL通用性特点

  • 分布式,很好应对数据量大,高并发读写的要求。
  • 数据量大,选择性存储一些信息,从而提高整体存储数据量的值。
  • 结构性低,数据结构修改代价小。

4. 总结

本文到这里就结束啦~~

期待您的关注~~🥰🥰

猫猫陪你永远在路上💪💪

如果觉得对你有帮助,辛苦友友点个赞哦~ 

下一篇我们将进入 数据预处理 部分~~~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/494450.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

问题解决:发现Excel中的部分内容有问题。是否让我们尽量尝试恢复? 如果您信任此工作簿的源,请单击“是”。

在开发同步导出功能是遇到了如标题所示的问题,解决后遂记录下来供大家参考。 RestController public class XxxController {PostMapping("/export")public BaseResponse export(RequestBody PolicyErrorAnalysisExportReq exportReq, HttpServletRespons…

软件设计与体系结构

1.简要说明什么是软件体系结构,软件体系结构模型,为什么要建立软件体系结构模型? 答:软件体系结构指一个软件系统在高层次上的结构化组织方式,包括系统的组成部分和各个部分之间的关系,以及它们与环境之间的…

开发手札:CameraRTS精准性优化

虽然三维软件提供了基本的物体RTS操作,但是对于用户来说过于复杂。 这些操作方式需要用户理解什么是三维空间、XYZ坐标系、欧拉角等。但是用户视角下,就一个二维屏幕动来动去的鼠标光标。 之前写过一套RTM组件,RTM组件&#xff0…

高级的SQL查询技巧有哪些?

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于高级SQL查询技巧方面的相关内容&#xf…

helm的介绍和安装

1 helm概述 1.1 资源对象难以管理的问题 helm是k8s资源清单的管理工具,它就像Linux下的包管理器,比如centos的yum,ubuntu的apt helm:命令行工具,主要用于k8s的chart的创建,打包,发布和管理。…

专业的内外网数据交换方案 可解决安全、效率、便捷3大问题

内外网数据交换是很多企业和行业都会面临的场景,既然隔离了内外网,重中之重就是要确保数据的安全性,其次在数据流转交换过程中,不能太繁琐复杂,需要让用户快速、便捷的进行数据交换。首先我们来看看,在进行…

2024 楚慧杯 re wp

go_bytes 附件拖入ida 输入长度为0x28,每两位字符的4bit拼接 与一个常量值经过运算后的值进行异或,并且判断是否相等 脚本 bouquet 附件拖入ida。简单去一下花 构建了一个二叉树,然后递归调用函数 重新排列一下再层序遍历读出即可 zistel 附件…

BERT模型入门(1)BERT的基本概念

文章目录 BERT是Bidirectional Encoder Representations from Transformers的首字母简写,中文意思是:Transformer的双向编码器表示。它是谷歌发布的最先进的嵌入模型。BERT在许多NLP任务中提供了更好的结果,如问答、文本生成、句子分类等&…

ECharts关系图-关系图11,附视频讲解与代码下载

引言: 关系图(或称网络图、关系网络图)在数据可视化中扮演着至关重要的角色。它们通过节点(代表实体,如人、物体、概念等)和边(代表实体之间的关系或连接)的形式,直观地…

java全栈day19--Web后端实战(java操作数据库3)

一、MyBatis 1.1介绍 前提引入: controller(控制层)作用:接受请求,响应数据 service(业务层)作用:负责具体的逻辑处理 dao(持久层)作用:数据访问层 一般的访问流程:浏览器发起请求过来,先…

Hmsc包开展群落数据联合物种分布模型分析通用流程(Pipelines)

HMSC(Hierarchical Species Distribution Models)是一种用于预测物种分布的统计模型。它在群落生态学中的应用广泛,可以帮助科学家研究物种在不同环境条件下的分布规律,以及预测物种在未来环境变化下的潜在分布范围。 举例来说&a…

PostgreSQL 的历史

title: PostgreSQL 的历史 date: 2024/12/23 updated: 2024/12/23 author: cmdragon excerpt: PostgreSQL 是一款功能强大且广泛使用的开源关系型数据库管理系统。其历史可以追溯到1986年,当时由加州大学伯克利分校的一个研究团队开发。文章将深入探讨 PostgreSQL 的起源、…

CSPM认证最推荐学习哪个级别?

一、什么是CSPM? CSPM的全称是Certified Strategic Project Manager,中文名称为“项目管理专业人员能力评价等级证书”。这是由中国标准化协会依据国家标准《项目管理专业人员能力评价要求》(GB/T 41831-2022)推出的一项认证&…

车载网关性能 --- GW ECU报文(message)处理机制的技术解析

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 所谓鸡汤,要么蛊惑你认命,要么怂恿你拼命,但都是回避问题的根源,以现象替代逻辑,以情绪代替思考,把消极接受现实的懦弱,伪装成乐观面对不幸的…

IT运维的365天--021 服务器上的dns设置后不起作用

之前在内网搭建了一个和外网同域名的网站,开发同事今天告诉我,程序调试发现可能服务器不能正常访问自己内网的网站内容。于是,今天的故事开始了。 前面的文章在下面列出,当然不看也问题不大,今天的主题是:…

任务2 配置防火墙firewalld

基本概念 概述 支持动态更新防火墙规则 不重启即可创建、修改和删除规则 使用区域和服务来简化防火墙配置 区域 一组预定义的规则,防火墙策略集合(或策略模板) 把网络分配到不同的区域中,并为网络及其关联的网络接口或流量源…

FPGA(一)verilog语句基础

Verilog 是一种硬件描述语言(HDL),常用于数字电路的设计、模拟和验证,特别是用于 FPGA 和 ASIC 的设计。Verilog 让设计者能够描述和模拟硬件系统的行为和结构,最终将其转化为硬件电路。 一、模块结构 Verilog 中的设计…

Asp.Net FrameWork 4.7.2 WebAPI 使用WebSocket协议

参考文章:Asp.net webApi 通过WebSocket推送消息给客户端,搭建一个即是服务端又是客户端的服务_c# webapi websocket-CSDN博客 WebSocket是一种在单个TCP连接上进行全双工通信的协议。WebSocket通信协议于2011年被IETF定为标准RFC 6455,并由…

网关的国际化改造

网关的国际化改造和web服务的改造有所不同。 问题 SpringCloud Gateway是基于reactor模型的,按照SpringBoot那套以及所尝试网上以及AI的i18n国际化方案,都没有成功。 解决问题 基本思路跟SpringBoot项目的i18n一样 通过MessageSource加载messages国际…

数据分析思维(五):分析方法——假设检验分析方法

数据分析并非只是简单的数据分析工具三板斧——Excel、SQL、Python,更重要的是数据分析思维。没有数据分析思维和业务知识,就算拿到一堆数据,也不知道如何下手。 推荐书本《数据分析思维——分析方法和业务知识》,本文内容就是提取…