【数据处理】大数据入门

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 前言

2. 大数据

2.1 定义

2.2 大数据的界限

2.3 大数据特点(4V)

3. 数据科学

3.1 定义

3.2 数据处理过程

4 数据分类

4.1 结构化数据

4.2 半结构化数据

4.3 非结构化数据

5. 数据库 

5.1 关系型数据库

5.2 非关系型数据库

5.2.1 题目1:

6. 总结 


1. 前言

本系列专栏·数据处理·针对于我们在处理人工智能问题中遇到的有关数据方面的问题。专栏可能涉及数学原理、代码应用、理论讲解等。

2. 大数据

2.1 定义

定义1:大数据是一种数据规模大到在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工 具处理范围的数据集合

定义2:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)

2.2 大数据的界限

  • 简单查询。数据量为TB至PB级称为大数据
  • 复杂查询。数据量为GB至TB级称为大数据

PB是大数据层次的临界点 

大数据的定义需要考虑数据查询与分析的复杂程序 

2.3 大数据特点(4V)

高时效性:1秒定律

高价值:价值巨大但价值密度低

高数据量:PB称为大数据层次的临界点

高类型数量:关系数据库数据、音频视频数据、结构化数据等

3. 数据科学

1、数据是人工智能的基石

2、数据是基础

3.1 定义

基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科。

3.2 数据处理过程

采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策

4 数据分类

4.1 结构化数据

可以使用关系型数据库表示和存储的数据,拥有固定结构。

结构化数据能够被数据库存储,因为有严格的数据结构和格式的要求 。因此用树结构、通过SQL语句就可以完成存储。

4.2 半结构化数据

弱结构化数据,虽然没有关系型数据库那么严格的结构要求,但是也存在一定的结构。如XML、JSON

4.3 非结构化数据

没有固定数据结构,没有统一格式。如文本、图片、视频、音频等

5. 数据库 

数据:

数据是数据库中存储的基本对象,描述事物的符号记录称为数据。数据的含义称为数据的语义,数据与其语义是不可分的。

数据库(DB):

是长期储存在计算机内、有组织的、可共享的大量数据的集合

数据库管理系统(DBMS):

DBMS是一个大型复杂的基础软件系统,位于用户与操作系统之间的一层数据管理软件。DBMS能够科学地组织和存储数据、高效地获取和维护数据。
DBMS具有数据定义(提供数据库定义语言DDL),数据组织、存储和管理(提供数据操作语言DML),数据库的事务管理和运行管理(安全性等),数据库的建立和维护等功能。

数据库系统(DBS):

数据库系统由数据库、数据库管理系统(及其应用开发工具)、应用程序、数据库管理员四部分构成。

常见数据库:

关系型:MySQL,Oracle

非关系型:Redis,Mongo,Neo4j,Hbase等

5.1 关系型数据库

严格数据结构、格式

1、用二维表数据结构(关系)存储,关系满足一定范式

2、用SQL统一格式统一处理数据

3、SQL类型:DDL、DML、DCL、DQL

类别一:Data Definition Language (DDL) 数据定义语言(create,delete等)

DDL:定义各种表结构

创建: 

create table studeng (sid char(20),cid char(20);
)

删除: 

drop table tb1;

修改: 

alter table test4_02
add avg_score numeric(3,1)

类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
增:

Insert into Students(sid,name,login,age,gpa)
values('111','smith','smith@qq',11,3.3)

删: 

delete from Student S
where S.name='Smith'

改: 

update test4_01 Sset sum_score=(select sum(score)from pub.student_course Twhere S.sid=T.sid)

类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别

类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据) 

【数据库】数据库精选题(三)(SQL语言精选题)(按语句类型分类)_sql高级题目选择题-CSDN博客

优点:

1、数据结构化,管理效率高

2、用户只需指出干什么,不必仔细说怎么干

3、对于事务的支持,有高一致性

5.2 非关系型数据库

NoSQL:非关系型数据库

典型代表有:Redis,Mongo,Neo4j,Hbase

因为本人也没有仔细深入学过NoSQL,所以这里不做展开。

仅仅针对考试题目做一个分析:

5.2.1 题目1:

why NoSQL?

分析:

1. 从数据结构化来说

随着大数据时代的降临,我们面对的不仅仅是结构化数据的存储,还有各种半结构化,非结构化的 数据。

从软件开发角度来说,前期需求不明确,非严格事务性的产品,可以使用NoSQL(MongoDB),因为传统 RDBMS更改表结构的代价较大,结构不灵活。

2. 从读写效率来说

传统RDBMS几乎所有操作都要过磁盘,这是为了保证事务特性带来的巨大开销;但这种开销在新 的Web 2.0中可能是不必要的,起码对于博客系统来说,两个用户短时间内看到的内容不完全一致 不会带来很大影响,所以NoSQL一个重要的思路就是降低一定的一致性【降低支持的事务等级】, 从而获得更高的读写效率,获得更高的可用性和分区容错。

传统RDBMS是不分区的,意味着不支持横向拓展,这会导致硬件上的IO瓶颈;分布式是应对高并 发的重要方案,NoSQL往往都对此提供了强大支持,有自动化分区服务等等。

3. 从海量数据下的查询(读写)来说

传统的RDBMS是行式存储,虽然方便插入数据。但是在没有加入索引时,相当不便于检索,而列式存储,检索效率更高。所以对于海量数据的查询、分析来说,NoSQL性能优于传统SQL处理。

集合运算在Redis上很轻松【内存式,结构简单,很快】,可以进一步提升海量数据的查询。传统的数据库都只能从磁盘中读取

NoSQL:

1、非结构化。可以存储的数据类型更多

2、列式存储。海量结构下的查询效率高

3、分布式。高并发读写性能

4、数据结构性低,耦合性低。修改数据结构代价小

6. 总结 

本文到这里就结束啦~~
如果觉得对你有帮助,辛苦友友点个赞哦~ 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/452843.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

UE小:UE5的Pixelstreaming在捕获画面的时候没办法显示非Viewport的Slate区域按钮的ToolTip

原始代码 首先&#xff0c;让我们看看原始代码片段&#xff1a; // Some widgets might want to provide an alternative Tooltip Handler. if (bCanSpawnNewTooltip || !NewTooltip) {TSharedPtr<SWidget> NewTooltipWidget NewTooltip ? NewTooltip->AsWidget()…

[含文档+PPT+源码等]精品基于springboot实现的原生微信小程序小区兼职系统

基于Spring Boot实现的原生微信小程序小区兼职系统背景&#xff0c;可以从以下几个方面进行阐述&#xff1a; 一、技术背景 移动互联网的普及&#xff1a;随着移动互联网的快速发展&#xff0c;微信小程序作为一种轻量级应用&#xff0c;因其无需下载安装、即用即走的特点&am…

【Next.js 项目实战系列】02-创建 Issue

原文链接 CSDN 的排版/样式可能有问题&#xff0c;去我的博客查看原文系列吧&#xff0c;觉得有用的话&#xff0c;给我的库点个star&#xff0c;关注一下吧 上一篇【Next.js 项目实战系列】01-创建项目 创建 Issue 配置 MySQL 与 Prisma​ 在数据库中可以找到相关内容&…

Greenhills学习总结

学习背景&#xff1a;近期参与xx项目过程中&#xff0c;遇到较多的关于代码集成编译的知识盲区&#xff0c;因此需要进行相关知识的学习和扫盲。 参考资料&#xff1a;GreenHills2017.7编译手册:本手册是GreenHills 2017.7.14版编译器的软件使用手册。该手册详细介绍了GreenHi…

数学中的直觉、联想和抽象漫谈

数学中的直觉、联想和抽象漫谈 直觉、联想和抽象不是孤立存在的&#xff0c;而是相互交织、共同作用的。构成了我们认知理解世界的不可或缺的三种能力。我们应该重视并培养这些思维能力&#xff0c;以更好地适应不断变化的世界。 在数学的世界里&#xff0c;直觉、联想和抽象是…

【每日一题】24.10.14 - 24.10.20

10.14 直角三角形1. 题目2. 解题思路3. 代码实现&#xff08;AC_Code&#xff09; 10.15 回文判定1. 题目2. 解题思路3. 代码实现&#xff08;AC_Code&#xff09; 10.16 二次方程1. 题目2. 解题思路3. 代码实现&#xff08;AC_Code&#xff09; 10.17 互质1. 题目2. 解题思路3…

UE5 gameplay学习1 蓝图修改材质和参数

第一种是直接修改这个材质&#xff0c;比较朴素 这个对象直接Set Material这个很直观就设置了 如果要设置材质的属性&#xff0c;就有一点奇怪了&#xff0c;通常来说get到material就能设置了&#xff0c;这里需要如下操作 create一个dynamic material instance 然后还要指定…

[JAVAEE] 线程安全问题

目录 一. 什么是线程安全 二. 线程安全问题产生的原因 三. 线程安全问题的解决 3.1 解决修改操作不是原子性的问题 > 加锁 a. 什么是锁 b. 没有加锁时 c. 加锁时 d. 死锁 e. 避免死锁 3.2 解决内存可见性的问题 > volatile关键字 (易变的, 善变的) a. 不加…

搭建Golang gRPC环境:protoc、protoc-gen-go 和 protoc-gen-go-grpc 工具安装教程

参考文章&#xff1a; 安装protoc、protoc-gen-go、protoc-gen-go-grpc-CSDN博客 一、简单介绍 本文开发环境&#xff0c;均为 windows 环境&#xff0c;mac 环境其实也类似 ~ ① 编译proto文件&#xff0c;相关插件 简单介绍&#xff1a; protoc 是编译器&#xff0c;用于将…

AUTOSAR_EXP_ARAComAPI的5章笔记(17)

☞返回总目录 相关总结&#xff1a;AutoSar AP CM通信组总结 5.7 通信组 5.7.1 目标 通信组&#xff08;Communication Group&#xff0c;CG&#xff09;是由 AUTOSAR 定义的复合服务模板。它提供了一个通信框架&#xff0c;允许在 AUTOSAR 应用程序之间以对等方式和广播模…

AMBA-CHI协议详解(十)

AMBA-CHI协议详解&#xff08;一&#xff09;- Introduction AMBA-CHI协议详解&#xff08;二&#xff09;- Channel fields / Read transactions AMBA-CHI协议详解&#xff08;三&#xff09;- Write transactions AMBA-CHI协议详解&#xff08;四&#xff09;- Other transac…

【设计模式系列】抽象工厂模式

一、什么是抽象工厂模式 抽象工厂模式&#xff08;Abstract Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;它提供了一个接口&#xff0c;用于创建一系列相关或相互依赖的对象&#xff0c;而无需指定它们具体的类。这种模式允许客户端使用抽象的接口来创建一组…

一小时快速入门Android GPU Inspector

本文介绍如何使用 Android GPU Inspector (AGI) 对Android 应用进行系统性能分析和帧性能分析 。面向熟悉Android图形的开发者。 待分析应用需要的前置条件 (1) 将应用设置为可调试状态 <application [...] android:debuggable"true">&#xff08;2&#xff09…

LabVIEW水质监测系统

在面对全球性的海洋污染问题时&#xff0c;利用先进技术进行水质监测成为了保护海洋环境的关键手段之一。开发了一种基于LabVIEW的海洋浮标水质监测系统&#xff0c;该系统能够实时监测并评估近海水域的水质状况&#xff0c;旨在为海洋保护和污染防治提供科技支持。 项目背景 …

svn-拉取与更新代码

右键项目文件 进行更新与提交代码&#xff0c;提交代码选择更改的文件以及填写commit

电子部授课1

今天下午有院科协的授课&#xff0c;涉及电赛知识&#xff0c;单片机环境构建和模拟方向讲解。感觉要学知识还是很多呜呜呜 这是电赛讲解&#xff0c;主要是五个方面&#xff0c;有一个讲太快了没有听清哈哈哈 后面是全程搜概念的模拟&#xff0c;真的有很多知识不太明白 慌乱…

Java项目-基于springboot框架的会员制医疗预约服务管理信息系统项目实战(附源码+文档)

作者&#xff1a;计算机学长阿伟 开发技术&#xff1a;SpringBoot、SSM、Vue、MySQL、ElementUI等&#xff0c;“文末源码”。 开发运行环境 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringBoot、Vue、Mybaits Plus、ELementUI工具&#xff1a;IDEA/…

云曦10月13日awd复现

一、防御 1、改用户密码 passwd <user> 2、改数据库密码 进入数据库 mysql -uroot -proot 改密码 update mysql.user set passwordpassword(新密码) where userroot; 查看用户信息密码 select host,user,password from mysql.user; 改配置文件&#xff0c;将密码改为自己…

Quartus Ⅱ仿真 1.半加器

真服了&#xff0c;csdn上一搜全是收费&#xff0c;服啦服啦&#xff0c;我就自己来写一个吧 仿真波形&#xff1a; 输出结果&#xff1a; 介绍&#xff1a; 半加器&#xff08;Half Adder&#xff09;是数字电路中的一种基本组件&#xff0c;用于实现两个一位二进制数的加…

基于Leaflet和SpringBoot的全球国家综合检索WebGIS可视化

目录 前言 一、Java后台程序设计 1、业务层设计 2、控制层设计 二、WebGIS可视化实现 1、侧边栏展示 2、空间边界信息展示 三、标注成果展示 1、面积最大的国家 2、国土面积最小的国家 3、海拔最低的国家 4、最大的群岛国家 四、总结 前言 在前面的博文中&#xff…