【数据处理】大数据入门

🌈 个人主页：十二月的猫-CSDN博客
🔥 系列专栏： 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步，十二点的黑夜遮蔽不住黎明的曙光

1. 前言

2. 大数据

2.1 定义

2.2 大数据的界限

2.3 大数据特点（4V）

3. 数据科学

3.1 定义

3.2 数据处理过程

4 数据分类

4.1 结构化数据

4.2 半结构化数据

4.3 非结构化数据

5. 数据库

5.1 关系型数据库

5.2 非关系型数据库

5.2.1 题目1：

6. 总结

1. 前言

本系列专栏·数据处理·针对于我们在处理人工智能问题中遇到的有关数据方面的问题。专栏可能涉及数学原理、代码应用、理论讲解等。

2. 大数据

2.1 定义

定义1：大数据是一种数据规模大到在数据的获取管理，存储处理，分析计算都远远超过传统数据库软件工具处理范围的数据集合

定义2：大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合（维基百科）

2.2 大数据的界限

简单查询。数据量为TB至PB级称为大数据
复杂查询。数据量为GB至TB级称为大数据

PB是大数据层次的临界点

大数据的定义需要考虑数据查询与分析的复杂程序

2.3 大数据特点（4V）

高时效性：1秒定律

高价值：价值巨大但价值密度低

高数据量：PB称为大数据层次的临界点

高类型数量：关系数据库数据、音频视频数据、结构化数据等

3. 数据科学

1、数据是人工智能的基石

2、数据是基础

3.1 定义

基于传统的数学，统计学的理论和方法，运用计算机技术进行大规模的数据计算，分析，应用的学科。

3.2 数据处理过程

采集，表示与存储，预处理（清洗，集成等），建模分析，可视化，决策

4 数据分类

4.1 结构化数据

可以使用关系型数据库表示和存储的数据，拥有固定结构。

结构化数据能够被数据库存储，因为有严格的数据结构和格式的要求。因此用树结构、通过SQL语句就可以完成存储。

4.2 半结构化数据

弱结构化数据，虽然没有关系型数据库那么严格的结构要求，但是也存在一定的结构。如XML、JSON

4.3 非结构化数据

没有固定数据结构，没有统一格式。如文本、图片、视频、音频等

5. 数据库

数据：

数据是数据库中存储的基本对象，描述事物的符号记录称为数据。数据的含义称为数据的语义，数据与其语义是不可分的。

数据库（DB）：

是长期储存在计算机内、有组织的、可共享的大量数据的集合

数据库管理系统（DBMS）：

DBMS是一个大型复杂的基础软件系统，位于用户与操作系统之间的一层数据管理软件。DBMS能够科学地组织和存储数据、高效地获取和维护数据。
DBMS具有数据定义（提供数据库定义语言DDL），数据组织、存储和管理（提供数据操作语言DML），数据库的事务管理和运行管理（安全性等），数据库的建立和维护等功能。

数据库系统（DBS）：

数据库系统由数据库、数据库管理系统（及其应用开发工具）、应用程序、数据库管理员四部分构成。

常见数据库：

关系型：MySQL，Oracle

非关系型：Redis，Mongo，Neo4j，Hbase等

5.1 关系型数据库

严格数据结构、格式

1、用二维表数据结构（关系）存储，关系满足一定范式

2、用SQL统一格式统一处理数据

3、SQL类型：DDL、DML、DCL、DQL

类别一：Data Definition Language (DDL) 数据定义语言(create,delete等)

DDL：定义各种表结构

创建：

create table studeng (sid char(20),cid char(20);
)

删除：

drop table tb1;

修改：

alter table test4_02
add avg_score numeric(3,1)

类别二：Data Manipulation Language (DML) 数据操作语言（增删改查）
增：

Insert into Students(sid,name,login,age,gpa)
values('111','smith','smith@qq',11,3.3)

删：

delete from Student S
where S.name='Smith'

改：

update test4_01 Sset sum_score=(select sum(score)from pub.student_course Twhere S.sid=T.sid)

类别三： Data Control Language（DCL）：数据控制语言，用来定义访问权限和安全级别

类别四：Data Query Language（DQL）：数据查询语言，用来查询记录（数据）

【数据库】数据库精选题（三）（SQL语言精选题）（按语句类型分类）_sql高级题目选择题-CSDN博客

优点：

1、数据结构化，管理效率高

2、用户只需指出干什么，不必仔细说怎么干

3、对于事务的支持，有高一致性

5.2 非关系型数据库

NoSQL：非关系型数据库

典型代表有：Redis，Mongo，Neo4j，Hbase

因为本人也没有仔细深入学过NoSQL，所以这里不做展开。

仅仅针对考试题目做一个分析：

5.2.1 题目1：

why NoSQL？

分析：

1. 从数据结构化来说

随着大数据时代的降临，我们面对的不仅仅是结构化数据的存储，还有各种半结构化，非结构化的数据。

从软件开发角度来说，前期需求不明确，非严格事务性的产品，可以使用NoSQL（MongoDB），因为传统 RDBMS更改表结构的代价较大，结构不灵活。

2. 从读写效率来说

传统RDBMS几乎所有操作都要过磁盘，这是为了保证事务特性带来的巨大开销；但这种开销在新的Web 2.0中可能是不必要的，起码对于博客系统来说，两个用户短时间内看到的内容不完全一致不会带来很大影响，所以NoSQL一个重要的思路就是降低一定的一致性【降低支持的事务等级】，从而获得更高的读写效率，获得更高的可用性和分区容错。

传统RDBMS是不分区的，意味着不支持横向拓展，这会导致硬件上的IO瓶颈；分布式是应对高并发的重要方案，NoSQL往往都对此提供了强大支持，有自动化分区服务等等。

3. 从海量数据下的查询（读写）来说

传统的RDBMS是行式存储，虽然方便插入数据。但是在没有加入索引时，相当不便于检索，而列式存储，检索效率更高。所以对于海量数据的查询、分析来说，NoSQL性能优于传统SQL处理。

集合运算在Redis上很轻松【内存式，结构简单，很快】，可以进一步提升海量数据的查询。传统的数据库都只能从磁盘中读取