🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光
目录
1. 前言
2. 大数据
2.1 定义
2.2 大数据的界限
2.3 大数据特点(4V)
3. 数据科学
3.1 定义
3.2 数据处理过程
4 数据分类
4.1 结构化数据
4.2 半结构化数据
4.3 非结构化数据
5. 数据库
5.1 关系型数据库
5.2 非关系型数据库
5.2.1 题目1:
6. 总结
1. 前言
本系列专栏·数据处理·针对于我们在处理人工智能问题中遇到的有关数据方面的问题。专栏可能涉及数学原理、代码应用、理论讲解等。
2. 大数据
2.1 定义
定义1:大数据是一种数据规模大到在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工 具处理范围的数据集合
定义2:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)
2.2 大数据的界限
- 简单查询。数据量为TB至PB级称为大数据
- 复杂查询。数据量为GB至TB级称为大数据
PB是大数据层次的临界点
大数据的定义需要考虑数据查询与分析的复杂程序
2.3 大数据特点(4V)
高时效性:1秒定律
高价值:价值巨大但价值密度低
高数据量:PB称为大数据层次的临界点
高类型数量:关系数据库数据、音频视频数据、结构化数据等
3. 数据科学
1、数据是人工智能的基石
2、数据是基础
3.1 定义
基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科。
3.2 数据处理过程
采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策
4 数据分类
4.1 结构化数据
可以使用关系型数据库表示和存储的数据,拥有固定结构。
结构化数据能够被数据库存储,因为有严格的数据结构和格式的要求 。因此用树结构、通过SQL语句就可以完成存储。
4.2 半结构化数据
弱结构化数据,虽然没有关系型数据库那么严格的结构要求,但是也存在一定的结构。如XML、JSON
4.3 非结构化数据
没有固定数据结构,没有统一格式。如文本、图片、视频、音频等
5. 数据库
数据:
数据是数据库中存储的基本对象,描述事物的符号记录称为数据。数据的含义称为数据的语义,数据与其语义是不可分的。
数据库(DB):
是长期储存在计算机内、有组织的、可共享的大量数据的集合
数据库管理系统(DBMS):
DBMS是一个大型复杂的基础软件系统,位于用户与操作系统之间的一层数据管理软件。DBMS能够科学地组织和存储数据、高效地获取和维护数据。
DBMS具有数据定义(提供数据库定义语言DDL),数据组织、存储和管理(提供数据操作语言DML),数据库的事务管理和运行管理(安全性等),数据库的建立和维护等功能。数据库系统(DBS):
数据库系统由数据库、数据库管理系统(及其应用开发工具)、应用程序、数据库管理员四部分构成。
常见数据库:
关系型:MySQL,Oracle
非关系型:Redis,Mongo,Neo4j,Hbase等
5.1 关系型数据库
严格数据结构、格式
1、用二维表数据结构(关系)存储,关系满足一定范式
2、用SQL统一格式统一处理数据
3、SQL类型:DDL、DML、DCL、DQL
类别一:Data Definition Language (DDL) 数据定义语言(create,delete等)
DDL:定义各种表结构
创建:
create table studeng (sid char(20),cid char(20);
)
删除:
drop table tb1;
修改:
alter table test4_02
add avg_score numeric(3,1)
类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
增:
Insert into Students(sid,name,login,age,gpa)
values('111','smith','smith@qq',11,3.3)
删:
delete from Student S
where S.name='Smith'
改:
update test4_01 Sset sum_score=(select sum(score)from pub.student_course Twhere S.sid=T.sid)
类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别
类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据)
【数据库】数据库精选题(三)(SQL语言精选题)(按语句类型分类)_sql高级题目选择题-CSDN博客
优点:
1、数据结构化,管理效率高
2、用户只需指出干什么,不必仔细说怎么干
3、对于事务的支持,有高一致性
5.2 非关系型数据库
NoSQL:非关系型数据库
典型代表有:Redis,Mongo,Neo4j,Hbase
因为本人也没有仔细深入学过NoSQL,所以这里不做展开。
仅仅针对考试题目做一个分析:
5.2.1 题目1:
why NoSQL?
分析:
1. 从数据结构化来说
随着大数据时代的降临,我们面对的不仅仅是结构化数据的存储,还有各种半结构化,非结构化的 数据。
从软件开发角度来说,前期需求不明确,非严格事务性的产品,可以使用NoSQL(MongoDB),因为传统 RDBMS更改表结构的代价较大,结构不灵活。
2. 从读写效率来说
传统RDBMS几乎所有操作都要过磁盘,这是为了保证事务特性带来的巨大开销;但这种开销在新 的Web 2.0中可能是不必要的,起码对于博客系统来说,两个用户短时间内看到的内容不完全一致 不会带来很大影响,所以NoSQL一个重要的思路就是降低一定的一致性【降低支持的事务等级】, 从而获得更高的读写效率,获得更高的可用性和分区容错。
传统RDBMS是不分区的,意味着不支持横向拓展,这会导致硬件上的IO瓶颈;分布式是应对高并 发的重要方案,NoSQL往往都对此提供了强大支持,有自动化分区服务等等。
3. 从海量数据下的查询(读写)来说
传统的RDBMS是行式存储,虽然方便插入数据。但是在没有加入索引时,相当不便于检索,而列式存储,检索效率更高。所以对于海量数据的查询、分析来说,NoSQL性能优于传统SQL处理。
集合运算在Redis上很轻松【内存式,结构简单,很快】,可以进一步提升海量数据的查询。传统的数据库都只能从磁盘中读取
NoSQL:
1、非结构化。可以存储的数据类型更多
2、列式存储。海量结构下的查询效率高
3、分布式。高并发读写性能
4、数据结构性低,耦合性低。修改数据结构代价小
6. 总结
本文到这里就结束啦~~
如果觉得对你有帮助,辛苦友友点个赞哦~