大数据技术原理与应用学习笔记第1章

黄金组合访问地址:http://dblab.xmu.edu.cn/post/7553/

1.《大数据技术原理与应用》教材 

官网:http://dblab.xmu.edu.cn/post/bigdata/

2.大数据软件安装和编程实践指南

官网林子雨编著《大数据技术原理与应用》教材配套大数据软件安装和编程实践指南_厦门大学数据库实验室

3.备课指南

官网:林子雨编著《大数据技术原理与应用》教师备课指南_厦门大学数据库实验室

4.授课视频

官网:林子雨主讲入门级大数据在线课程_厦门大学数据库实验室

5.实验指南

官网:机房上机实验指南-林子雨编著《大数据技术原理与应用》_厦门大学数据库实验室

6.电子书籍

官网:大数据课程教师交流群_厦门大学数据库实验室

7.Spark入门教程

官网:子雨大数据之Spark入门教程(Scala版)_厦大数据库实验室博客

8.大数据课程实验案例网站用户购物行为分析

官网:重磅:大数据课程实验案例:网站用户行为分析(免费共享)_厦门大学数据库实验室 

第一篇 大数据基础 

本篇包括2章。第1章介绍大数据的概念和应用,分析了大数据、云计算和物联网的相互关系;第2章介绍大数据处理架构Hadoop。

 第1章 大数据概述

1.1 大数据时代

1.1.1 第三次信息化浪潮

1.1.2 信息科技为大数据时代提供技术支撑

  1. 存储设备容量不断增加
  2. CPU处理能力大幅提升
  3. 网络带宽不断增加

1.1.3 数据产生方式的变革促成大数据时代的来临

人类社会的数据产生方式大致经历了3个阶段:运营式系统阶段、用户原创内容阶段和感知式系统阶段

1.1.4 大数据的发展历程

大数据的发展历程总体上可以划分为3个重要阶段:萌芽期、成熟期和大规模应用期

1.2 大数据的概念

大数据不仅仅是数据的“大量化”,而是包含“快速化”、“多样化”和“价值化”等多重属性。

大数据的4个特点,包含4个层面:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)和价值密度低(Value)

1.2.1 数据量大

  • 根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)
  • 人类在最近两年产生的数据量相当于之前产生的全部数据量
  • 预计到2023年,全球将总共拥有11.7ZB的数据量,将比预测增加一倍以上

1.2.2 数据类型繁多

  • 大数据是由结构化和非结构化数据组成的
    10% 的结构化数据,存储在数据库中
    90% 的非结构化数据,它们与人类信息密切相关
  • 科学研究:基因组;LHC加速器;地球与空间探测
  • 企业应用:Email、文档、文件;应用日志;交易记录
  • Web 1.0数据:文本;图像;视频
  • Web 2.0数据:查询日志/点击流;Twitter/Blog/SNS;Wiki
  • 从数据的生成到消耗,时间窗口非常小,可用于生成决策的时间非常少
  • 1 秒定律:这一点也是和传统的数据挖掘技术有着本质的不同

1.2.3 处理速度快

 大数据时代的很多应用都需要基于快速生成的数据给出实时分析结果,用于指导生产和生活实践。因此,数据处理和分析的速度通常要达到秒级响应。

1.2.4 价值密度低

价值密度低,商业价值高

  以监控为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒,但是具有很高的商业价值

 1.3 大数据的影响

  •  图灵奖获得者、著名数据库专家Jim Gray 博士观察并总结人类自古以来,在科学研究上,先后历经了实验、理论、计算和数据四种范式
  • 在思维方式方面,大数据完全颠覆了传统的思维方式:全样而非抽样;效率而非精确;相关而非因果
  • 在社会发展方面,大数据决策逐渐成为一种新的决策方式,大数据应用有力促进了信息技术与各行业的深度融合,大数据开发大大推动了新技术和新应用的不断涌现
  • 在就业市场方面,大数据的兴起使得数据科学家成为热门职业
  • 在人才培养方面,大数据的兴起,将在很大程度上改变中国高校信息技术相关专业的现有教学和科研体制
  • 大数据无处不在,包括金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都已经融入了大数据的印迹

 

1.4 大数据的应用

1.5 大数据关键技术

从数据分析全流程的角度,大数据技术主要包括数据采集与预处理、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容

大数据两大核心技术:

  1. 分布式存储:GFS\HDFS;Big Table\HBase;NoSQL(键值、列族、图形、文档数据库);NewSQL(如:SQL Azure)
  2. 分布式处理:MapReduce

1.6 大数据计算模式

MapReduce 是被大家所熟悉的大数据处理技术,当人们提到大数据时就会很自然地想到MapReduce,可见其影响力之广。实际上,大数据处理的问题复杂多样,单一的计算模式是无法满足不同类型的计算需求的,MapReduce 其实只是大数据计算模式中的一种,它代表了针对大规模数据的批量处理技术,除此以外,还有查询分析计算、图计算、流计算等多种大数据计算模式

1.7 大数据产业

大数据产业是指一切与支撑大数据组织管理和价值发现相关的企业经济活动的集合

1.8 大数据与云计算、物联网的关系

云计算、大数据和物联网代表了IT领域最新的技术发展趋势,三者相辅相成,既有联系又有区别

1.8.1 云计算

1. 云计算概念

云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源

2. 云计算关键技术

云计算关键技术包括:虚拟化、分布式存储、分布式计算、多租户等

3. 云计算数据中心

  • 云计算数据中心是一整套复杂的设施,包括刀片服务器、宽带网络连接、环境控制设备、监控设备以及各种安全装置等
  • 数据中心是云计算的重要载体,为云计算提供计算、存储、带宽等各种硬件资源,为各种平台和应用提供运行支撑环境
  • 全国各地推进数据中心建设

4. 云计算应用

  • 政务云上可以部署公共安全管理、容灾备份、城市管理、应急管理、智能交通、社会保障等应用,通过集约化建设、管理和运行,可以实现信息资源整合和政务资源共享,推动政务管理创新,加快向服务型政府转型
  • 教育云可以有效整合幼儿教育、中小学教育、高等教育以及继续教育等优质教育资源,逐步实现教育信息共享、教育资源共享及教育资源深度挖掘等目标
  • 中小企业能够让企业以低廉的成本建立财务、供应链、客户关系等管理应用系统,大大降低企业信息化门槛,迅速提升企业信息化水平,增强企业市场竞争力 
  • 医疗云可以推动医院与医院、医院与社区、医院与急救中心、医院与家庭之间的服务共享,并形成一套全新的医疗健康服务系统,从而有效地提高医疗保健的质量

5. 云计算产业

云计算产业作为战略性新兴产业,近些年得到了迅速发展,形成了成熟的产业链结构,产业涵盖硬件与设备制造、基础设施运营、软件与解决方案供应商、基础设施即服务(IaaS)、平台即服务(PaaS)、软件即服务(SaaS)、终端设备、云安全、云计算交付/咨询/认证等环节

 

1.8.2 物联网

1.物联网概念

物联网是物物相连的互联网,是互联网的延伸,它利用局部网络或互联网等通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,形成人与物、物与物相联,实现信息化和远程管理控制

2. 物联网关键技术

物联网中的关键技术包括识别和感知技术(二维码、RFID、传感器等)、网络与通信技术、数据挖掘与融合技术等

3.物联网应用

物联网已经广泛应用于智能交通、智慧医疗、智能家居、环保监测、智能安防、智能物流、智能电网、智慧农业、智能工业等领域,对国民经济与社会发展起到了重要的推动作用

4.物联网产业

完整的物联网产业链主要包括核心感应器件提供商、感知层末端设备提供商、网络提供商、软件与行业解决方案提供商、系统集成商、运营及服务提供商等六大环节

1.8.3 大数据与云计算、物联网的关系

云计算、大数据和和物联网代表了IT领域最新的技术发展趋势,三者既有区别又有联系

1.9 本章小结 

  • 本章介绍了大数据技术的发展历程,并指出信息科技的不断进步为大数据时代提供了技术支撑,数据产生方式的变革促成了大数据时代的来临。
  • 大数据具有数据量大、数据类型繁多、处理速度快、价值密度低等特点,统称“4V”。大数据对科学研究、思维方式、社会发展、就业市场和人才培养等方面都产生了重要的影响,深刻理解大数据的这些影响,有助于我们更好地把握学习和应用大数据的方向。
  • 大数据在金融、汽车、零售、餐饮、电信、能源、政务、医疗、体育、娱乐等在内的社会各行各业都得到了日益广泛的应用,深刻地改变着我们的社会生产和日常生活。
  • 大数据并非单一的数据或技术,而是数据和大数据技术的综合体。大数据技术主要包括数据采集、数据存储和管理、数据处理与分析、数据安全和隐私保护等几个层面的内容。
  • 大数据产业包括IT基础设施层、数据源层、数据管理层、数据分析层、数据平台层和数据应用层,在不同层面都已经形成了一批引领市场的技术和企业。
  • 本章最后介绍了云计算和物联网的概念和关键技术,并阐述了大数据、云计算和物联网三者之间的区别与联系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/119062.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Liunx系统编程:信号量

一. 信号量概述 1.1 信号量的概念 在多线程场景下,我们经常会提到临界区和临界资源的概念,如果临界区资源同时有多个执行流进入,那么在多线程下就容易引发线程安全问题。 为了保证线程安全,互斥被引入,互斥可以保证…

Java-泛型

文章目录 Java泛型什么是泛型?在哪里使用泛型?设计出泛型的好处是什么?动手设计一个泛型泛型的限定符泛型擦除泛型的通配符 结论 Java泛型 什么是泛型? Java泛型是一种编程技术,它允许在编译期间指定使用的数据类型。…

操作视频的开始与暂停

调用 ref.current.play() 方法来播放视频; 如果视频需要暂停,我们调用 ref.current.pause() 方法来暂停视频。 通过 useRef 创建的 ref 操作视频的开始与暂停 当用户点击按钮时,根据当前视频的状态,我们会开始或暂停视频&…

ip地址、LINUX、与虚拟机

子网掩码,是用来固定网络号的,例如255,255,255,0,表明前面三段必须为网络号,后面必须是主机号,那么怎么实现网络复用呢,例如使用c类地址,但是正常子网掩码是255,255,255,…

GB28181学习(二)——注册与注销

概念 使用REGISTER方法进行注册和注销;注册和注销应进行认证,认证方式应支持数字摘要认证方式,高安全级别的宜支持数字证书认证;注册成后,SIP代理在注册过期时间到来之前,应向注册服务器进行刷新注册&…

vue从零开始学习

npm install慢解决方法:删掉nodel_modules。 5.0.3:表示安装指定的5.0.3版本 ~5.0.3:表示安装5.0X中最新的版本 ^5.0.3: 表示安装5.x.x中最新的版本。 yarn的优点: 1.速度快,可以并行安装 2.安装版本统一 项目搭建: 安装nodejs查看node版本:node -v安装vue clie : np…

C语言练习8(巩固提升)

C语言练习8 编程题 前言 奋斗是曲折的,“为有牺牲多壮志,敢教日月换新天”,要奋斗就会有牺牲,我们要始终发扬大无畏精神和无私奉献精神。奋斗者是精神最为富足的人,也是最懂得幸福、最享受幸福的人。正如马克思所讲&am…

明厨亮灶监控实施方案 opencv

明厨亮灶监控实施方案通过pythonopencv网络模型图像识别算法,一旦发现现场人员没有正确佩戴厨师帽或厨师服,及时发现明火离岗、不戴口罩、厨房抽烟、老鼠出没以及陌生人进入后厨等问题生成告警信息并进行提示。OpenCV是一个基于Apache2.0许可&#xff08…

01-虚拟机安装Windows Server操作系统

1、创建并配置虚拟机 2、安装操作系统 找到windows Server镜像 等待安装 3、设置密码

数据结构之单链表java实现

基本概念 链表是一种物理存储结构上非连续、非顺序的存储结构,数据元素的逻辑顺序是通过链表中指针链接次序实现的。和数组相比较,链表不需要指定大小,也不需要连续的地址。 单链表的基本设计思维是,利用结构体的设置&#xff0c…

滑动窗口实例5(水果成篮)

题目: 你正在探访一家农场,农场从左到右种植了一排果树。这些树用一个整数数组 fruits 表示,其中 fruits[i] 是第 i 棵树上的水果 种类 。 你想要尽可能多地收集水果。然而,农场的主人设定了一些严格的规矩,你必须按…

垃圾回收 - 引用计数法

GC原本是一种“释放怎么都无法被引用的对象的机制”。那么人们自然而然就会想到,可以让所有对象事先记录下“有多少程序引用了自己”。让各对象知道自己的“人气指数”,从而让没有人气的对象自己消失,这就是引用计数法。 1、计数器 计数器表…

使用MATLAB解算炼油厂的选址

背景 记得有一年的数据建模大赛,试题是炼油厂的选址,最后我们采用MATLAB编写(复制)蒙特卡洛算法,还到了省级一等奖,这里把仅有一些记忆和材料,放到这里来,用来纪念消失的青春。 本…

selenium可以编写自动化测试脚本吗?

Selenium可以用于编写自动化测试脚本,它提供了许多工具和API,可以与浏览器交互,模拟用户操作,检查网页的各个方面。下面是一些步骤,可以帮助你编写Selenium自动化测试脚本。 1、安装Selenium库和浏览器驱动程序 首先…

Redis布隆过滤器原理

其实布隆过滤器本质上要解决的问题,就是防止很多没有意义的、恶意的请求穿透Redis(因为Redis中没有数据)直接打入到DB。它是Redis中的一个modules,其实可以理解为一个插件,用来拓展实现额外的功能。 可以简单理解布隆…

Educational Codeforces Round 154 (Rated for Div. 2)

Educational Codeforces Round 154 (Rated for Div. 2) A. Prime Deletion 思路&#xff1a; 因为1到9每个数字都有&#xff0c;所以随便判断也质素即可 代码 #include<bits/stdc.h> using namespace std; #define int long long #define rep(i,a,n) for(int ia;i<…

数学建模-点评笔记 9月3日

1.摘要&#xff1a;关键方法和结论&#xff08;精炼的语言&#xff09;要说明&#xff0c;方法的合理性和意义也可以说明。 评委先通过摘要筛选&#xff08;第一轮&#xff09; 2.时间序列找异常值除了3西格玛还有针对时间序列更合适寻找的方法 3.模型的优缺点要写的详细一点…

vue3 页面显示中文,分页显示中文

vue3 分页默认为英文 &#xff0c;但想要中文显示 那么在App.vue中的代码为三步即可&#xff0c;引入中文&#xff0c;声明中文 &#xff0c;绑定中文&#xff1b; 1. import zhCn from element-plus/es/locale/lang/zh-cn&#xff1b; 2. let locale zhCn; 3. :locale&q…

Snipaste_2023-08-22_16-09-41.jpg

原因 cd 目录名 (想要补全的时候出现以下错误) cd /o-bash: cannot create temp file for here-document: No space left on device解决方案 可以使用df -h命令查看磁盘空间的使用情况,删除一些不必要的文件或调整其他文件的存储位置来释放空间,或者还可以考虑扩大磁盘容量 df …

数据结构1 -- leetcode练习

三. 练习 3.1 时间复杂度 用函数 f ( n ) f(n) f(n) 表示算法效率与数据规模的关系&#xff0c;假设每次解决问题需要 1 微秒&#xff08; 1 0 − 6 10^{-6} 10−6 秒&#xff09;&#xff0c;进行估算&#xff1a; 如果 f ( n ) n 2 f(n) n^2 f(n)n2 那么 1 秒能解决多…