大数据(一)定义、特性
本文目录:
一、写在前面的话
二、大数据定义
三、大数据特性
3.1、大数据的大量 (Volume) 特性
3.2、大数据的高速(Velocity)特性
3.3、大数据的多样化 (Variety) 特性
3.4、大数据的价值 (value) 特性
3.5、大数据的真实性 (veracity) 特性
四、大数据的单位
五、大数据涉及的数据类型
六、大数据五大核心领域
七、大数据趋势
一、写在前面的话
一个星期前,我到楼顶浇花,偶遇本楼邻居,她闲话中提起5楼某家的2位今年都走了,听到这个消息,我心里很难受,眼泪忍不住掉下来。。。
其实我和五楼的那家人并不熟悉,仅有的几次交流也是在十几年前。那时我还在上班,回家时在家附近总能碰到那家的女主人在遛狗。女主人是我们华工大宣传部的一位老师,短发,为人很爽朗。狗狗是一只白色的长毛京巴,狗狗年纪有点大了,跑两步就呼哧呼哧直喘气,有时还会趴地上休息一下,每当这个时候,女主人总是耐心地站在路边等待狗狗,眼神很温柔宠溺,仿佛看着自家的孩子。我喜欢逗狗狗,摸摸它的脑袋,问它今天乖不乖,有没有好好吃饭。。。
男主人也是我们华工大的老师,我没有机会和他认识,但知道他义务为我们这栋楼做了很多事情,例如处理很多电梯相关事情,到现在,电梯的持有人还是写着这位王老师的名字。
后来我因为变故,没有再上班,留在家里做家务,基本都不出门,也没有什么机会碰到五楼的那两位邻居。我记得王老师曾用的签名是:给点阳光就灿烂,给个箩筐就下蛋。。。很幽默乐观的一个人。疫情开始后,王老师还在楼群里发过疫情搞笑图片,逗大家开心。。。
一切仿佛就在昨天,没想到两位长辈走得那么突然。。。
好人会有好报,今生的苦难修炼会换来来世的一切安好。谨以此文纪念曾经的老邻居。
逆境清醒
2023.8.24
二、大数据定义
大数据定义
大 数 据 (Big Data ) 指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据是指数据规模巨大、类型多样、传统数据处理工具无法高效处理的数据集合。它可以通过多种方式生成,包括互联网、社交媒体、传感器、金融交易等。
大数据通常具有三个特点:数据规模大、数据类型多样和数据处理速度快。
大数据的应用领域包括商业智能、金融、医疗保健、能源、农业、交通等。利用大数据技术可以从数据中获取有价值的信息和知识,以支持决策制定、预测分析、市场营销等方面的工作。
大公司对“大数据”的定义:
(1)、Oracle的定义
Oracle的大数据定义:
简而言之,大数据指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
(2)、研究机构Gartner:
对于“大数据”(Big data)研究机构Gartner给出了这样的定义:
“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
(3)、麦肯锡全球研究所给出的定义是:
麦肯锡全球研究所的大数据定义:
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
三、大数据特性
大数据特性:
♦ 大量 (Volume) :数据的大小决定所考虑的数据的价值和潜在的信息;
♦ 高速 (Velocity) :指获得数据的速度;
♦ 多样化 (Variety) :数据类型的多样性,数据类型众多;
♦ 价值 (value) :合理运用大数据,以低成本创造高价值。
♦ 真实性 (veracity) :数据的质量。
3.1、大数据的大量 (Volume) 特性
大数据的大量特性指的是数据量的巨大。这些数据通常由传感器、移动设备、社交媒体、金融数据、医疗记录等数据来源产生。
大数据的大量特性包括以下几个方面:
♦ 数据量巨大: 数据量从几个GB到数百PB不等,规模非常巨大。
♦ 数据增长快速:数据以指数级增长,需要使用不断升级的技术和架构才能处理大规模数据。
♦ 数据来源多样:数据来源包括传感器、移动设备、社交媒体、金融数据、医疗记录等多个领域。
♦ 数据类型多样:数据不仅包括结构化数据,还包括非结构化数据和半结构化数据,如文本、图像、音频和视频等多种类型。
♦ 数据复杂度高:数据往往是高度复杂的,包含大量的关联、交互和变化,因此需要高效的处理和分析技术。
大量的数据给数据处理和分析带来了很大的挑战,需要使用高级技术和工具来处理和分析这些数据。
3.2、大数据的高速(Velocity)特性
大数据的高速(Velocity)特性是指大数据在产生、传输、存储和处理的速度非常快,数据量巨大,常常是以毫秒或微秒级别计算的。
大数据的高速特性主要体现在以下几个方面:
♦ 数据实时产生:大数据往往是实时生成的,例如社交媒体上的用户行为、物联网设备产生的传感器数据等。这些数据需要实时获取和处理。
♦ 数据传输速度快:随着网络带宽和数据传输技术的不断提升,大量数据能够在短时间内快速的传输到目标系统,如云端存储和数据处理平台。
♦ 数据存储速度快:将大客户端数据快速地写入到数据库中、实时处理数据等。
♦ 数据处理速度快:大数据处理采用分布式计算和并行计算技术,能够快速地处理大量数据,例如实时数据挖掘、实时分析和报告等。
♦ 数据更新速度快:大数据处理需要非常高的数据更新速度,从而保证数据的实时性和准确性。
综上所述,大数据的高速特性是指数据产生、传输、存储和处理的速度非常快,能够快速响应用户需求,实现实时的数据分析和决策。
3.3、大数据的多样化 (Variety) 特性
大数据的多样化主要体现在以下几个方面:
♦ 数据来源多样化:大数据可以来自各种各样的来源,如传感器、社交媒体、日志、传统数据库等。
♦ 数据类型多样化:大数据类型可以是结构化数据(如关系型数据库中的表格数据)、半结构化数据(如XML文件)和非结构化数据(如图片、视频和声音等)。
♦ 数据格式多样化:大数据可以采用各种不同的标准和格式进行存储和传输,如CSV、JSON、XML、Avro、ORC等。
♦ 数据内容多样化:大数据可以包含各种类型的信息,如文本、数字、图像、音频等,甚至包括无形的事物,如声音、情感、意见等。
♦ 数据规模多样化:大数据可以是海量、超大量、甚至是呈指数级别的数据,这也给数据分析和处理带来了很大的挑战。
3.4、大数据的价值 (value) 特性
大数据的价值特性包括以下几个方面:
♦ 体量:大数据具有庞大的数据量,这使得人们可以更全面、更准确地了解和预测事物的变化趋势,从而更好地做出决策。
♦ 多样性:大数据可以来自各种来源,如传感器、社交媒体、移动设备等等,因此可以包含不同类型的数据,如文本、图像、视频等,这种多样性促进了数据的整合和分析,从而产生更精确的结论。大数据包括结构化数据(如数据库中的数据)和非结构化数据(如社交媒体、日志和图片等),这些数据来源不同、类型不同、格式不同,为决策提供了更全面的信息基础。
♦ 速度:大数据的速度特征是指数据的处理速度和更新速度非常快,甚至是实时的。大数据具有高速处理数据的能力,可以在短时间内处理大量数据,从而快速地获取信息,这样的数据可以帮助企业快速做出决策,抢占市场获得市场的竞争优势。
♦ 规模:大数据的规模非常大,包含了数十亿或数百亿的数据点。这种数据规模使得企业可以从更大的数据集中获取更好的信息,从而更好地预测市场和客户需求。
♦ 价值:大数据的真正价值在于从数据中提取出有用信息,进行分析和应用。这对企业来说非常重要,因为它可以帮助企业做出更好的商业决策,改进产品和服务,优化市场营销等。
♦ 精确性:大数据的精确性是指数据的准确性和可信度。保证数据的质量将有助于企业做出更好的决策,提高效率和效益。
♦ 可视化:数据可视化可以让人们更好地理解数据,从而发现数据中的模式和趋势。
♦ 开放性:大数据需要以开放的方式进行共享和访问,以便更多的人可以使用和分析数据。
总体来说,大数据价值特性的综合作用是帮助企业更好地理解他们的业务、客户和市场,并根据数据分析结果进行策略制定和执行,从而获得更大的商业价值。
3.5、大数据的真实性 (veracity) 特性
大数据的真实性 (veracity) 特性指的是数据的精确性和可靠性。由于大数据通常来自各种不同的来源和格式,因此它们可能存在质量问题,例如错误、缺失、重复、歧义等。因此,对于大数据系统来说,确保数据的真实性非常重要,以确保系统的准确性和可靠性。
为了保证数据的真实性,可以采取以下措施:
♦ 数据清洗:通过清洗数据来去除错误、重复和不必要的信息,以提高数据的质量和准确性。
♦ 数据验证:对数据进行验证以确保其符合业务规则和标准,确保数据的正确性和可靠性。
♦ 数据监控:对数据源进行监控,及时发现和纠正数据质量问题,以保证数据的真实性。
♦ 数据库管理:对数据库进行管理,包括备份、恢复和维护,以确保数据的安全和一致性。
♦ 数据共享:对外共享数据时需要确保数据的真实性和安全性,确保数据不会被篡改或滥用。
总之,大数据的真实性 (veracity) 特性是确保数据的质量和可靠性,保证大数据系统的正确性和可靠性的关键要素。
四、大数据的单位
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
它们按照进率1024(2的十次方)来计算:
1 Byte =8 bit
1 KB = 1,024 Bytes = 8192 bit
1 MB = 1,024 KB = 1,048,576 Bytes
1 GB = 1,024 MB = 1,048,576 KB
1 TB = 1,024 GB = 1,048,576 MB
1 PB = 1,024 TB = 1,048,576 GB
1 EB = 1,024 PB = 1,048,576 TB
1 ZB = 1,024 EB = 1,048,576 PB
1 YB = 1,024 ZB = 1,048,576 EB
1 BB = 1,024 YB = 1,048,576 ZB
1 NB = 1,024 BB = 1,048,576 YB
1 DB = 1,024 NB = 1,048,576 BB
五、大数据涉及的数据类型
大数据涉及的数据类型 | |||
数据类型 | 概念 | 表现形式 | 典型场景 |
结构化数据 | 也称行数据,是具备统一的结构、能够用行列二维形式表达和管理的数据,如关系型数据库数据。 | 数据库表等 | 企业ERP、财务、HR数据库等 |
半结构化数据 | 是一种适于数据库集成的数据模型,也可以是一种标记服务的基础模型,用于Web上共享信息。 | 邮件、HTML、报表等 | 邮件系统、网页信息、报表系统等 |
非结构化数据 | 数据结构不规则,不方便用行列二维形式表达的数据,如图片、文本、音视频等。 | 视频、音频等 | 在线视频内容、音频内容、图形图像等 |
六、大数据五大核心领域
♦ 数据存储与计算、
♦ 数据管理、
♦ 数据流通、
♦ 数据应用、
♦ 数据安全。
七、大数据趋势
♦ 云计算:云计算已成为企业存储和处理大量数据的首选方式。
♦ 人工智能和机器学习:人工智能和机器学习技术正在越来越多地应用于大数据分析和预测。
♦ 区块链:区块链技术可以用于数据安全和隐私保护。
♦ 数据科学:数据科学领域的专业人士正在与大数据分析师一起工作,以更好地理解和利用大数据。
♦ 数据质量管理:数据质量管理已成为大数据管理中的一个重要领域,以确保数据的准确性和一致性。
♦ 数据可视化:大量数据需要通过数据可视化工具进行呈现,以便更好地理解和利用数据。
♦ 边缘计算:边缘计算技术可以在现场处理大量数据,从而减少数据传输和处理时间。
推荐阅读:
[你找到牵手一辈子的人了吗?] 七夕情人节特辑 |
数字技术能让古籍“活过来”吗? |
心情不好时,帮自己训练个AI情绪鼓励师吧(基于PALM 2.0 finetune) |
深度学习框架TensorFlow |
人工智能开发人员工作流程、看法、工具统计数据 |
2023 年6月开发者调查统计结果——最流行的技术(2) |
2023 年6月开发者调查统计结果——最流行的技术(1) |
让Ai帮我们画个粽子,它会画成什么样呢? |
| | |
给照片换底色(python+opencv) | 猫十二分类 | 基于大模型的虚拟数字人__虚拟主播实例 |
| | |
计算机视觉__基本图像操作(显示、读取、保存) | 直方图(颜色直方图、灰度直方图) | 直方图均衡化(调节图像亮度、对比度) |
| | |
语音识别实战(python代码)(一) | 人工智能基础篇 | 计算机视觉基础__图像特征 |
| ||
matplotlib 自带绘图样式效果展示速查(28种,全) | ||
| ||
Three.js实例详解___旋转的精灵女孩(附完整代码和资源)(一) | ||
| | |
立体多层玫瑰绘图源码__玫瑰花python 绘图源码集锦 | Python 3D可视化(一) | 让你的作品更出色——词云Word Cloud的制作方法(基于python,WordCloud,stylecloud) |
| | |
python Format()函数的用法___实例详解(一)(全,例多)___各种格式化替换,format对齐打印 | 用代码写出浪漫__合集(python、matplotlib、Matlab、java绘制爱心、玫瑰花、前端特效玫瑰、爱心) | python爱心源代码集锦(18款) |
| | |
Python中Print()函数的用法___实例详解(全,例多) | Python函数方法实例详解全集(更新中...) | 《 Python List 列表全实例详解系列(一)》__系列总目录、列表概念 |
| | |
用代码过中秋,python海龟月饼你要不要尝一口? | python练习题目录 | |
| | |
草莓熊python turtle绘图(风车版)附源代码 | 草莓熊python turtle绘图代码(玫瑰花版)附源代码 | 草莓熊python绘图(春节版,圣诞倒数雪花版)附源代码 |
| | |
巴斯光年python turtle绘图__附源代码 | 皮卡丘python turtle海龟绘图(电力球版)附源代码 | |
| | |
Node.js (v19.1.0npm 8.19.3) vue.js安装配置教程(超详细) | 色彩颜色对照表(一)(16进制、RGB、CMYK、HSV、中英文名) | 2023年4月多家权威机构____编程语言排行榜__薪酬状况 |
| | |
手机屏幕坏了____怎么把里面的资料导出(18种方法) | 【CSDN云IDE】个人使用体验和建议(含超详细操作教程)(python、webGL方向) | 查看jdk安装路径,在windows上实现多个java jdk的共存解决办法,安装java19后终端乱码的解决 |
| ||
vue3 项目搭建教程(基于create-vue,vite,Vite + Vue) | ||
| | |
2023年春节祝福第二弹——送你一只守护兔,让它温暖每一个你【html5 css3】画会动的小兔子,炫酷充电,字体特 | 别具一格,原创唯美浪漫情人节表白专辑,(复制就可用)(html5,css3,svg)表白爱心代码(4套) | SVG实例详解系列(一)(svg概述、位图和矢量图区别(图解)、SVG应用实例) |
| | |
【程序人生】卡塔尔世界杯元素python海龟绘图(附源代码),世界杯主题前端特效5个(附源码) | HTML+CSS+svg绘制精美彩色闪灯圣诞树,HTML+CSS+Js实时新年时间倒数倒计时(附源代码) | 2023春节祝福系列第一弹(上)(放飞祈福孔明灯,祝福大家身体健康)(附完整源代码及资源免费下载) |
| | |
tomcat11、tomcat10 安装配置(Windows环境)(详细图文) | Tomcat端口配置(详细) | Tomcat 启动闪退问题解决集(八大类详细) |