大数据知识点之大数据5V特征

大数据的特征可以浓缩为五个英文单词,Volume(大量)、Variety(多样性)、Velocity(速度)、Value(价值)、Veracity(准确性)。因为是5个特征都是以“V”开头的英文单词,又叫大数据5V特征。

概述:

1、Volume(大量)

  即可从数百TB到数十数百PB、甚至EB的规模

2、Variety(多样性)

  即大数据包括各种格式和形态的数据

3、Velocity(速度)

  数据增长速度快,处理速度也快,获取数据的速度也要快

4、Value(价值)

  数据价值密度低,但是商业价值高

5、Veracity(准确性)

  即处理的结果要保证一定的准确性

详细描述:

1、Volume
中文翻译是“大量”的意思,顾名思义,就是数据量非常的庞大。而这也是大数据的字面含义。我们知道在表示数据大小的时候,生活中常见的计量单位有KB、MB、GB、TB等,但是在此之上还有其他的单位,例如: PB、EB、ZB、YB、BB、NB、DB等。这些单位之间的换算率都是1024,也正是因此,人们会把每年的10月24日定为程序员节。我们每一个人在互联网上进行各种各样的行为,都会留下数据,而这些数据量虽然不算大,但是在庞大的用户基数下,累计起来的还是非常庞大的。在一个中大型企业中,需要处理的数据规模是很容易达到PB、EB的级别的,而这也正是大数据的第一个特征: 大量。

2、Variety
中文翻译是“多样化”的意思。我们知道学习大数据就是来处理庞大的数据集的,那么组成这个庞大的数据集的数据是可以分为不同的类型的。我们把这些数据大致分为三类:结构化的数据、半结构化的数据和非结构化的数据。
结构化的数据,一般指的是关系型数据库中的数据,例如MySQL、Oracle中的表中的数据。这些数据中,每一行的数据都保持着相同的数据格式,有规律可循,非常容易处理。
半结构化的数据,指的是有一定的结构性,但是比起关系型数据库表中的结构化的数据来说,结构不是那么清晰,处理起来也比结构化的数据略微麻烦。常见的半结构化的数据有json、xml、html等。
非结构化的数据,指的就是没有丝毫结构性可言的数据了。数据没有固定的格式,通常需要我们单独设计程序来处理这些数据,从中提取出来有价值的信息。
而我们在工作中要处理的数据,往往都是以半结构化和非结构化的居多。

3、Value
中文翻译是“价值”的意思。这里其实有两点体现:价值密度低、商业价值高。
大数据相关的技术体系,需要处理的数据量是非常庞大的,动辄PB、EB规模的数据,但是真正具有价值的数据却非常稀少,只有100M,甚至更少。我们就需要从这么庞大的数据集中提取出来这些密度非常低的有价值的数据进行处理。
但是,也就是这些密度非常低的数据,能够发挥出来巨大的商业价值。这点其实也是来推动大数据发展的重要的特征之一,因为这些大数据相关的技术体系可以给商人带来巨大的利益,老板才愿意培养人来从事这个行业;越来越多的人涌入到这个行业,才能够推动这门技术不断的向前发展。

4、Velocity
中文翻译是“速度”的意思。我们要处理的数据集在很多情况下,并不是一潭死水,而是在不断增长的。对于一个企业来说,每天都会新增庞大的数据,这些数据可能来自于用户的操作、可能来自于智能家居、可能来自于各种传感器等,数据的来源非常多,而且数据量的增速也是非常可怕的。以淘宝、京东这类的电商来说,每日新增的数据量达到几百个GB是很正常的事情。在这样快速的数据增长的情况下,也对我们处理数据的速度有了较高的要求了。我们一定要优化我们的业务逻辑,提高处理的速度,才不会造成数据积压。

5、Veracity
中文翻译是“真实性”的意思。大规模的数据量,在处理的时候,对技术体系是有较高的要求的。在还没有形成现有的技术体系的年代,人们在处理庞大的数据集的时候,往往束手无策,要么实效性非常差,要么干脆无法处理。那个时代甚至流行一种做法:随机抽样。随机的从庞大的数据集中抽取一部分出来进行处理,以这样的处理结果,作为整个数据集的处理结果。追求真实性的,可能会多随机几次。但是这个结果其实是不准确的,并不能够体现出这些数据完整的价值,甚至还可能得到错误的结论。但是现在大数据的技术体系相对成熟,我们不再使用这样的随机抽样的方式了。我们就是要对所有的数据进行高效的处理,得出的结论自然也是正确的。

大数据的5V特征是Volume、Velocity、Variety、Veracity和Value,这些特征描述了大数据的规模、速度、多样性、真实性和价值,对于理解和应用大数据具有重要意义。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/131484.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Redis常用应用场景

Redis是一款开源的基于内存的键值存储系统,它提供了多种数据结构和丰富的功能,适用于各种不同的应用场景。以下是Redis常用的应用场景: 1.缓存:Redis最常见的用途就是作为缓存。由于Redis存储在内存中,读取速度非常快…

线性代数的学习和整理19,特征值,特征向量,以及引入的正交化矩阵概念(草稿)

目录 1 什么是特征值和特征向量? 1.1 特征值和特征向量这2个概念先放后 1.2 直观定义 1.3 严格定义 2 如何求特征值和特征向量 2.1 方法1:结合图形看,直观方法求 2.1.1 单位矩阵的特征值和特征向量 2.1.2 旋转矩阵 2.2 根据严格定义…

建站系列(八)--- 本地开发环境搭建(WNMP)

目录 相关系列文章前言一、准备工作二、Nginx安装三、MySQL安装四、PHP安装及Nginx配置五、总结 相关系列文章 建站系列(一)— 网站基本常识 建站系列(二)— 域名、IP地址、URL、端口详解 建站系列(三)— …

8月客户文章盘点——累计IF 168.4,平均IF 8.42

客户文章一览 凌恩生物以打造国内一流生物公司为目标,在科研测序领域深耕不辍,吸纳多名在生物信息高级技术人员的加盟,参与并完成多个高科技项目。现已在宏组学、基因组、表观遗传以及蛋白代谢等多组学及联合分析领域积累了深厚经验&#xff…

SpringBoot 如何使用 CORS 进行跨域资源共享

SpringBoot 如何使用 CORS 进行跨域资源共享 在 Web 开发中,跨域资源共享(CORS)是常见的问题之一。CORS 是一种安全机制,用于限制跨域请求对目标服务器的访问。在本文中,我们将介绍如何在 Spring Boot 中使用 CORS 进…

【Y 新闻】YMatrix 成立三周年,三岁的我们还真是“不简单”

三年的时间足够短,眨眼间我们已不知不觉度过了数个三年;但是三年的时间也足够长,这期间足够一个人完成从学校到社会的过渡,也足够一家企业实现从青涩到成熟的转变。 转眼到了 2023 年 8 月 24 日,是 YMatrix 成立后的…

中秋国庆双节邮件营销怎么做?看这里!

今年的国庆节恰逢中秋节,因此国家假日办安排国庆中秋连放8天。对于打工人来说,超长的假期是外出旅游、回家探亲好时机,可是对于企业来说,却是一次仅次于春节的营销大战。这个时候企业营销人员当然是要借助各种营销手段来获取流量和…

go语言基础操作---七

socket简单介绍—套接字编程 什么是Socket Socket,英文含义是【插座、插孔】,一般称之为套接字,用于描述IP地址和端口。可以实现不同程序间的数据通信。 Socket起源于Unix,而Unix基本哲学之一就是“一切皆文件”,都可…

YOLO目标检测——口罩规范佩戴数据集+已标注xml和txt格式标签下载分享

实际项目应用:目标检测口罩佩戴检测数据集的应用场景涵盖了公共场所监控、疫情防控管理、安全管理与控制以及人员统计和分析等领域。这些应用场景可以帮助相关部门和机构更好地管理口罩佩戴情况,提高公共卫生和安全水平,保障人们的健康和安全…

Kubernetes 使用configmap挂载卷给Pod内的nginx容器

目录 实验:使用configmap挂载卷给Pod内的nginx容器 1、创建nginx.conf配置文件(必须由nginx镜像里的nginx.conf修改而来,防止出现配置不相似的情况出现,导致访问不了nginx网页) 2、通过nginx.conf文件创建configmap容…

【C++刷题】经典简单题第二辑

回文排列 class Solution { public:bool canPermutePalindrome(string s) {// 记录字符出现的次数int count[256] {0};for(size_t i 0; i < s.size(); i)count[s[i]];// 记录字符出现次数为奇数的个数int flag 0;for(size_t i 0; i < 256; i)if(count[i] % 2 1)f…

yolov5权重文件.pt转.bin文件

参考链接&#xff1a;YOLOv5学习记录(二): 模型转化及Android端部署_yolo .pt文件转未bin_Xiaoer__Lu的博客-CSDN博客 1、准备pt文件 我的目录是&#xff1a;C:\Users\Administrator\Desktop\driving\yolov5-mask-42-master\runs\train\exp_yolov5s\weights里的best.pt 2、p…

算法:贪心---跳一跳

1、题目&#xff1a; 给你一个非负整数数组 nums &#xff0c;你最初位于数组的 第一个下标 。数组中的每个元素代表你在该位置可以跳跃的最大长度。 判断你是否能够到达最后一个下标&#xff0c;如果可以&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 2…

云养殖模式:让养殖业走向智慧化、高效化、绿色化

养殖业是我国农业的重要组成部分&#xff0c;也是农民增收的重要来源。然而&#xff0c;传统的养殖方式存在着许多问题&#xff0c;如水环境污染、病害频发、市场风险高、管理落后等&#xff0c;导致养殖效益低下&#xff0c;难以适应现代消费者的需求。如何改变这种局面&#…

Java基础(二十三):反射(reflection)

文章目录 一、反射机制1.1 快速入门1.2 反射机制原理 二、反射相关类三、反射调用性能优化四、Class类4.1 基本介绍4.2 使用4.3 哪些类型有Class对象 五、类加载六、获取类的结构信息七、反射-创建实例、操作属性和方法&#xff08;爆破&#xff09; 一、反射机制 1.1 快速入门…

自然语言处理应用(三):微调BERT

微调BERT 微调&#xff08;Fine-tuning&#xff09;BERT是指在预训练的BERT模型基础上&#xff0c;使用特定领域或任务相关的数据对其进行进一步训练以适应具体任务的需求。BERT&#xff08;Bidirectional Encoder Representations from Transformers&#xff09;是一种基于Tr…

【强化学习篇】on-policy 和 off-policy 的区别

本质区别&#xff1a; 要学习的 agent 跟和环境互动的 agent 是同一个&#xff0c;是on-policy(同策略) 要学习的 agent 跟和环境互动的 agent 不是同一个&#xff0c;是off-policy(异策略) on-policy 与 off-policy值函数&#xff1a; on-policy与off-policy区别是&#xf…

MCU软核 2. Xilinx Artix7上运行tinyriscv

0. 环境 - ubuntu18 - win10 vivado 2018.3 - git desktop - XC7A35TV12核心板 - ft2232hl小板&#xff08;用于程序烧录&#xff09; 1. git克隆源码 Git Desktop -> File -> Clone repository -> -> URL: https://gitee.com/liangkangnan/tinyriscv/ -> Lo…

如何在Python爬虫程序中使用HTTP代理?

在进行网络爬虫时&#xff0c;我们经常需要使用代理服务器来隐藏自己的真实IP地址&#xff0c;以避免被目标网站封禁或限制访问。本文将介绍如何将HTTP代理配置到Python爬虫程序中使用。 什么是HTTP代理&#xff1f; HTTP代理是一种网络代理&#xff0c;它充当客户端和服务器之…

Redis-带你深入学习数据类型zset

目录 1、zset有序集合 2、zset相关命令 2.1、添加或更新指定的元素——zadd 2.2、获取有序集合zset的元素个数相关命令&#xff1a;zcard、zcount 2.3、返回指定区间元素相关命令&#xff1a;zrange、arevrange、zrangebyscore 2.4、删除相关命令&#xff1a;zpopmax、zp…