写在前面
本文隶属于专栏《100个问题搞定大数据理论体系》,该专栏为笔者原创,引用请注明来源,不足和错误之处请在评论区帮忙指出,谢谢!
本专栏目录结构和参考文献请见100个问题搞定大数据理论体系
引子
小明又来了~
小明接过大明给的考卷:
想转行大数据?这66个问题你搞懂了没?
看到第一题:
1. 你能谈谈你对大数据的认知吗?大数据到底是什么?
“我要是知道什么是大数据,我还担心转行干嘛,直接就干啊!”
“算了,还是猜吧”
“怎么突然想到了一句歌词。。草,又走神了”
小明答到:
大数据应该就是很大的数据吧。。
大明看到这里:
“就这?”
小明苦笑:
“还能咋滴?我一个搞Java后端的,大数据也是从手机电视上知道的,只能这么猜啊。。”
大明看了小明半晌,叹了口气:
“诶,要不是你妈和我妈是铁闺蜜,要不是我妈和我唠叨了好几天,我才懒得搭理你呢。”
“我来跟你简单概括一下大数据,你好好听着,当然,丑话说在前头,我干大数据也没几年,我就简单跟你谈谈我对大数据的认知。”
正文
- 大数据是围绕着庞大数据所构建的一种技术生态体系
- 大数据本质上是一种技术手段
- 大数据的核心就是数据
- 大数据最核心的价值就是利用廉价的机器进行大规模数据的处理分析
大明继续解释到:
大数据,本质上就是围绕了庞大的数据(Volumn
) 所构建的一种技术生态体系,包括数据的采集、传输、计算、分析、调度、存储等。
这个数据量级早期还只有GB级别,伴随着技术的发展,已经逐渐上升到TB,PB的级别。
更为关键的是,数据的来源多种多样(Variety
)。
一般来说,大数据的数据来源于四大源头:
- 互联网,包括手机电脑等
- 企业数据
- 物联网,这也是未来的科技核心之一
- 科学研究
形式也是千变万化,比如文本,音频,视频等等。
这么庞大的数据量,使用传统的单机根本无法存储下来,但是超级计算机太贵(亿元为单位),不利于大数据的普及与发展,故历史的潮流推动着大数据朝着“更多节点”的方向发展,只有更多的廉价机器(万元为单位)才能存储这么庞大的数据量,才能满足大多数公司的需求,但是想要将这么庞大的机器数目统一成一个综合对外提供服务的集群,也不是一件容易的事情。
此外,人们也逐渐的意识到大数据中蕴藏的无限价值(Value
)。举个简单的例子,头条你也用过对吧,头条能够发展起来,大数据功不可没,因为头条公司是最早一批发现大数据中存在无限价值的公司,所以头条成功了。头条也把他们吸取的经验应用到了抖音上面,所以抖音也成功了。
而且,随着越来越多的企业投入到大数据的开发,以及越来越多的场景亟待大数据来支撑,数据处理的速度和时效性(Velocity
)要求也会更高。因为很多数据是有时效要求的,比如你走路,走到一个地方,如果数据不及时处理,等你走到另一个地方再去给你推送附近的店铺,这可就太迟了。再比如一个更典型时效要求更高的场景——实时防欺诈,支付的时长就那么长,用户最多等你几秒钟,你几秒钟之内除了完成基本的支付逻辑外,不能实时的进行诈骗检测,等用户把钱汇过去就太晚了。
事实证明,很多数据的价值随着时间的流逝在慢慢变低,而且存储历史数据会带来更高的存储成本,所以支持更快处理速度的实时流处理技术越来越受到企业的青睐。
其实我上面提到的 4V:
- Volume
- Variety
- Value
- Velocity
就是大数据最典型的四大特征
。
说到这里,你基本上对大数据有了一个基础的认知了吧。
小明:
大明:
“爽!被我装到了!嘿嘿,突然有点喜欢小明了。”