图数据库| 2 、大数据的演进和数据库的进阶——从数据到大数据、快数据,再到深数据

时至今日,大数据已无处不在,所有行业都在经受大数据的洗礼。但同时我们也发现,不同于传统关系型数据库的表模型,现实世界是非常丰富、高维且相互关联的。此外,我们一旦理解了大数据的演进历程以及对数据库进阶的强需求,就会真正理解为什么“图”无处不在,以及为什么它会具有可持续的竞争优势,并最终成为新一代主流数据库标准。

大数据的发展方兴未艾。我们通常把大数据元年定为2012年,但是大数据相关技术的出现远早于2012年。例如Apache Hadoop是由Yahoo!在2006年发布并捐赠给Apache基金会的,而Hadoop这个项目肇始则是受到了谷歌2003年的GFS(Google File System,谷歌文件系统)与2004年的MapReduce两篇论文的启发。如果我们再往前追溯,那么GFS与MapReduce之所以能出现是因为谷歌的互联网搜索引擎业务的发展,而其搜索引擎最核心的技术大概要属PageRank算法了。以谷歌联合创始人Larry Page名字命名(且与Web Page一语双关)的PageRank算法是一种典型的图算法。很显然,我们回到了终点,它同时还是起点——大数据技术的发展竟然源自一种图计算技术,而它的发展趋势也伴随着图计算技术的全面发展——从大数据到快数据,最终到深数据(图数据)​。

从宏观来看,大数据的发展史基本上就是数据科技(Data Technology)的发展史,纵观过去近半个世纪的发展历程,大体可以分为三个阶段:

1)以关系型数据库为核心的传统数据库时代(1975年至今)​。

2)以非关系型数据库框架涌现为代表的时代(2010年至今)​。

3)超越关系或非关系型数据库的新时代——后关系型数据库时代(2015年后)​。

这三个阶段都产生了用于高效进行数据库、数据仓库查询与计算的查询语言,对应关系如下:

·关系型数据库:SQL。

·非关系型数据库:NoSQL。

·后关系型数据库时代:NewSQL、GQL……

如果按每个阶段所对应的数据特征和维度来衡量,可以这样解读图1-19:

·关系型数据库=数据、前大数据时代

·非关系型数据库=大数据、快数据时代

·后关系型数据库时代=深数据、图数据时代

图1-19 大数据发展史

显然,每一代都是对前一代的超越。当我们说大数据的时候,它包含了数据时代的特征,但是又出现了IBM提出的被业界广泛传播的)4V特性,即Volume(规模)​、Variety(多样性)​、Velocity(时效性、速度)和Veracity(真实性)​。

在深数据时代,在4V基础上还要加上“深度关联关系”​(Deep penetration and correlation)这一条,可以总结为:4V+D

为什么我们会这么在意数据之间的关联关系,而且是深度关联关系呢?有两个维度可以很好地解释各行各业遇到的挑战。

·商业维度:关联关系=商业价值;

·技术维度:传统数据库<>关联发现的能力。

随着大数据的发展,越来越多维度的数据被采集,而越来越多的商用场景需要分析这些多维的数据,例如反洗钱、反欺诈这类的风控场景,以及智能推荐、营销、用户行为模式分析的场景,只有将数据以网络的方式组合起来并深度分析它们之间的关联关系,我们才能摆脱之前传统数据库算力缺失的束缚——传统架构无法通过多表关联来快速发现实体之间的深层关联关系

还以上面提到的Hadoop为例,在Yahoo!内部孵化Hadoop项目的2004—2006年间,并行于Hadoop还有其他的海量数据处理项目,在2004年的时候,Yahoo!仍旧拥有世界上最大的服务器集群,有数万台Apache Web服务器,每天生产的海量Web日志需要被分析处理。有趣的是,从分布式系统的处理能力(数据吞吐率、操作延时、功能性等)上来看,Hadoop较其他系统而言并没有优势(需要澄清的一点是,Hadoop创立伊始的目标就是用一堆廉价、低配置的机器来分布式地处理数据,它从来不是高效的,很多所谓的分布式系统都缺乏高效、及时处理数据的能力)​,这直接导致了Yahoo!在2006年初决定把在内部找不到出路的Hadoop项目捐献给Apache基金会开源社区。这件事情告诉我们,一个有内在生命力、高性能、能创造巨大商业价值的系统,几乎是不会被开源的。当然,从另一个维度来分析,Hadoop解决了数据量与数据多样性存储和分析的问题,尤其对低配置机器的集群化利用,是Hadoop最大的优势,但是它在数据的处理速度和深度方面则极度欠缺。

2014年,Apache Spark横空出世,很显然Spark背后的加州大学Berkeley分校的开发团队对于业界广为诟病的Hadoop性能问题颇有心得,在分布式系统处理性能上,通过内存加速的Spark可以达到Hadoop的100倍,Spark还集成了GraphX等组件来实现一些图分析能力,例如PageRank(网页排序)​、Connected Component(连通子图)​、TriangleCounting(三角形计算)等。Spark相对于Hadoop框架而言,在速度上有很大进步,特别是对浅层的图计算与分析颇有意义。然而Spark过于学院派的设计思路导致系统不可以实时更新,也就是说不善于处理动态、实时变化的数据集,这样就限定了它只能作为一款仅具有离线分析能力的OLAP系统。距离我们所说的实时、动态、深数据处理的终极目标仍有很大的差距。

所谓深数据,就是在最短时间内通过挖掘多层、多维数据间的关联关系,挖掘出数据间所蕴藏的价值。特别是在这个数据互联的时代,可以以一种通用的方式实现深数据关联分析与计算的平台就是笔者一直强调的主角——图数据库在不同的场景下,我们也称其为图分析系统、图中台、图计算引擎等

所有的这些其实都是指一件事——按照图论的方式构造关联数据所形成的高维网络,并在其上进行计算与分析。例如鲁汶(Louvain)社区识别算法在实时图数据库上运行后,隶属于不同社区的实体间所构成的社区通过3D可视化的方式直观地呈现在我们面前,如图1-20所示。你无法从其他类型的NoSQL、大数据框架或关系型数据库中找到类似的实时、深度数据关联的解决办法,即便存在,那个方法的代价肯定不小,而且不会以一种通用化的方式完成。

也就是说,每当业务诉求改变的时候,就需要大幅调整底层架构来支撑,这种模式如何能够有长久的生命力呢?键值存储、列数据库、Hadoop分布式计算或Spark集群计算、MongoDB文档数据库在处理数据关联问题上都是不完善的。正是以上提到的这些瓶颈和挑战,才使图数据库得以诞生并蓬勃发展。

图1-20 通过鲁汶社区识别算法实现的客群识别可视化

·  END · 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/466798.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习笔记10-多分类

多分类和softmax回归 在多分类问题中,一个样本会被划分到三个或更多的类别中,可以使用多个二分类模型或一个多分类模型,这两种方式解决多分类问题。 1.基于二分类模型的多分类 直接基于二分类模型解决多分类任务,对于多分类中的每…

一篇文章入门docker!

文章目录 DockerUbuntu 下 docker 安装安装docker运行docker Docker的常用命令帮助命令镜像命令容器命令其他常用命令小结 分层理解一、Docker镜像的分层结构二、UnionFS与镜像分层三、镜像层的具体内容四、镜像分层的好处五、容器层与镜像层的关系 如何提交一个自己的镜像 Doc…

鸿蒙(Harmony)实现滑块验证码

在Android和ios两端已经使用的滑块验证码框架还未适配鸿蒙版,于是需要自己去实现类似如下的滑块验证码: 那么实现这样的验证码主要涉及到几个内容: 1、自定义弹窗 2、base64图片转换 3、滑动组件与滑块的联动,以及横移距离转换…

什么是嵌入式操作系统?

什么是嵌入式操作系统? 想象一下,如果一个智能设备,比如你口袋里的智能手机,是一个有头脑的机器人,那么嵌入式操作系统(Embedded Operating System,简称EOS)就相当于这个机器人的大脑。它告诉机…

后台管理系统窗体程序:评论管理

目录 评论管理的功能介绍: 1、进入页面 2、页面内的各种功能设计 (1)网页内的表格 (2)拒绝按钮,批准按钮 (3)删除按钮 (4)页面翻页跳转按钮 一、网页设计​…

nginx代理 proxy_pass

一、location 包含 location /api/ {proxy_pass http://127.0.0.1:85;} 二、location 不包含 location /api/ {proxy_pass http://127.0.0.1:85/;} 三、locaion 包含 location /api {proxy_pass http://127.0.0.1:85;}四、location 包含 location /api {proxy_pass http://127.…

InnoDB 存储引擎<七>通用表空间+临时表空间

目录 通⽤表空间 - General Tablespace 临时表空间 - Temporary Tablespaces 通⽤表空间 - General Tablespace 对应磁盘上的文件需要用户手动创建 1.通⽤表空间的作⽤和特性? 解答问题: 1.作用:可以把数据量比较小且强相关的表&#xff…

乐维网管平台(五):如何精准定位网络终端设备

在当今数字化高度发展的时代,网络已经成为企业和组织运营的关键基础设施。而在网络管理领域,终端定位技术正发挥着越来越重要的作用。 一、什么是终端定位 终端定位是网络管理中的关键环节,从本质上讲,它是一种精确确定网络终端…

企业邮箱后缀设置指南,轻松融入公司品牌

邮箱后缀指""后域名,本文介绍如何添加公司名作为后缀,以Zoho邮箱为例,需注册账号、购买域名、配置DNS、添加自定义域名、创建账号。Zoho邮箱安全可靠、个性化定制、易于管理,提供不同定价方案,并给出客户端配…

【D3.js in Action 3 精译_039】4.3 D3 面积图的绘制方法及其边界标签的添加

当前内容所在位置: 第四章 直线、曲线与弧线的绘制 ✔️ 4.1 坐标轴的创建(上篇) 4.1.1 D3 中的边距约定(中篇)4.1.2 坐标轴的生成(中篇) 4.1.2.1 比例尺的声明(中篇)4.1…

时序动作定位 | 基于层次结构潜在注意模型的弱监督动作定位(ICCV 2023)

<Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling> 这篇文章的标题是《Weakly-Supervised Action Localization by Hierarchically-structured Latent Attention Modeling》,作者是Guiqin Wang等人,来自西安交通大学和…

华为交换机Vlan划分

华为交换机Vlan划分 Tip&#xff1a;一个广播域划分vlan达到隔离广播目的且不能互访。 一个广播域划分子网掩码也可以不能互访&#xff0c;但是还是在一个广播域&#xff0c;还是会发生广播风暴。 本次实验模拟交换机不同端口划分不同vlan达到隔绝广播风暴效果。 pc1 pc2分配…

[linux]docker快速入门

安装 docker官网: CentOS | Docker Docs 准备工作: 准备ConstOS7的虚拟机环境账密: root/root飞书文档: Docs 卸载旧版本 // 首先如果系统中已经存在旧的Docker&#xff0c;则先卸载 yum remove docker \docker-client \docker-client-latest \docker-common \docker-latest…

vue echarts左右间距调整 左右空白

咱就说这样的左右间距丑不丑。。 经过调整后&#xff0c;嗯&#xff0c;好看了很多。页面也协调多了&#xff01; 直接上代码&#xff1a;添加以下配置数据&#xff1a; grid: {x: 50,y: 25,x2: 30,y2: 35 }, this.chart.setOption({width: 100%,xAxis: {show: false,type: ca…

内置函数【MySQL】

文章目录 日期函数字符串函数数学函数其他函数 日期函数 current_date函数用于获取当前的日期 mysql> select current_date(); ---------------- | current_date() | ---------------- | 2024-11-03 | ---------------- 1 row in set (0.00 sec)current_time函数用于获…

软件设计师-上午题-14 信息安全(5分)

信息安全题号一般为7-9或10-11题&#xff0c;分值一般为5分。 目录 1 防火墙 1.1 真题 2 病毒 2.1 真题 3 网络攻击 3.1 真题 4 网络安全 4.1 真题 5 杂题选讲 1 防火墙 1.1 真题 1.2009年下半年第8题 2.2013年上半年第8题 3.2014年上半年第8题 4.2011年上半年第9题…

移植 AWTK 到 纯血鸿蒙 (HarmonyOS NEXT) 系统 (9) - 编译现有的AWTK应用程序

AWTK 应用程序开发完成后&#xff0c;在配置文件中添加 harmonyos 的选项&#xff0c;通过create_project.py脚本即可生成 DevEco Studio的工程。 安装开发环境 DevEco Studio HarmonyOS 的开发工具。 Python 运行环境。 git 源码管理工具。 下载 awtk 和 awtk-harmonyos…

如何创建备份设备以简化 SQL Server 备份过程?

SQL Server 中的备份设备是什么&#xff1f; 在 SQL Server 中&#xff0c;备份设备是用于存储备份数据的物理或逻辑介质。备份设备可以是文件、设备或其他存储介质。主要类型包括&#xff1a; 文件备份设备&#xff1a;通常是本地文件系统中的一个或多个文件。可以是 .bak 文…

Dependency: androidx.webkit:webkit:1.11.0-alpha02. 问题

android studio 打包后出现这个问题 1.步骤更新topOn sdk 添加 //Admob api “com.anythink.sdk:adapter-admob:6.4.18” api “com.google.android.gms:play-services-ads:23.4.0” api "com.google.android.gms:play-services-ads:23.4.0"sdk 中会出现打包编译报错…

ubuntu 20.04 NVIDIA驱动、cuda、cuDNN安装

1. NVIDIA驱动 系统设置->软件和更新->附加驱动->选择NVIDIA驱动->应用更改。该界面会自动根据电脑上的GPU显示推荐的NVIDIA显卡驱动。 运行nvidia-smi: NVIDIA-SMI has failed because it couldnt communicate with the NVIDIA driver. Make sure that the lat…