HBase理论_背景特点及数据单元及与Hive对比

HBase理论_背景特点及数据单元及与Hive对比

news/2024/11/24 1:05:00/文章来源:https://blog.csdn.net/qq_52128187/article/details/143731055

本文结合了个人的笔记以及工作中实践经验以及参考HBase官网，我尽可能把自己的知识点呈现出来，如果有误，还请指正。

1. HBase背景

HBase作为面向列的数据库运行在HDFS之上，HDFS缺乏随机读写操作，HBase正是为此而出现。HBase参考 Google 的 Bigtable 实现，以键值对的形式存储。项目的目标就是快速在主机内数十亿行数据中定位所需的数据并访问它。

分析这句话包含的隐藏信息：

2. hbase特点

建立在HDFS之上的分布式面向列的数据库
KV结构数据库，原生不支持标准SQL，属于NOSQL数据库
支持快速随机读写海量数据
具备HDFS的高容错能力
不属于关系型数据库，适合存储非机构化数据，基于列存储

3. hbase和hive的区别

hive适合统计分析，hive底层执行的是MapReduce，延迟较高
列式存储适合关联查询场景，而行式存储适合点查询场景
hbase适合大数据量查询，不适合统计分析，hbase底层采用KV结构存储，可以快速返回数据（能知道你的数据存在哪个region上）
hbase采用列式存储，可以动态扩展列（想加多少列就能加多少）

具体对上面解释的笔记

4. hbase数据单元

4.1 基础知识

hbase是一个稀疏的、多维度、有序的映射表，表中的每个单元是通过行键、列族、列限定符和时间戳组成的索引来标识的，每个单元存储的值是一个未经解释的二进制数组byte[]，没有数据类型，当用户在表中存储数据时，每一行都有一个唯一的行键和任意多的列，表的每一行由一个或者多个列族组成，一个列族可以包含任意多个列。

行键rowkey（主键）

每条数据的主键，rowkey是有序的，采用字典顺序排序，方便快速查找，rowkey的设计至关重要，建表时不指定。

列族column family（将相同类别的字段，放到同一个列族中）

多个列的组合，建表时指定。

列限定符column(字段)

归属于一个列族，代表着一列，建表时不指定，可动态扩展列，表达方式为column family:column，例：cf:name，标识在cf列族下的name列。

时间戳version

默认为系统时间戳timestamp，代表着一份数据不同时间节点的版本。

值value

由rowkey、column family、column、version索引检索得到的唯一值，key<rowkey、column family、column、version> ，value<唯一的值>，KV结构就由此而来。

4.2 hbase架构细节解释

索引

表中的每个单元是通过行键、列族、列限定符和时间戳组成的索引来标识的

【这张图片引用参考：https://zhuanlan.zhihu.com/p/151871736】

单元存储

每个单元存储的值是一个未经解释的二进制数组byte[]，没有数据类型

hive行式存储与hbase列式存储

如下示例进行两种数据存储方式的对比：当用户在表中存储数据时，每一行都有一个唯一的行键和任意多的列，表的每一行由一个或者多个列族组成，一个列族可以包含任意多个列。

列族

列族column family（将相同类别的字段，放到同一个列族中）

4.3两种数据存储方式的对比：

hive行式存储

rowkey	name	age	address
1001	user1	20	beijing
1002	user2	21	shanghai

hbase列式存储

rowkey	cf	column	version（时间戳）	value
1001	cf	cf:name	t1	user1
1001	cf	cf:age	t2	20
1001	cf	cf:address	t3	beijing
1002	cf	cf:name	t4	user2
1002	cf	cf:age	t5	21
1002	cf	cf:address	t6	shanghai

hbase 版本

hbase没有修改语法，当要修改一条数据只需要直接写入即可。

version默认是由系统时间戳表示，当用户重复写入一条数据时，hbase会记录两条数据，因为rowkey、column family、column相同，此时则使用version字段进行区分，并且会保留上一个版本的数据，同一条数据不同版本使用version倒序排序！如下：

原数据

rowkey	cf	column	version	value
1001	cf	cf:name	t1	user1
1001	cf	cf:age	t2	20
1001	cf	cf:address	t3	beijing
1002	cf	cf:name	t4	user2
1002	cf	cf:age	t5	21
1002	cf	cf:address	t6	shanghai

此时用户要修改如下数据name的value值

rowkey	cf	column	value
1001	cf	cf:name	newusername

执行添加数据命令put 'namespace:tablename','1001','cf:name','newusername'后hbase表数据

rowkey	cf	column	version	value
1001	cf	cf:name	t7	newusername
1001	cf	cf:name	t1	user1
1001	cf	cf:age	t2	20
1001	cf	cf:address	t3	beijing
1001	cf	cf:name	t4	user2
1001	cf	cf:age	t5	21
1001	cf	cf:address	t6	shanghai

当一条数据存在多个版本的时候，查询如果不指定版本，则默认查询最新一条数据，hbase的version也不是可以无限存的，默认版本数为3，可以设置最多存储多少个版本，当超过设定的版本数之后则删除最早版本的数据。

laoli_matrix70演示：插入数据

参考资料：

Apache HBase® Reference Guide HBASE官网

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/470900.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

MoneyPrinterTurbo – 开源的AI短视频生成工具

MoneyPrinterTurbo – 开源的AI短视频生成工具

MoneyPrinterTurbo是什么 MoneyPrinterTurbo是开源的AI短视频生成工具，能自动化地根据用户提供的视频主题或关键词生成视频文案、素材、字幕和背景音乐，合成高清短视频。工具支持API和Web界面操作，具备自定义文案、多种视频尺寸、批量视频生…

阅读更多...

[CKS] K8S NetworkPolicy Set Up

[CKS] K8S NetworkPolicy Set Up

最近准备花一周的时间准备CKS考试，在准备考试中发现有一个题目关于不安全项目修复的题目。专栏其他文章: [CKS] Create/Read/Mount a Secret in K8S-CSDN博客[CKS] Audit Log Policy-CSDN博客 -[CKS] 利用falco进行容器日志捕捉和安全监控-CSDN博客[CKS] K8S Ne…

阅读更多...

DataWorks on EMR StarRocks，打造标准湖仓新范式

DataWorks on EMR StarRocks，打造标准湖仓新范式

在大数据领域，数据仓库和实时分析系统扮演着至关重要的角色。DataWorks 基于大数据引擎，为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台，为用户带来智能化的数据开发和分析体验。而阿里云提供的 EMR Serverless St…

阅读更多...

设计模式之责任链模式（Chain Of Responsibility）

设计模式之责任链模式（Chain Of Responsibility）

一、责任链模式介绍 1、责任链模式介绍职责链模式(chain of responsibility pattern) 定义: 避免将一个请求的发送者与接收者耦合在一起，让多个对象都有机会处理请求。将接收请求的对象连接成一条链，并且沿着这条链传递请求，直到有一个对…

阅读更多...

Qt_day4_Qt_UI设计

Qt_day4_Qt_UI设计

目录 Qt_UI设计 1. Designer 设计师（掌握） 2. Layout 布局（重点） 2.1 基本使用 2.2 高级用法 2.3 代码布局（了解） 3. Designer与C的关系（熟悉） 4. 基本组件（掌握…

阅读更多...

Unity学习笔记(4):人物和基本组件

Unity学习笔记(4):人物和基本组件

文章目录前言开发环境新增角色添加组件RigidBody 2D全局项目设置Edit 给地图添加碰撞体总结前言今天不加班，有空闲时间。争取一天学一课，养成习惯开发环境 Unity 6windows 11vs studio 2022Unity2022.2 最新教程《勇士传说》入门到进阶&#xff…

阅读更多...

Elastic Observability 8.16：增强的 OpenTelemetry 支持、高级日志分析和简化的入门流程

Elastic Observability 8.16：增强的 OpenTelemetry 支持、高级日志分析和简化的入门流程

作者：来自 Elastic Luca Wintergerst, Alex Fedotyev, Vinay Chandrasekhar, Miguel Luna Elastic Observability 8.16 宣布了几个关键功能： Amazon Bedrock 集成 LLM 可观察性为基于 Amazon Bedrock 构建的 LLM 应用程序添加了全面的监控功能。这种新的…

阅读更多...

Bugku CTF_Web——文件上传

Bugku CTF_Web——文件上传

Bugku CTF_Web——文件上传进入靶场 My name is margin,give me a image file not a php抓个包上传试试改成png也上传失败应该校验了文件头增加了文件头也不行试了一下把文件类型改成gif可以上传但是还是不能连接将Content-Type改大小写再把文件后缀名改成php4 成…

阅读更多...

车-路-站-网”信息耦合的汽车有序充电

车-路-站-网”信息耦合的汽车有序充电

电动汽车作为一种环保、的交通工具，正逐渐成为未来交通的发展趋势。然而，大规模电动汽车的无序充电可能导致电网负荷波动、电压下降等问题，影响电网的安全稳定运行。为了解决这些问题，需要制定有效的电动汽车有序充电策略&#xf…

阅读更多...

Microsoft 365 Exchange如何设置可信发件IP白名单

Microsoft 365 Exchange如何设置可信发件IP白名单

1、进入到 Microsoft 365 admin center 管理中心 ，点击管理中心下的安全在弹出的新页面中，依次点击策略和规则 – 威胁策略 – 反垃圾邮件再单击连接筛选器策略(默认) – 编辑连接筛选器策略 2、在 IP 允许列表中添加可信邮件 IP 段&#xff0…

阅读更多...

什么岗位需要学习 OpenGL ES ？说说 3.X 的新特性

什么岗位需要学习 OpenGL ES ？说说 3.X 的新特性

什么是 OpenGL ES OpenGL ES 是一种为嵌入式系统和移动设备设计的3D图形API（应用程序编程接口）。它是标准 OpenGL 3D 图形库的一个子集，专门为资源受限的环境（如手机、平板电脑、游戏机和其他便携式设备）进行了优化。由于其在移动设备上的广泛适用性，OpenGL ES是学习移…

阅读更多...

力扣104 ：二叉树最大深度

力扣104 ：二叉树最大深度

补：二叉树的最大深度描述： 给定一个二叉树 root ，返回其最大深度。二叉树的最大深度是指从根节点到最远叶子节点的最长路径上的节点数。何解？ 树一般常用递归：递到叶子节点开始倒着处理

阅读更多...

免费，WPS Office教育考试专用版

免费，WPS Office教育考试专用版

WPS Office教育考试专用版，不仅满足了考试需求，更为教育信息化注入新动力。 https://pan.quark.cn/s/609ef85ae6d4

阅读更多...

[运维][Nginx]Nginx学习(1/5)--Nginx基础

[运维][Nginx]Nginx学习(1/5)--Nginx基础

Nginx简介背景介绍 Nginx一个具有高性能的【HTTP】和【反向代理】的【WEB服务器】，同时也是一个【POP3/SMTP/IMAP代理服务器】，是由伊戈尔赛索耶夫(俄罗斯人)使用C语言编写的，Nginx的第一个版本是2004年10月4号发布的0.1.0版本。另外值得一…

阅读更多...

《新智慧》期刊的征稿范围主要包括哪些方面？

《新智慧》期刊的征稿范围主要包括哪些方面？

一、教育教学理论与实践： 教学方法创新：例如新颖的课堂教学模式、教学策略的探索与实践，如小组合作学习、项目式学习、探究式学习等教学方法在不同学科教学中的应用及效果研究。课程改革研究：对基础教育、中等教育阶段的课程改革…

阅读更多...

Golang | Leetcode Golang题解之第559题N叉树的最大深度

Golang | Leetcode Golang题解之第559题N叉树的最大深度

题目： 题解： func maxDepth(root *Node) (ans int) {if root nil {return}queue : []*Node{root}for len(queue) > 0 {q : queuequeue nilfor _, node : range q {queue append(queue, node.Children...)}ans}return }

阅读更多...

C++初阶：类和对象（上）

C++初阶：类和对象（上）

1. 类的定义 1.1 类的定义格式 class为定义类的关键字，Stack为类的名字，{ } 中为类的主体，注意类定义结束后的分号不能省略。类体中的内容为类的成员：类中的变量称为类的属性或成员变量；类中的函数称为类的方法或成员…

阅读更多...

linux设置主机名

linux设置主机名

1、查看主机名 hostname默认： localhost.localdomain 2、更改主机名编辑/etc/hostname，修改成自己需要的主机名，如self-name 3、设置hosts 编辑/etc/hosts，将修改的主机名增加一个映射 127.0.0.1 localhost localhost.lo…

阅读更多...

MybatisPlus入门(十)MybatisPlus-逻辑删除和多记录操作

MybatisPlus入门(十)MybatisPlus-逻辑删除和多记录操作

一、Mybatis-Plus 多记录操作按照主键删除多条记录 List<Long> ids Arrays.asList(new Long[]{2,3}) userDao.deleteBatchIds(ids); 示例代码如下: Testvoid testDelete(){//删除指定多条数据List<Long> list new ArrayList<>();list.add(14025513424818…

阅读更多...

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url

解决Anaconda出现CondaHTTPError: HTTP 000 CONNECTION FAILED for url 第一类情况在anaconda创建新环境时，使用如下代码 conda create -n charts python3.7 错误原因： 默认镜像源访问速度过慢，会导致超时从而导致更新和下载失败。解决方…

阅读更多...

最新文章

推荐文章