大数据——一文熟悉HBase

1、HBase是什么

HBase是基于HDFS的数据存储，它建立在HDFS文件系统上面，利用了HDFS的容错能力，内部还有哈希表并利用索引，可以快速对HDFS上的数据进行随时读写功能。
在这里插入图片描述

Hadoop在已经有一个Hive+MapReduce结构的数据读写功能，为什么还要HBase呢？我们在使用Hive的过程中也发现，MapReduce的过程很慢，不适合实时的读写访问，更多的时候是进行线下的访问。但在实际应用过程中，我们需要对大数据进行实时的读写，这时候HBase就派上用场。
HBase使用场景：
HBase适合在瞬间写入量大，大量数据需要长期保存，并且数量会持续增长的场景。但在多级索引和关系复杂的数据模型，还有跨行事务场景也不适合HBase。

2、HBase怎么工作

HBase基础架构

在这里插入图片描述
Client

与Zookeeper进行通信，获取数据入口地址；
与HMaster通信进行管理类操作；
与HRegionServer进行数据读写操作。

Zookeeper

避免单点问题，一直只有running master；
存储所有Region的地址，包括HMaster地址；
监控HRegionServer的状态，并告知HMaster；
存储Table名和Column Family

HMaster

有多个HMaster，通过Zookeeper保证有一个在运行；
为HRegionServer分类Region；
有HRegionServer失效，重新分配；
对HDFS的垃圾文件进行回收；
处理用户对表的增删改查操作；

HRegionServer

HBase核心部分，负责I/O请求，并先HDFS读写数据；
维持HMaster分配的Region，并处理Region的I/O请求；
切分在运行过程中变大的Region；
HRegionServer中有一系列HRegion对象，每个HRegion对应Table中的一个Region，每个HRegion由多个Store组成，每个HStore对应Table中的Column Family。

Column Family是HBase的存储单元，所以相同特性的Column放在一个Column Family更高效。

HStore

HBase存储的核心，由MemStore和StoreFile组成；

HRegion

一个Table最开始的时候是一个Region；
一个Region可以有多个Store，每个Store用来存储一个Column Family；
Region随着数据的越来越多，会进行拆分，由HRegionServer进行拆分，默认大小为10G。

HLog

备份和日志，在系统出错和宕机时，MemStore的数据会丢失，而HLog可以防止该情况。

HBase写数据流程
在这里插入图片描述

HBase数据模型

在这里插入图片描述

NameSpace：数据库的库名；
Table表：HBase的表，由于对于值为空的列不占空间，因此表可以比较稀疏；
Row行：每一行都有一个RowKey来进行识别；
RowKey行键：类似于MySQL中的主键，用来进行检索数据；
Column列：由Column family和Column qualifier组成，两者用;进行间隔；
ColumnFamily列族：列的集合，每个表的列族都以一个文件存储，一个表可以有多个列族；
ColumnQualifier列标识：类似于键值对，key是RowKey，那么ColumnQualifier就是Value；
TimeStamp时间戳：是具有时间属性的列，每个数据都有一个时间戳属性，也就是说数据具有版本特性；
Region区域：HBase可以自动把表划分为多个区域，随着数据的增多区域也变多。

3、HBase的Shell操作

HBase启动

找到zkServer.sh启动Zookeeper

zkServer.sh start

启动HBase

start-hbase.sh

HBase常见Shell操作

连接集群

hbase shell

创建表

create 'user','base_info'# 第一个为表名，第二个为列族

删除表

disable 'user'
drop 'user'

创建数据库

create_namespace 'test' #test为数据库名

展示所有数据库

list_namespace

显示表

list

插入数据
put ‘表名’，‘rowkey的值’，’列族：列标识符‘，’值‘

put 'user','rowkey_10','base_info:username','Tom'

查询表中所有数据

scan 'user' # 很少使⽤全表查询 scan会加上⼀些条件限制

Scan查询中添加限制条件

scan '名称空间:表名', {COLUMNS => ['列族名1', '列族名2'], LIMIT => 10, STARTROW =>'起始的rowkey'}

scan查询添加过滤器
ROWPREFIXFILTER rowkey 前缀过滤器

scan 'user', {ROWPREFIXFILTER=>'rowkey_22'}

查询某个rowkey的数据

get 'user','rowkey_16'

删除表中的数据

delete 'user', 'rowkey_16', 'base_info:username'

清空数据

truncate 'user'

指定显示多个版本

get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>2}

修改可以显示的版本数量

alter 'user',NAME=>'base_info',VERSIONS=>10

通过TIMERANGE 指定时间范围

scan 'user',{COLUMNS => 'base_info', TIMERANGE => [1558323139732,1558323139866]}
get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>2,TIMERANGE=> [1558323904130, 1558323918954]}

通过时间戳过滤器指定具体时间戳的值

scan 'user',{FILTER => 'TimestampsFilter (1558323139732, 1558323139866)'}
get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>2,FILTER =>'TimestampsFilter (1558323904130, 1558323918954)'}

获取最近多个版本的数据

get 'user','rowkey_10',{COLUMN=>'base_info:username',VERSIONS=>10}

通过指定时间戳获取不同版本的数据

get 'user','rowkey_10',
{COLUMN=>'base_info:username',TIMESTAMP=>1558323904133}

命令表
在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.rhkb.cn/news/101373.html

如若内容造成侵权/违法违规/事实不符，请联系长河编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

大数据——一文熟悉HBase

1、HBase是什么

2、HBase怎么工作

HBase基础架构

HBase数据模型

3、HBase的Shell操作

相关文章

【数据分析】波士顿矩阵

LabVIEW模拟化学反应器的工作

多维时序 | MATLAB实现SCNGO-BiLSTM-Attention多变量时间序列预测

Hadoop集群搭建(hadoop-3.3.5)

SQLSTATE[IMSSP]: The active result for the query contains no fields.

线性代数的学习和整理---番外1：EXCEL里角度，弧度，三角函数

k8s ingress (二）

Apollo自动驾驶：引领未来的智能出行

SpringBoot（二）

设计模式-观察者模式

【VS】InstallerProjects.vsix下载 Microsoft Visual Studio Installer Projects （2022）

再JAVA中如何使用qsort对类进行排序？

# Lua与C++交互（二）———— 交互

通讯录管理系统

冠达管理：非银金融是什么？

Spring Boot 集成 WebSocket 实现服务端推送消息到客户端

MySQL不停重启问题

数据结构之——（手撕）顺序表

⛳ Docker 安装 MySQL

node_modules.cache是什么东西