HBase介绍

一、HBase简介

1.1、HBase是什么

Google在200-2006发表了GFS、MapReduce、BigTable三篇

论文

,号称“三驾马车”,开启了大数据的时代。

GFS是Google File System,开源实现是HDFS(Hadoop File System)。

MapReduce计算框架的开源实现是Hadoop MapReduce。

BigTable的开源实现的实现是HBase(Hadoop DataBase)。

Hadoop解决了海量数据的存储问题,HBase底层存储基于Hadoop,除了可以存储海量数据外,还解决了海量数据的随机查询问题。

1.2、HBase优缺点

1)HBase优点

  • 海量存储:HBase单表可以存储千亿行、百万列的数据规模,数据容量可以达到TB甚至PB。
  • 支持动态扩缩容:主要包括存储节点和读写服务节点扩展。HBase底层存储基于Hadoop,存储节点可以通过增加DataNode实现扩展。读写服务节点可以通过增加RegionServer实现扩展。
  • 列式存储:每个列族会有多个列,每个列族单个文件存储,可独立权限控制和查询。
  • 无模式:HBase的列可以根据需求动态增加,同一个表不同行可以有截然不同的列。
  • 数据自动过期:HBase列族可设置TTL,超过TTL的数据就会自动清理
  • 数据多版本:HBase支持多版本特性,用户可以根据需要选择最新版本或者历史版本

2)HBase缺点

  • HBase只支持简单分页。可通过scan的startRow和limit实现简单分页,但因为需要startRow,所以只支持上一页和下一页,不支持直接跳到某一页。
  • HBase不支持复杂的聚合运算,比如说Join、GroupBy、查询总数等。
  • HBase不支持事务。
  • HBase不支持二级索引,HBase只支持rowkey精确查询或者前缀查询走索引,其它都是全表扫描。如果需要实现这种功能,需要引入第三方方案(Phoenix等)。

1.3、HBase数据模型

1)HBase表逻辑结构

2)HBase表物理存储结构

3)HBase数据模型

  • Name Space

命名空间,类似于关系型数据库的database概念,每个命名空间下有多个表。HBase两个自带的命名空间,分别是hbase和default,hbase中存放的是HBase内置的表,default表是用户默认使用的命名空间。

  • Table

类似于关系型数据库的表概念。不同的是,HBase定义表时只需要声明列族即可,不需要声明具体的列。这意味着,往HBase写入数据时,字段可以动态、按需指定。因此和关系型数据库相比,HBase能够轻松应对字段变更的场景。

  • Row

HBase表中的每行数据都由一个RowKey和多个Column(列)组成,数据是按照RowKey的字典顺序存储的,并且查询数据时只能根据RowKey进行检索,所以RowKey的设计十分重要。

  • Column

HBase中的每个列都由Column Family(列族)和Column Qualifier(列限定符)进行限定,例如info:name,info:age。建表时,只需指明列族,而列限定符无需预先定义。

  • Time Stamp

用于标识数据的不同版本(version),每条数据写入时,系统会自动为其加上该字段,其值为写入HBase的时间。

  • Cell

由{rowkey, column Family:column Qualifier, time Stamp} 唯一确定的单元

1.4、HBase、MongoDB、Redis、ES对比

二、HBase架构

2.1、HBase架构介绍

2.2、HBase物理存储

1)、Table在行的方向上分割为多个Region,每个Region分散在不同的RegionServer中。

2)、每个Region由多个Store构成,每个Store由一个memStore和0或多个StoreFile组成,每个Store保存一个列族。

HBase表和region关系总结

2.3、定位rowkey所在的region

1)、先读取zk的/hbase/meta-region-server节点信息,获取meta表所在的RegionServer

meta表其实就是HBase表,但未分片(只有一个region)

meta表rowkey主要是table,startKey,列信息主要是Regionserver所在的在服务器及端口

2)、根据rowkey在meta表中查询所在的Regionserver服务器及端口

3)、客户端向该RegionServer发送真正的数据读写请求

2.4、HBase写过程

1)、根据rowkey在meta表中查询所在的Regionserver服务器及端口,向该RegionServer发送写请求

2)、先把数据写入到 HLog,以防止数据丢失。

3)、 然后将数据写入到 Memstore。

4)、如果memstore达到阈值,会把memstore中的数据flush到StoreFile 中

memstore刷新时机

a、单个memstroe大小达到阀值hbase.hregion.memstore.flush.size(默认值128M)

b、memstore总大小达到总内存的40%。hbase.regionserver.global.memstore.upperLimit(默认值0.4)

c、到达自动刷新时间hbase.regionserver.optionalcacheflushinterval(默认1小时)

5)、当Storefile越来越多,会触发合并操作

合并分两种:小合并和大合并

小合并:选取一些小的、相邻的Storefile将他们合并成一个更大的Storefile,这个过程还会清理部分TTL过期数据

大合并:合并Store中所有的Storefile为一个Storefile,这个过程还会清理所有TTL过期数据

6)、当Region 也会越来越大,达到阈值后,会触发 Split 操作,将 Region 一分为二。

region切分时机:min(256M*region数量^3 ,10G) 。具体的切分策略为:

第一次split:1^3 * 256 = 256MB

第二次split:2^3 * 256 = 2048MB

第三次split:3^3 * 256 = 6912MB

第四次split:4^3 * 256 = 16384MB > 10GB,因此取较小的值10GB

后面每次split的size都是10GB了。

三、HBase shell

  • 创建表

create 'user_info', {NAME=>'base_info'}, {NAME=>'credit_info',TTL=>'86400'}

  • 创建表

drop 'user_info'

  • 更新表

alter 'user_info', {NAME=>'education_info'}

  • 新增数据

put 'user_info', 'u001', 'base_info:name', 'zhang san'

  • 删除数据

deleteall 'user_info', 'u001'

  • 查询数据

get 'user_info','u001'

get 'user_info','u001','base_info'

get 'user_info','u001','base_info'

  • 分页查询

scan 'user_info', {FILTER=>"PageFilter(10)", STARTROW=>''u0010}

四、HBase使用注意事项

4.1、rowkey设计

HBase中的行是按照rowkey的字典顺序排序的,这种设计优化了 scan操作,可以将相关的行以及会被一起读取的行存取在临近位置,便于 scan读取。但也容易引发热点问题,比如说rowkey如果是递增的话,新增的数据会集中到一个region里面。所以rowkey设计要遵循以下原则

  • 唯一原则:必须在设计上保证其唯一性
  • 长度原则:100字节以内,8的倍数最好,可能的情况下越短越好
  • 散列原则:高位散列,避免热点问题

高位散列如何做?

  • 加盐:在rowkey的前面增加随机数,使得它和之前的rowkey的开头不同。加盐之后的rowkey就会根据随机生成的前缀分散到各个region上,以避免热点。
  • 反转:这样可以使得rowkey中经常改变的部分放在前面,这样可以有效的随机rowkey。以递增用户号为rowkey,这种情况是不能在用户号前面增加随机数,但可以将用户号反转后的字符串作为rowkey,这样的就避免了以递增用户号导致热点的问题

4.2、预分片

预分片可以解决以下问题

  • 负载均衡。当一个table刚被创建的时候,HBase默认的分配一个region给table。也就是说这个时候,所有的读写请求都会访问到同一个RegionServer的同一个region中,这个时候就达不到负载均衡的效果
  • 避免region切分、自动平衡导致系统波动。

预分片如何做?

create 'user_info', {NAME=>'base_info'}, {NAME=>'credit_info',TTL=>'86400'} ,SPLITS => ['100000000','200000000','300000000','400000000']

4.3、namespace

HBase没有database概念,创建的表可以不指定namespace,默认会放在default的namespace,在HBase不共用的时候没有问题。但如果共用的话,授权就会比较麻烦。所以创建表的时候,需要指定自定义的namespace

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/249611.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习-搭建Colab环境

Google Colab(Colaboratory) 是一个免费的云端环境,旨在帮助开发者和研究人员轻松进行机器学习和数据科学工作。它提供了许多优势,使得编写、执行和共享代码变得更加简单和高效。Colab 在云端提供了预配置的环境,可以直接开始编写代码&#x…

vue2 导入使用vue-codemirror详解

目录 vue2 导入使用vue-codemirror详解1 介绍2 安装使用2.1 安装 vue-codemirror2.2 使用 codemirror2.2.1 引入 3 配置详情3.1 语言模式配置3.2 自动高度设置3.4 主题配置 4 总结 vue2 导入使用vue-codemirror详解 1 介绍 vue-codemirror是一个基于Vue的代码在线编辑器组件&…

Linux部署DataEase数据分析工具并结合内网穿透实现任意设备远程查看数据

文章目录 前言1. 安装DataEase2. 本地访问测试3. 安装 cpolar内网穿透软件4. 配置DataEase公网访问地址5. 公网远程访问Data Ease6. 固定Data Ease公网地址 前言 DataEase 是开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务…

线性表的链式表示【单链表】

目录 单链表的优缺点 单链表结点的定义 头插法新建链表 尾插法新建链表 按位查找 按值查找 i 位置插入元素 单链表的删除 单链表的优缺点 优点缺点 1. 插入和删除操作不需要移动元素,只需要修改指针 2. 不需要大量的连续存储空间 1. 单链表附加指针域&…

【昕宝爸爸小模块】日志系列之什么是分布式日志系统

➡️博客首页 https://blog.csdn.net/Java_Yangxiaoyuan 欢迎优秀的你👍点赞、🗂️收藏、加❤️关注哦。 本文章CSDN首发,欢迎转载,要注明出处哦! 先感谢优秀的你能认真的看完本文&…

基于单片机温度控制系统的研究

摘 要:笔者基于单片机的温度控制系统,从单片机选择、传感器选择、系统框架设计等方面概述了单片机的温度控制系统内涵,分析了其运行原理,列举了单片机温度控制系统设计的实操方法,从硬件系统、软件系统、温度检测方法…

第一节课,用户管理--后端初始化,项目调通。二次翻工2

一、网址来源: 快速开始 | MyBatis-Plus (baomidou.com) 进程: ​ 二、[此处不看]添加测试类,看下效果 2.1 参考 一、第一节课,用户管理--后端初始化,项目调通-CSDN博客 ​ 2.2 新建 SampleTest ​ 2.3 复…

基于springboot汽车租赁系统源码和论文

首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要包括软件架构模式、整体功能模块、数据库设计。本项…

【漏洞复现】中移铁通禹路由器弱口令漏洞

Nx01 产品简介 中移禹路由器支持宽带拨号、动态IP和静态IP三种上网模式,一般中国移动宽带的光猫都是智能光猫也就是光猫带路由器功能,中移禹路由器作为二级路由使用。 Nx02 漏洞描述 中移禹路由器存在默认口令(admin),攻击者可利用该漏洞获取敏感信息。 Nx03 产品…

docker镜像详解

文章目录 一、什么是docker镜像 二、为什么需要镜像 三、镜像相关命令详解 3、1 命令清单 3、2 命令详解 四、镜像实战 4、1 镜像操作案例 4、2 离线迁移镜像 4、3 镜像存储的压缩与共享 🙋‍♂️ 作者:Ggggggtm 🙋‍♂️ 👀 专栏…

RabbitMQ 死信队列应用

1. 概念 死信队列(Dead Letter Queue)是在消息队列系统中的一种特殊队列,用于存储无法被消费的消息。消息可能会因为多种原因变成“死信”,例如消息过期、消息被拒绝、消息队列长度超过限制等。当消息变成“死信”时,…

喝汽水问题

答案&#xff1a; #include <stdio.h> int main() {int num 0; //可以喝汽水的次数int mon 20; //钱int cup 0; //瓶子数for (mon 20; mon > 0; mon--) //每次花1元钱买汽水喝{num; //可以喝汽水的次数加1cup; //瓶子数加1if (cup 2) //如果瓶子…

cuda基础教程(一)

文章目录 0. CURA Runtime API1. CUDA人工智能编程1.1. CUDA介绍1.2. 课程内容 2. 异构计算和并行计算2.1. 什么是并行计算2.2. 什么是异构计算 3. CUDA介绍3.1. GPU的性能指标3.2. 什么是CUDA3.3. 如何学习CUDA 4. 系统GPU查询5. Linux系统6. CUDA安装7. 查询GPU信息8. CUDA编…

故障诊断 | 一文解决,GRU门控循环单元故障诊断(Matlab)

文章目录 效果一览文章概述专栏介绍模型描述源码设计参考资料效果一览 文章概述 故障诊断 | 一文解决,GRU门控循环单元故障诊断(Matlab) 专栏介绍 订阅【故障诊断】专栏,不定期更新机器学习和深度学习在故障诊断中的应用;订阅

Java:搭建eladmin复习mvn、springboot、vue等

目录 1.源码平台后端&#xff1a; 2.源码平台前端&#xff1a; 3.操作系统&#xff1a;centos7.9 4.mysql:5.7.x 安装 5.redis:5.0.X 6.maven&#xff1a;3.8 7.java:1.8&#xff1a; 8.nodejs:16.x 9.通过mvn打包eladmin后端 10.npm打包前端项目进行部署 11.访问测试…

永磁同步电机速度环闭环控制

文章目录 1、速度环分析2、电机参数3、PI计算4、模型仿真4.1 模型总览4.2 实际转速与参考转速对比4.3 转矩波形4.4 相电流采样波形 模型下载地址&#xff1a; 链接: 速度闭环模型&#xff08;速度电流双闭环&#xff09; 1、速度环分析 2、电机参数 Udc24 V Rs0.6 LdLq1.4e-3…

二、人工智能之提示工程(Prompt Engineering)

黑8说 岁月如流水匆匆过&#xff0c;哭一哭笑一笑不用说。 黑8自那次和主任谈话后&#xff0c;对这个“妖怪”继续研究&#xff0c;开始学习OpenAI API&#xff01;关注到了提示工程(Prompt Engineering)的重要性&#xff0c;它包括明确的角色定义、自然语言理解&#xff08;…

Redis 布隆过滤器

布隆过滤器 这一篇文章主要是记录布隆过滤器的使用和认识 主要参考了如下的blog https://blog.csdn.net/weixin_42972832/article/details/131211665 他讲的还不错 简单的来说,布隆过滤器,实际上就像是一个集合,拿redis的key来举例来说,布隆过滤器的设置就是去过滤不属于redi…

mybatisplus-多数据源配置

1. 流程 pom文件yml配置多数据源具体服务添加注解DS(“***”) 1.pom文件 <!--mybatis plus 起步依赖--><dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.4.0</vers…

VS之调用程序对DLL中全局变量的使用

接上篇《VS生成C动态链接库DLL》&#xff0c;能够生成DLL&#xff0c;且能调用后&#xff0c;遇到一个问题&#xff0c;即在DLL程序中定义了一些全局变量&#xff0c;应用程序需要使用&#xff0c;本以为可以直接使用&#xff0c;没想到&#xff0c;还是需要设置才可以&#xf…