OceanBase V4.3 列存引擎之场景问题汇总

在OceanBase 4.3版本发布后(OceanBase社区版 V4.3 免费下载),其新增的列存引擎,及行列混存一体化的能力,可以支持秒级实时分析,引发了用户、开发者及业界人士的广泛讨论。本文选取了这些讨论中较为典型的一些问题,以解答大家的疑惑。

Q1:OceanBase 列存是什么?

OceanBase的列存技术是一种数据存储形态,它将磁盘上的静态数据以列存的方式保存,而将内存中的修改数据以行存的方式保存,这种设计既保证了高效的扫描性能,又兼顾了出色的事务处理能力。

对于分析类查询,列存可以极大地提升查询性能,也是OceanBase做好 HTAP 的一项不可缺少的功能。经典 AP 数据库,列存数据通常是静态的,很难被原地更新,而 OceanBase 的 LSM Tree 架构中 SSTable 是静态的,天然适合列存的实现;MemTable 是动态的,仍然是行存,对于事务处理不会造成额外影响,这样我们可以一定程度上兼顾 TP 类和 AP 类查询的性能。

Q2:列存版推荐配置是什么?


# 设置 collation 为 utf8mb4_bin,性能瞬间提升 15%
set global collation_connection = utf8mb4_bin;
set global collation_server = utf8mb4_bin;set global ob_query_timeout= 10000000000;
set global ob_trx_timeout= 100000000000;
set global ob_sql_work_area_percentage=30;
set global max_allowed_packet=67108864;
# 建议是cpu的10倍
set global parallel_servers_target=1000;
set global parallel_degree_policy = auto;
set global parallel_min_scan_time_threshold = 10;
# 限制 parallel_degree_policy = auto 时的最大 dop
# 出现较大 dop 可能导致性能问题。下面的值建议设为 cpu_count * 2
set global parallel_degree_limit = 0; alter system set compaction_low_thread_score = cpu_count;
alter system set compaction_mid_thread_score = cpu_count;
alter system set default_table_store_format = "column";

注:上述代码中 cpu_count 表示创建租户时指定的 min_cpu。

Q3:如何让租户创建出来的表,默认就是列存表?

这很简单,设置一个租户级配置项即可:

alter system set default_table_store_format = "column";

相应地,也可以把默认建表做成行存,或者行存列存双份:

alter system set default_table_store_format = "row";   //行存
alter system set default_table_store_format = "compound"; //行存列存双份数据

Q4:列存表的空间占用和行存表比怎么样?

列存表的空间比行存表省 20% 左右。为什么不是更多?因为OceanBase的行存表,压缩能力已经非常强了!

下面是一个客户自己测试 TPC-H 100G 的结果,供参考:

1718087748

Q5:如何创建一个列存表?

首先,创建行列混合表(冗余行存列存表)。

非分区表

create table t1(c1 TINYINT,c2 SMALLINT,c3 MEDIUMINT
) with column group (all columns, each column);

分区表:

create table t2(pk int,c1 int,c2 int,primary key (pk)
)
partition by hash(pk) partitions 4
with column group (all columns, each column);

创建行列混合的列存表的时候,总是会用到 with column group (all columns, each column)语法,它表示的意思如下:

  • all columns。把所有列聚合在一起成组,看成一个宽列,一行一行存储。这其实就和原来的行存是一致的。
  • each column。表中的每一列分别使用列格式来存储。

all columns、each column 一起出现,意味着默认创建列存表后同时冗余行存, 每个副本存储两份基线数据。不过值得注意的是,每张表无论多少份基线数据,在 memtable 和转储里的增量数据,依然是共享同一份。

其次,创建纯列存表。

非分区表

create table t3(c1 TINYINT,c2 SMALLINT,c3 MEDIUMINT
) with column group (each column);

分区表:

create table t4(pk1 int,pk2 int,c1 int,c2 int,primary key (pk1, pk2)
)
partition by hash(pk1) partitions 4
with column group (each column);

对于 t4 表,会针对 pk1、pk2、c1、c2 分别建一个列存,同时还会针对 (pk1, pk2)组合建一个行存。

Q6:如何判断是否走到了列存?

扫描走行存时,explain 中显示的是 TABLE FULL SCAN,走到列存时,显示的是 COLUMN TABLE FULL SCAN。以访问下面的 t5 表为例:

create table t5(c1 TINYINT,c2 SMALLINT,c3 MEDIUMINT,c4 INT,c5 INT,PRIMARY KEY(c1, c2)
) with column group(all columns, each column);OceanBase(admin@test)>explain select c1,c2 from t5;
+------------------------------------------------------------------------+
| Query Plan                                                             |
+------------------------------------------------------------------------+
| ===============================================                        |
| |ID|OPERATOR       |NAME|EST.ROWS|EST.TIME(us)|                        |
| -----------------------------------------------                        |
| |0 |TABLE FULL SCAN|t5  |1       |3           |                        |
| ===============================================                        |
| Outputs & filters:                                                     |
| -------------------------------------                                  |
|   0 - output([t5.c1], [t5.c2]), filter(nil), rowset=16                 |
|       access([t5.c1], [t5.c2]), partitions(p0)                         |
|       is_index_back=false, is_global_index=false,                      |
|       range_key([t5.c1], [t5.c2]), range(MIN,MIN ; MAX,MAX)always true |
+------------------------------------------------------------------------+
11 rows in set (0.011 sec)OceanBase(admin@test)>explain select c1 from t5;
+------------------------------------------------------------------------+
| Query Plan                                                             |
+------------------------------------------------------------------------+
| ======================================================                 |
| |ID|OPERATOR              |NAME|EST.ROWS|EST.TIME(us)|                 |
| ------------------------------------------------------                 |
| |0 |COLUMN TABLE FULL SCAN|t5  |1       |3           |                 |
| ======================================================                 |
| Outputs & filters:                                                     |
| -------------------------------------                                  |
|   0 - output([t5.c1]), filter(nil), rowset=16                          |
|       access([t5.c1]), partitions(p0)                                  |
|       is_index_back=false, is_global_index=false,                      |
|       range_key([t5.c1], [t5.c2]), range(MIN,MIN ; MAX,MAX)always true |
+------------------------------------------------------------------------+
11 rows in set (0.003 sec)

Q7:列存支持更新吗?如何更新?memtable里的结构是怎样的?

OceanBase 中,增删改操作都在内存里完成,数据以行存的形式保存在 Memtable 里;而基线数据是只读的,以列存的形式保存在磁盘上。当读取一列数据时,会实时地融合Memtable 中的行存数据和磁盘里的列存数据,输出给用户。这意味着,OceanBase 支持强一致读列存,不会有数据延迟

写入memtable 的数据支持转储,转储数据依然以行存的形式保存。合并后,行存数据和基线列存数据融合,形成新的基线列存数据。

需要注意的是,对于列存表来说,如果存在大量更新操作,并且没有及时合并,查询性能是不优的。推荐批量导入数据后发起一次合并,可以获得最优的查询性能。少量更新,则对性能影响不大。

1718087768

1718087776

Q8:列存里支持部分列集合在一起存储吗?

OceanBase v4.3.3 及之前版本里,仅支持要么每个列独立存储,要么所有列组成行在一起存储。暂不支持任选若干列集合在一起存储。

Q9:最多支持多少列?

目前一个列存表最多支持 4096 列。

Q10:允许增删列吗?

允许增加列,允许删列。支持 varchar 列字符数改大、改小。

列存支持多种 DDL,和行存表无异。

Q11:支持对列存的某一列建索引吗?

支持对列存的某一列建索引。OceanBase 不区分是对列存建索引,还是对行存建索引,默认建出来的索引结构是一样的(行存格式)。

对列存某一列或几列建索引的意义在于可以构造一个覆盖索引,提升点查询性能,或者对特定列做排序以提升排序性能。

Q12:“列存索引”是什么意思?

OceanBase 还支持列存索引的概念,意思是:索引表的结构是列存格式。这里容易和“对列存建索引”混淆。

例如,我们已经有行存表 t6 ,希望对 c3 求和且性能最好,这时可以对 c3 建一个列存索引,例如:

create table t6(c1 TINYINT,c2 SMALLINT,c3 MEDIUMINT
);create /*+ parallel(2) */ index idx1 on t6(c3) with column group (each column);

除此之外,OceanBase还支持更多索引创建方式,如下:

//支持索引中冗余行存
create index idx1 on t1(c2) storing(c1) with column group(all columns, each column);
alter table t1 add index idx1 (c2) storing(c1) with column group(all columns, each column);//纯列存
create index idx1 on t1(c2) storing(c1) with column group(each column);
alter table t1 add index idx1 (c2) storing(c1) with column group(each column);

在数据库索引中使用 STORING 子句的目的是存储额外的非索引列数据到索引中。这可以为特定的查询提供性能优化,既可以避免回表,也可以降低索引排序的代价。当查询仅需要访问存储在索引中的列,而不需要回表查询原始行时,可以大幅提升查询效率。

Q13:列存表的查询有何特点?

冗余行存表中,列存表查询逻辑默认 range scan 走列存模式, point get 仍回退到行存模式。

纯列存表中,任何查询都走列存模式。

Q14:有和 ClickHouse 的性能对比吗?

OceanBase v4.3.1 没有发布测试性能数据。

我们内部对比过OceanBase v4.3.2 开发版和 ClickHouse 的性能,但目前没有第三方的测试和对比结果,因此下文的测试结果仅供参考。

(1)ClickBench(aws) RT 对比。

云上标准测试(c6a.4xlarge 500gb gp2) 配置:16C、32G内存、500G磁盘、1500 iops。

OBCK
cold run114.35139.572
hot run 136.8844.051
hot run 236.8336.831

该对比无Q30改写优化,若Q30改写优化后,OceanBase的测试结果预计可再提升2s。

Q15:使用列存有什么注意事项?

第一,批量导入数据后,建议做一次合并,读性能可以更优。导完数据后租户内触发一次合并,保证数据全部进入基线,租户内执行 alter system major freeze; 然后在系统租户执行 select STATUS from CDB_OB_MAJOR_COMPACTION where TENANT_ID = 租户ID; 判断合并是否完成,当 STATUS 变为 IDLE 即表示合并完成。

第二,合并后,推荐做一次统计信息收集。收集统计信息方法如下:

  • 在业务租户一键对所有表收集统计信息,启动16个线程并发收集

CALL DBMS_STATS.GATHER_SCHEMA_STATS ('db', granularity=>'auto', degree=>16); 

  • 观测统计信息进度可以通过视图 GV$OB_OPT_STAT_GATHER_MONITOR

第三,可以使用全量旁路导入逻辑批量导入数据,使用这种方式导入数据的表无需做合并,就能达到最优列存扫描性能。支持全量旁路导入的工具包括 obloader、原生 load data 命令。

第四,对于非大宽表场景,不使用列存也可能达到和列存相当的性能。这得益于 OceanBase 行存版本中微块级别的行列混合存储架构(遇到这种情况,不用惊讶)。

第五,大数据量表,cold run 和 hot run 性能有区别。

第六,优化器会根据代价估算,自动选择对列数据的访问使用行存还是列存。

第七,列存表合并速度会变慢。

Q16:什么是旁路导入?如何做旁路导入?

旁路导入是一种加快数据导入,并且能够加速数据查询的数据导入方式。大表数据导入,推荐使用旁路导入方式。目前,load data 命令、insert into select 语句支持旁路导入。旁路导入的详细使用方式参考 OceanBase 官网文档。

Q17:支持事务吗?对事务大小有限制吗?

和行存表一样,支持事务,并且事务大小无限制,具备高一致性。

和 Doris 相比,OceanBase 事务能实时性更好。OceanBase 支持大量小事务,而 Doris 必须攒批多行形成大事务后再提交。

Q18:支持使用 FlinkCDC 从其它数据库同步数据到 OceanBase 吗?

支持。例如,使用 FlinkCDC 从 MySQL 同步数据到 OceanBase:OceanBase分布式数据库-海量数据 笔笔算数

Q19:是否支持 Flink Connector 访问 OceanBase?

支持。详见 https://github.com/oceanbase/flink-connector-oceanbase

Q20:列存表的日志同步、备份恢复等有什么特别之处吗?

没有任何特别之处,和行存表一致。同步的日志都是行存模式。

Q21:是否支持将行存表用 DDL 变成列存表?

支持。通过加列存、删行存实现。相关语法示例如下。

create table t1( pk1 int, c2 int, primary key (pk1));alter table t1 add column group(all columns, each column);
alter table t1 drop column group(all columns, each column);alter table t1 add column group(each column);
alter table t1 drop column group(each column);
  • note:alter table t1 drop column group(all columns, each column);执行后,不用担心没有任何 group 来承载数据,所有列会被放到一个叫做 DEFAUTL COLUMN GROUP的默认 group 中。DEFAUTL COLUMN GROUP 中的存储格式,由租户级配置项 default_table_store_format的取值决定。
  • 该操作为 offline DDL,会锁表。线上谨慎使用。

Q22:还有哪些可以进一步提升 AP Query 性能的方法?

根据一些实践经验得知,首先如果不是有特殊排序要求,建表时候字符集不要使用 utf8mb4,而是使用 binary,可以提升性能。例如:

create table t5(c1 TINYINT, c2 VARVHAR(50)) CHARSET=binary with column group (each column);

其次,如用户或者业务可以接受, mysql 租户建表时指定 utf8mb4_bin 字符集,建表时带上:CHARSET = utf8mb4 collate=utf8mb4_bin

此外,增加 UNIT 的 IOPS,可以加速旁路导入。

Q23:面向列存的优化器,有什么特点?

面相列存的优化器,相对于面相行存优化器,增加了:

  • 优化器自主选择行、列存的能力。
  • hint 控制行、列存选择的能力(表级别)。
  • 适配了列存的计划代价计算。
  • 增加了列存的晚期物化优化。

以上就是目前关于列存的解答,如果大家有其他疑问,欢迎在评论区留言讨论。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/399606.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

企业应该如何准备 EcoVadis 审核?

企业准备 EcoVadis 审核可以参考以下步骤: 注册:在网上注册并提供公司的相关信息,包括法律实体名称、国家和地区、企业规模和行业等。如果是受客户邀请参加评估,需按照邀请邮件中的链接进行注册,并确保客户能随时获知评…

安卓默认混淆规则文件的区别

在 Android 项目中,ProGuard 是一个优化和混淆代码的工具。proguard-android-optimize.txt 和 proguard-android.txt 是两个用于配置 ProGuard 的默认规则文件,如图下 它们有以下区别: proguard-android-optimize.txt: 优化:这个配…

Django中事务的基本使用

1. Django事务处理 事务(Transaction): 是一种将多个数据库操作组合成一个单一工作单元的机制. 如果事务中的所有操作都成功完成, 则这些更改将永久保存到数据库中. 如果事务中的某个操作失败, 则整个事务将回滚到事务开始前的状态, 所有的更改都不会被保存到数据库中. 这对于…

系统编程 day10 进程2

进程创建之后: 1.任务-----子进程与父进程干的活差不多 2.父进程创建出子进程之后,子进程做的与父进程完全不同 shell程序-----bash----- 以上为进程运行的过程中,典型的两种应用场景 能够改变子进程的执行效果的函数是exec函数族 l和v&a…

【网盘系统3.0版本】百度云盘手动cookie获取,添加到扫码系统管理平台。

一.获取cookie步骤 1.谷歌浏览器选择开发者模式。 2.选择网路,过滤接口main 3.选择request head,cookie列表里面可查看二.添加到管理平台。 1.登录管理平台,输入账户和密码 2.选择账户设置,添加cookie。 4.复制卡密链接&#xf…

LVS实验的三模式总结

文章目录 LVS的概念叙述NAT工作模式实战案例**思想:**NAT工作模式的优点NAT工作模式的缺点 NAT工作模式的应用场景大致配置 route:打开路由内核功能 部署DR模式集群案例工作思想:大致工作图如下思路模型 具体配置与事实步骤补充 防火墙标签解…

c++编程(20)——类与对象(6)继承

欢迎来到博主的专栏——c编程 博主ID:代码小豪 文章目录 继承继承与权限访问 基类和派生类基类和派生类的赋值兼容转换基类与派生类的类作用域派生类与基类的构造函数基类与派生类拷贝构造函数 继承与静态成员final关键字 面向对象编程的核心思想是封装、继承和多态…

计算机网络408考研 2021

2021 计算机网络408考研2021年真题解析_哔哩哔哩_bilibili 1 1 11 1 1 11

解决No module named ‘tensorflow‘

import tensorflow as tf ModuleNotFoundError: No module named tensorflow 安装合适的tensorflow版本 先查看自己的python版本 或者输入指令;python --version 安装兼容的tensorflow版本,安装指定版本的tensorflow pip install tensorflow-gpu2.3.0…

Qt | QSQLite内存数据库增删改查

点击上方"蓝字"关注我们 01、演示 参数随便设置 查询 修改 右键菜单是重点 手动提交,点击Submit All

【Docker】基础篇

系列综述: 💞目的:本系列是个人整理为了云计算学习的,整理期间苛求每个知识点,平衡理解简易度与深入程度。 🥰来源:材料主要源于–Docker视频教程从入门到进阶,docker视频教程详解–…

【云原生】高可用集群KEEPALIVED(理论篇)

一、高可用集群 1.1 集群类型 LB:Load Balance 负载均衡 LVS/HAProxy/nginx(http/upstream, stream/upstream)HA:High Availability 高可用集群数据库、RedisSPoF: Single Point of Failure,解决单点故障HPC: High Performance computing 高性能集群 1.2 系统可用…

车身域测试学习、CANoe工具实操学习、UDS诊断测试、功能安全测试、DTC故障注入测试、DBC数据库、CDD数据库、CAN一致性测试、ECU刷写测试

每日直播时间:(直播方式:腾讯会议)周一到周五:20:00-23:00周六与周日:9:00-17:00 进腾讯会议学习的,可以关注我并后台留言 直播内容:&…

OKnews加密货币资讯:现货比特币ETF市场动荡,价格大幅下跌

OKnews加密货币资讯网8月13日讯:现货比特币ETF 市场近期的动荡给加密货币行业带来了冲击,导致比特币 (BTC) 未能维持其在关键的60,000美元大关之上的地位。该数字货币在过去24 小时内下跌了 3.65%,跌至58,515 美元。市场波动加剧以及对美国经…

人脸操作:从检测到识别的全景指南

人脸操作:从检测到识别的全景指南 在现代计算机视觉技术中,人脸操作是一个非常重要的领域。人脸操作不仅包括检测图像中的人脸,还涉及到人脸识别、表情分析、面部特征提取等任务。这些技术在各种应用中发挥着关键作用,从社交媒体…

中国科技统计年鉴,数据覆盖1991-2022年多年份

基本信息. 数据名称: 中国科技统计年鉴 数据格式: excel 数据时间: 1991-2022年 数据几何类型: xlsx 数据坐标系: WGS84 数据来源:国家统计局 数据预览: 数据可视化.

(kali关怀版)kali调整字体图标显示大小

字体大小调整(图标字体) 字体在左上角搜apprence 图标大小调整 图标在桌面右键点apprence 任务栏大小调整 任务栏在上面右键,选择panel preference 终端字体大小调整 终端字体用ctrl和加号减号进行缩放 属于是kali关怀版了:) 还可指定锁屏和休眠时间&#…

waveInAddBuffer死锁的大雷解决

项目场景: 从来没有一个bug让我这么抓狂,足足查了3天3夜,官方文档翻了一遍说的基本无用。具体项目就是使用waveIn系列函数获取windows系统麦克风数据,虽然windows上有好几种方法获取麦克风数据,我最终还是选择了它。 …

Springboot整合hutool验证码

在 Spring Boot 中&#xff0c;你可以将 Hutool 生成验证码的功能集成到 RESTful API 接口中。 依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.14</version> <!-- 使用最新版…

pytorch,用lenet5识别cifar10数据集(训练+测试+单张图片识别)

目录 LeNet-5 LeNet-5 结构 CIFAR-10 pytorch实现 lenet模型 训练模型 1.导入数据 2.训练模型 3.测试模型 测试单张图片 代码 运行结果 LeNet-5 LeNet-5 是由 Yann LeCun 等人在 1998 年提出的一种经典卷积神经网络&#xff08;CNN&#xff09;模型&#xff0c;主要…