OceanBase 中 schema 的定义与应用

背景

经常在OceanBase 的问答社区 里看到一些关于 “schema 是什么” 的提问。

先纠正一些同学的误解, OceanBase 中的 Schema 并不简单的等同于 Database,本次分享将探讨 OceanBase 中的Schema是什么,及一些大家经常遇到的问题。 

具体而言,在 OceanBase 的 MySQL 模式、Oracle 模式以及其自身的元数据管理模块中,Schema 的概念和应用是存在差异的。

1691459740

1691459773

OB MySQL 模式中 schema 的概念

       Schema 是 Database 的同义词。SQL 中可以使用 Schema 关键字代替 Database 关键字,例如使用 CREATE SCHEMA 代替 CREATE DATABASE 等。

OB Oracle 模式中 schema 的概念

       在 OB 的 Oracle 模式中,Schema 是指一个用户所拥有的数据库对象的集合,用于权限管理和命名空间隔离,我个人把他理解成一个 “用户空间”。Schema 对象是指在某个 Schema 中的数据库对象,例如 Schema 中的表、视图、索引等;非 Schema 对象是指不属于某个 Schema 的数据库对象,例如用户、角色、表空间等。

       用户在创建时会拥有一个缺省的 Schema,其 Schema 名就等于用户名。如果有权限的话,用户还可以访问和使用其他的 Schema。在访问一个 Schema 中的对象时,如果没有指明该对象属于哪一个 Schema,系统就会自动给对象加上缺省的 Schema 名称。

       如果当前 user 拥有访问或修改其他 schema 对象的权限,可以通过 alter session set current_schema = other_schema_name; 切换到其他 schema 中进行各种操作。

OB 元数据管理模块中 schema 的概念

       Oceanbase 元数据管理模块里的 schema 泛指一切需要在集群范围内同步的数据库对象元信息,包括但不限于 table、database、user 等元信息。此外,Oceanbase 的 schema 是多版本的,内存中的 schema 信息在集群范围的同步是最终一致的。

schema 里有什么?

       schema 是什么解释完了,在社区里又会看到有人问,schema 是元信息,那么元信息里包含了哪些东西?

1691459787

       上面的回答中其实有个小的疏漏,因为各种数据库对象的元数据信息只会受 DDL 的影响,“预估行数” 属于不受 DDL 的影响,只受 DML 影响的统计信息,所以其实并不是表的元信息,table schema 中也不会对其进行记录。

       元信息里具体包含了哪些东西,可以参见 src/share/schema 路径下的代码。例如如果想看 table schema 中记录了哪些 table 的元数据信息,看 ob_table_schema.h 中的 ObTableSchema 及其父类有哪些类成员即可。

1691459798

DDL 执行过程

       上面回答了 schema 是什么、有什么的问题。因为 schema 只会通过 DDL 进行修改,所以这里简单提一下 DDL 的执行过程,方便大家在遇到 DDL 相关问题时进行排查。

       DDL 不会被优化器处理,而是作为 command 发送到 RootServer,由 RootServer(下简称 rs) 进行处理。在 OceanBase 里的执行流程如下:

1691459810

       以一个最常见的建表语句为例:

       create table 命令会在 obs 上对建表语句进行 resolve,把建表的信息存到 create_table_arg 中,把 create_table_arg 发 rpc 给 rs,rs 接下来会来执行如下操作:

  • 检查 obs 在 resolve 时使用的的 schema 版本是否最新(采用乐观锁的方法解决,如果非最新,则对这条 DDL 进行整体重试);
  • 从 __all_sys_stat 里获取一个租户内单调递增的新 table id;
  • 把 create_table_arg 里提供的信息插入到 __all_table_history 等内部表里用于持久化
  • 在 __all_ddl_operation 中记录 ddl 的变更日志(用于增量刷新等场景)
  • publish schema(通知各节点把 schema 刷到内存里)

1691461106

       其他 observer 接收到 RS 发送的 publish schema 的命令之后,就会把内部表中的改动增量加载到内存(schema cache)中,这也就是我们经常听到别人说的 “刷 schema”。

       rs 上的 ddl_service 调用 publish_schema() 将新的 schema 版本号广播给所有 obs 实际发生了什么?

  1. rs 自己所在的 obs 直接调用 refresh_schema。
  2. 给每个 alive obs 发送 switch_schema 的命令,参数为最新 schema_version。
  3. 各个 obs 收到指令后,生成一个 ObSchemaRefreshTask 异步刷新任务,通过这行这个任务把自己的 schema 刷到最新。

1691459823

附另一张图:

  • 图中上面的部分是在执行 DDL,RS 的 DDL service 服务会负责写内部表和通知各 observer 节点把元数据的修改加载到内存的 schema cache 中;
  • 下面的部分是在执行 query 的过程,过程中几乎都会读取内存中 schema cache 的元信息。

1691459832

一开始客户在社区里提的那个问题中的 GV$OB_SERVER_SCHEMA_INFO 可以理解为每台 ObServer 每个租户已经刷新的最新版本的 schema 的信息,这个视图用户比较关注的 schema 信息是 REFRESHED_SCHEMA_VERSION、SCHEMA_COUNT、SCHEMA_SIZE,其含义如下:

  • REFRESHED_SCHEMA_VERSION:对应租户在对应机器已刷新到的 schema 版本。
  • RECEIVED_SCHEMA_VERSION:对应租户在对应机器已已经接收到的 RS 发过来的最新刷新任务的 schema 版本。
  • SCHEMA_COUNT:对应 schema 版本下,各 schema 对象数目的总和(table 数目 + database 数目 +…)。
  • SCHEMA_SIZE:对应 schema 版本下,各 schema 对象总共所占的内存大小(B)。
obclient> select * from oceanbase.GV$OB_SERVER_SCHEMA_INFO\G
*************************** 1. row ***************************SVR_IP: 11.158.31.20SVR_PORT: 22602TENANT_ID: 1002REFRESHED_SCHEMA_VERSION: 1690109029768968RECEIVED_SCHEMA_VERSION: 1690113309637344SCHEMA_COUNT: 1583SCHEMA_SIZE: 1537240
MIN_SSTABLE_SCHEMA_VERSION: -1
1 row in set (0.01 sec)

DDL 和 schema 的问题排查方法

       既然都说了这么多了,那就再说下 DDL 和 schema 比较常见的几类问题。这一部分欢迎大家补充更好的排查问题方法~

执行 DDL 语法报错了,我该怎么改语法呢?

       客户经常会在试着自己把正在用的数据库上的元数据往 OceanBase 开源版本上倒腾,比如前几天见到一个客户希望把 pg 里的分区表定义放到 OB MySQL 模式的租户下执行下,但是报错了,然后就会认为 OB 不支持分区表。

CREATE TABLE value_stream_dashboard_counts (id bigint NOT NULL,namespace_id bigint NOT NULL,count bigint NOT NULL,metric smallint NOT NULL
)
PARTITION BY RANGE (id);

1691459848

       我们遇到这种问题应该怎么查 OB MySQL 模式下的对应语法呢?大家一般可能回去查各种各样的 OB 语法文档,但是 OB 语法随着兼容性的逐步完善而日新月异,文档内容其实没办法保证和真实支持的语法强一致(甚至连最终一致都不能保证)。想起师兄和我说的一句话:“文档很喜欢骗人,但是代码从不会说谎”,OB 社区版支持的所有语法其实都写在一个叫 sql_parser_mysql_mode.y 的 yacc 文件里。

       看完这个文件里的语法规则,我们就很容易把上面那条 SQL 改成 OB MySQL 模式下可以执行成功的 SQL。

CREATE TABLE value_stream_dashboard_counts (id bigint NOT NULL,namespace_id bigint NOT NULL,count bigint NOT NULL,metric smallint NOT NULL
)
PARTITION BY RANGE (id)(PARTITION p0 VALUES LESS THAN (100),PARTITION p1 VALUES LESS THAN (200),PARTITION p2 VALUES LESS THAN (300),PARTITION p3 VALUES LESS THAN MAXVALUE
);

执行 DDL 报了不太明确的错,我该怎么排查失败原因呢?

       比如,我执行了一条 DDL,它报错了,报错说我的 check 约束里出现了不允许被包含在 check 约束里的表达式,但具体是什么表达式不被允许?是 c1,是 =,是 sysdate(),还是 c1 = sysdate()?

obclient> create table t1(c1 int, check (c1 = sysdate()));
ERROR 3814 (HY000): An expression of a check constraint contains disallowed function.

       先查一下报错语句的 trace_id。

select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761A8-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

       那我们就通过 grep Y584A0B9E1F14-00060127094761B0-0-0 observer.log* 去捞下 observer 的日志。

1691459866

       这个 trace 对应的第一条 warning 日志说 :deterministic expr is wrongly specified in CHECK constraint(这条日志其实写的不对,本意应该是 not deterministic expr is wrongly specified in CHECK constraint),大概意思就是说 check 约束里面有个(非)确定性的表达式,这个是不被允许的。

       那么究竟什么表达式是非确定性的表达式呢?这个就需要根据日志里给出的文件和行号 ob_raw_expr_util.cpp:1856 去看一眼代码了,在网页上可以直接跳到具体某个函数的定义里,例如 ObRawExpr::is_non_pure_sys_func_expr。

       这里列出了所有 not deterministic 的表达式,其中就包含我们用到的 sysdate。

1691459880

       所以我们就可以大概知道 check 约束里的表达式需要保证多次执行都能得到同样的结果吧。像 sysdate 这种输出当前时间的表达式在多个不同的时间执行多次,结果必定是不一样的,所以不允许出现在 check 约束里。这里我们还可以趁机了解下还有哪些表达式属于 not deterministic 的。

执行 DDL 捞不到有用的日志怎么办?

       例如我执行了一个创建 database 的 DDL,结果报错了。

obclient> create database xiaofeng_db;
ERROR 4016 (HY000): Internal errorobclient> select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761B4-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

拿着 trace id 捞日志,grep Y584A0B9E1F14-00060127094761B4-0-0 observer.log*,结果是 rpc error。

1691459893

回忆一下刚才说的 DDL 执行过程,DDL arg 会发到 RS 上执行,所以这种情况大概率是在 RS 上执行的时候出了什么幺蛾子,所以我们还需要通过 grep Y584A0B9E1F14-00060127094761B4-0-0 rootservice.log* | vi - 继续 grep 以下 RS 的日志,然后在日志文件里根据错误码 -4016 搜下 ret=-4016最早出现的地方。

       然后我们就可以发现日志里说是在 ob_root_service.cpp 文件的 2887 行报的错,报错原因是:create_database failed, because db_name is forbidden。这种问题大家先自己根据报错日志里的文件和行号简单分析下原因,如果还是没头绪的话,再找 OB 的技术支持同学协助分析。

       翻一下这个文件,哦,原来是是我为了构造在 RS 报错的场景故意在这里加了一个报错的错误码,说只要 create database 的 database_name 叫 xiaofeng_db,就报错 4016 OB_ERR_UNEXPECTED。

排查 DDL 和 schema 的问题时忽略 rootservice.log 日志是很常见的情况,曾经亲眼见过很多非常有经验的 OceanBase 内核研发专家不止一次因为这个问题浪费大量时间排查简单一个的小 bug。大家切记这类问题在 observer.log 没线索时,还要去看下 rootservice.log。

1691459923

刷 schema hang 住了怎么办?

       刷 schema hang 住是因为在把内部表的数据加载到内存中的过程中会进行一些 schema 的合法性校验,如果校验失败,就说明持久化在内部表里的元数据信息出问题了,这时 observer 就会 hang 住,什么都干不了。因为一旦元数据都错了,基于错误的元数据无论是执行 DDL、DML,还是执行查询 query ,都是错上加错,很容易产生大量正确性问题。这种情况出现的概率极低,但问题十分严重。

       如果执行 DDL hang 住了,并且在 RS 的日志里出现类似于 “Trying so hard to die” 和 “schema meta is still not consistent after rebuild, need fixing” 的信息,表明恢复环境需要人工接入去修改 OB 内部表中的错误信息,风险较高,建议及时找 OB 的技术支持同学帮忙排查问题根因及协助你恢复环境(如果是 OB 社区版,可以加入钉钉群:33254054 并 @群管理员)。

参考资料

MySQL 模式数据库对象概述:MySQL 模式数据库对象

Oracle 模式数据库对象概述:Oracle 模式数据库对象

研木在社区问答区的回答:4.0的GV$OB_SERVER_SCHEMA_INFO视图中的SCHEMA是什么 - #3,来自 坤易 - OceanBase - 社区问答- OceanBase社区-分布式数据库

OB 源码:oceanbase/src/share/schema/ob_table_schema.h at 9940650223427978ac634ff0d7423ab53c74a95e · oceanbase/oceanbase · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/427220.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

JavaDS —— 图

图的概念 图是由顶点集合以及顶点之间的关系组成的一种数据结构:G (V,E) 其中 V 表示的是顶点集合 : V { x | x 属于某个数据对象集} 是有穷非空集合 E 叫做边的集合 : E {(x, y) | x, y 属于 V} 或者 …

UE5源码Windows编译、运行

官方文档 Welcome To Unreal Engine 5 Early Access Learn what to expect from the UE5 Early Access program. 链接如下:https://docs.unrealengine.com/5.0/en-US/Welcome/#gettingue5earlyaccessfromgithub Step 0:找到UE5源码 直接先上链接 https…

MySQL原理之UUID主键分析,插入或更新语法分析

文章目录 1 MySQL不能用UUID做主键1.1 前言1.2 mysql和程序实例1.2.1 准备工作1.2.2 开始测试1.2.3 程序写入结果1.2.4 效率测试结果 1.3 使用uuid和自增id的索引结构对比1.3.1 自增id1.3.2 uuid 1.4 自增id缺点1.5 雪花算法 2 插入或更新2.1 on duplicate key2.1.1 定义2.1.2 …

24年蓝桥杯及攻防世界赛题-MISC-3

21 reverseMe 复制图片,在线ocr识别,https://ocr.wdku.net/,都不费眼睛。 22 misc_pic_again ┌──(holyeyes㉿kali2023)-[~/Misc/tool-misc/zsteg] └─$ zsteg misc_pic_again.png imagedata … text: “$$KaTeX parse error: Undefined…

python基础(1)pyenv安装和对Django使用

pyenv安装 pyenv主要针对类 Unix 系统(如 Linux、macOS)用户,pyenv-win 是专为 Windows 开发的 pyenv 版本,允许您在不使用 WSL 的情况下管理多个 Python 版本和虚拟环境。 建议Git Bash: Powershell或Git Bash&…

功能测试干了三年,快要废了。。。

8年前刚进入到IT行业,到现在学习软件测试的人越来越多,所以在这我想结合自己的一些看法给大家提一些建议。 最近聊到软件测试的行业内卷,越来越多的转行和大学生进入测试行业,导致软件测试已经饱和了,想要获得更好的待…

Java键盘输入语句

编程输入语句 1.介绍:在编程中,需要接受用户输入的数据,就可以使用键盘输入语句来获取。 2.步骤: 1)导入该类的所在包,java.util.* 2)创建该类对象(声明变量) 3)调用里面的功能 3…

任务书与开题报告的区别与联系:如何让二者相辅相成

AIPaperGPT,论文写作神器~ https://www.aipapergpt.com/ 大家好!今天咱们聊聊论文写作过程中两个让人又爱又恨的关键步骤:任务书和开题报告。 这两兄弟可是你毕业路上的第一关卡,搞不定它们,你后面别说论文了&#…

时序必读论文12|ICML22 FEDformer基于周期分解的长时序预测transformer架构

论文标题:FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting 开源代码:https://github.com/DAMO-DI-ML/ICML2022-FEDformer 前言 FEDformer这篇文章发表于2022年的ICML。其实如果只比较性能的话,到…

微信如何发布学生查分?教师平台推荐!

学校和老师们都在面临着一个共同的问题:如何高效、便捷地发布学生成绩查询信息?在这个数字化时代,传统的纸质通知和口头传达方式已经无法满足家长和学生的需求。幸运的是,有了易查分这样的在线工具,发布学生查分变得简…

vitis Failed to create the part‘s controls解决方法

类似于 解决方法:重启vitis。 效果: 可以建立lab4了。

wallpaper engine壁纸提取

下载提取软件RavioliGameTools_v2.10.zip https://pan.baidu.com/s/14ZCVw3ucRERsB-GGGoCOqQ 2.运行RExtractor.exe 3.Input file(s)、Output directory填好 4.勾选Allow scanning of unkown files 5.点击Start

Ceph官方文档_01_Ceph简介

目录 Ceph介绍Ceph介绍 Ceph可用于向云平台提供Ceph对象存储,Ceph可用于向云平台提供Ceph块设备服务。Ceph可用于部署Ceph文件系统。所有Ceph存储群集部署开始都是先设置每个Ceph节点,然后再设置网络。 Ceph存储集群需要以下内容:至少一个Ceph监视器和至少一个Ceph管理器,…

vulnhub靶机:Breach 2.1详细过程

下载 下载地址:https://www.vulnhub.com/entry/breach-21,159/ 修改网络模式 根据靶机的描述得知该靶机适用于静态ip,即192.168.110.151;配置虚拟机的虚拟网络编辑器的仅主机模式,将其子网IP配置在110网段,并将攻击…

C++初阶学习第六弹------标准库中的string类

目录 一.标准库中的string类 二.string的常用接口函数 2.1string类对象的构造 2.2 string的容量操作 2.3 string类的访问与遍历 2.4 string类对象的修改 2.5 string类常用的非成员函数 三、总结 一.标准库中的string类 可以简单理解成把string类理解为变长的字符数组&#x…

2024.9.13 Python与图像处理新国大EE5731课程大作业,索贝尔算子计算边缘,高斯核模糊边缘,Haar小波计算边缘

1.编写一个图像二维卷积程序。它应该能够处理任何灰度输入图像,并使用以下内核进行操作: %matplotlib inline import numpy as np import matplotlib.pyplot as plt from scipy import linalg import random as rm import math import cv2# import and …

linux网络编程3

24.9.19学习目录 一.UDP(续)1.UDP编程2.注意点2.TFTPTFTP通信过程TFTP协议分析 一.UDP(续) 1.UDP编程 (1)sendto函数发送数据 向to结构体指针中指定的ip,发送UDP数据; 通过to和ad…

时间复杂度的常用符号+渐进时间复杂度分析

时间复杂度的常用符号 Θ \Theta Θ 如果 f ( n ) Θ ( g ( n ) ) f(n)\Theta(g(n)) f(n)Θ(g(n)),则 f ( n ) f(n) f(n) 与 g ( n ) g(n) g(n) 同阶。(阶是指 f ( n ) f(n) f(n) 的指数,比如 n 2 n^2 n2 高于 n n n) O O …

MacOS安装homebrew,jEnv,多版本JDK

1 安装homebrew homebrew官网 根据官网提示,运行安装命令 /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"安装后,bash会提示执行两条命令 (echo; echo eval "$(/opt/homebrew/b…

海康威视摄像机和录像机的监控与回放

文章目录 海康威视摄像机和录像机的监控与回放1、海康威视监控设备简介1.1、摄像机二次开发1.1.1:协议选择 1.2:web集成1.2:标准协议对接1.2.1:ffmpeg软件转流1.2.2:开源监控软件shinobi1.2.3:使用nginx的R…