动手学大数据-3社区开源实践

数据库概览：

MaxComput：

HAWQ：

Hologres：

TiDB：

Spark：

ClickHouse：

Apache Calcite 概览

Calcite RBO

HepPlanner

优化规则（Rule）

内置有100+优化规则

四种匹配规则

遍历所有的rule，直到没有rule可以被触发

优化速度快，实现简单，但是不保证最优

Calcite CBO

CBO的工作原理

VolcanoPlanner

应用Rule搜索候选计划

Groupwinner：目前的最优计划

剪枝（Branch-and-boundpruning）：减少搜索空间

Top-down遍历：选择winner构建最优执行计划

小结

数据库概览：

上面的这些数据库他们都是基于Calcite来做的，下面简单介绍一些：

MaxComput：

它是属于这个volcano跟Cascade框架，volcano框架是一个优化器的一个实现框架，他没有没有具体的代码或者项目，只是描述说你的优化器应该怎么实现

HAWQ：

是使用了一个自研的一个查询优化器，叫Orca，也是属于volcano跟Cascade，然后前面那个是属于JAVA的Orca，后面是属于c++的，大家就看自己喜好的话，可以看这两个不同的不同的项目去学习查询优化器

Hologres：

然后像还有其他像阿里巴巴的Hologress，也就是定位，在他他是直接使用的这个Orca这个开源项目，作为他的优化器

TiDB：

它就是自研的，它也是属于volcano跟Cascade框架

Spark：

像Spark在里面的话，它是自研的，它既有RBO也有CBO，

ClickHouse：

它的优化器比较简单，它只有一些简单的，它没有CBO

…………………………

我们从这里可以看到，主流的大数据优化，大数据系统的查询优化计划，它都包含这个RBO，然后同时我们也可以看到Calcite这个框架是很流行的一个框架，所以后面我就会从这个方面挑上一个项目来给大家简单介绍一下

Apache Calcite 概览

Apache Calcite是一个动态数据管理框架。它包含了许多组成典型数据管理系统的经典模块，但省略了一些关键性的功能: 数据存储，数据处理算法和元数据存储库。
Calcite有意地远离了存储和处理数据的任务。如我们所见，这使得它成为在应用程序和一个或多个数据存储位置和数据处理引擎之间的最佳中间层选择。它同样也是构建数据库的完美基础选择: 只需要在它的基础上添加数据。

提供了：SQL 解析、SQL 校验、SQL 查询优化、SQL 生成以及数据连接查询等典型数据库管理功能。Calcite 的目标是 One size fits all：统一的SQL查询引擎，希望能为不同计算平台和数据源提供统一的查询引擎，并以类似传统数据库的访问方式（SQL 和高级查询优化）来访问不同计算平台和数据源上的数据。下图展示了 Calcite 的架构以及 Calcite 和数据处理系统的交互关系，从图中我们可以看出 Calcite 具有 4 种类型的组件。

最外层是 JDBC Client 和数据处理系统（Data Processing System），JDBC Client 提供给用户，用于连接 Calcite 的 JDBC Server，数据处理系统则用于对接不同的数据存储引擎；

内层是 Calcite 核心架构的流程性组件，包括负责接收 JDBC 请求的 JDBC Server，负责解析 SQL 语法的 SQL Parser，负责校验 SQL 语义的 SQL Validator，以及负责构建算子表达式的 Expression Builder（可以通过 SQL 转换为关系代数，也可以通过 Expression Builder 直接构建）；

算子表达式（Operator Expressions）、元数据提供器（Metadata Providers）、可插拔优化规则（Pluggable Rules）是用于适配不同逻辑的适配器，这些适配器都可以进行灵活地扩展；

查询优化器（Query Optimizer）是整个 Calcite 的核心，负责对逻辑执行计划进行优化，基于 RBO 和 CBO 两种优化模型，得到可执行的最佳执行计划。

其他特点在于：

模块化，插件化，稳定可靠

支持异构数据模型、关系型、半结构化、流式、地理空间数据

内置RBO和CBO