【Oracle篇】浅谈执行计划中的多表连接(含内连接、外连接、半连接、反连接、笛卡尔连接五种连接方式和嵌套、哈希、排序合并三种连接算法)

💫《博主介绍》：✨又是一天没白过，我是奈斯，从事IT领域✨

💫《擅长领域》：✌️擅长阿里云AnalyticDB for MySQL(分布式数据仓库)、Oracle、MySQL、Linux、prometheus监控；并对SQLserver、NoSQL(MongoDB)有了解✌️

💖💖💖大佬们都喜欢静静的看文章，并且也会默默的点赞收藏加关注💖💖💖

转眼间就进入到了2025年（时光如梭一年又结束了😭）。今年也是博主开始写博客的第二个年头，新年新气象，从今年开始博主继续把去年没有学习完成的Prometheus监控给学习完成，并且开始开拓学习Redis。这里向大家推荐一个Redis好课，在B站上搜索“遇见狂神说”UP主，就可以搜索到他讲的Redis课程，UP主是个大佬，Redis讲的非常通透，最最最主要的是UP主是无偿且免费的把Redis这套课程分享出来的，免费是情谊，收费是本分，感谢大佬为爱发电，为我们带来了如此宝贵的学习资源。

今天这篇文章和大家深入探讨一个在实际业务场景中极为常见且至关重要的操作——多表连接。在实际的业务操作中，经常需要将多个表的数据关联起来进行查询或分析，这就是多表连接，表与表之间有那几种连接方式和连接时的算法是怎么选择的是非常值得深入学习的一个话题。

特别说明💥：本篇文章部分知识点均来源于 Oracle 公开可查的官方文档手册，并结合了我个人的理解和案例演示。如有冲突，请联系，会立即处理。转载请标明出处😄

官方文档对多表连接的详细介绍（12c版本）：

Joins

一、了解驱动表（仅用于Nested Loops Join 和 Hash Join）：

二、多表连接算法介绍

1、嵌套循环连接（ Nested Loops Joins）

2、哈希连接（Hash Joins）

3、排序合并连接（Sort Merge Joins）

4、连接算法的区别总汇：

三、多表连接方式介绍

1、内连接（又称简单连接、自然连接，Inner Joins）

2、外连接（Outer Joins）：含左连接、右连接、全连接

2.1 外连接之左连接（left join）

2.2 外连接之右连接（right join）

2.3 外连接之全连接（full join）

3、半连接（Semi joins）

4、反联接（Anti joins）

5、笛卡尔连接（又称交叉连接，Cartesian Joins）

在开始介绍连接方式和连接算法之前我们先搞清关于多表连接的原理，只有先搞明白多表之间是怎么连接的才能更好的掌握之后的内容。

连接介绍：

连接是将来自两个行源（如表或视图）的输出组合在一起，并返回一个行源。返回的行源是数据集。

连接的特点是在WHERE（非ANSI）条件中有多个表，或者使用FROM ... JOIN(ANSI)语句中有多个表。只要FROM子句中存在多个表，Oracle数据库就会执行联接。

连接时使用表达式比较两个行源（如表或视图），表达式就是表和表之间的连接条件，表和表之间的连接条件可以是等值连接（表之间关联式为等于号），也可以是非等值连接（表之间关联式为<>!=或者between）。连接条件定义了表之间的关系，如果语句没有指定连接条件，则数据库将执行笛卡尔连接，将一个表中的每一行与另一个表的每一行都进行匹配（关于笛卡尔连接下面会详细介绍哦）。



下面我用手绘的树状结构来讲解一下不同的连接方式的匹配数据原理。

Join Tree

如下图所示，table 1是左表，table 2是右表。优化器从左到右处理连接。如果此图描述了嵌套循环联接（nested loops join），则表1是外部循环（outer loop），表2是内部循环（inner loop）。



Left Deep Join Tree

连接的输入是前一个连接的结果集。如果联接树的每个内部节点的右子节点都是表，则该树是左深度联接树（left deep join tree）。如下图所示，大多数联接树都是左深度连接（left deep join tree）。



Right Deep Join Tree

如果联接树的每个内部节点的左子节点都是一个表，则该树称为右深度联接树（right deep join tree），如下图所示。

Bushy Join Tree

如果一棵联接树的内部节点的左子节点或右子节点可以是一个连接节点，那么该树称为浓密联接树（bushy join tree）。在下面的示例中，table 4是联接节点的右子节点，table 1是联接节点的左子节点，table 2是联接节点的左子节点，连接的两个输入都是先前连接的结果。

连接方式的匹配数据原理我用树状结构通俗易懂都介绍了一遍，可能有些小伙伴还是会很懵逼，不过没有关系，到了下面连接方式的介绍时我会用案例的形式再介绍一下，等看完案例再回来看树状结构这些内容时会有一种柳暗花明又一村的感觉。





优化器如何执行连接语句：

数据库连接成对的行源（如表或视图）。当FROM子句中存在多个表时，优化器必须确定每个表对哪种连接操作最有效。

优化器必须做出下表所示的相互关联的决策。

连接操作 描述
访问路径（Access paths）对于简单语句，优化器必须选择一个访问路径来从联接语句中的每个表检索数据。例如，优化器可能会在全表扫描或索引扫描之间进行选择。
连接算法（Join methods）要连接每对表，Oracle数据库必须决定如何连接，这里的“如何”是连接算法。可能的连接算法有嵌套循环（nested loop）、排序合并（sort merge）和哈希连接（hash joins）。笛卡尔连接需要上述连接算法之一。每种连接算法都有特定的情况，在这些情况下，它比其他算法更合适。
连接方式（Join types）连接条件决定了连接方式。例如，内部联接（inner join）仅检索符合联接条件的行，外部联接（outer join）检索不符合联接条件的行。
连接顺序（2个以上的表连接，Join order）要执行连接两个以上的表，Oracle数据库连接两个表，然后将生成的行源连接到下一个表。此过程将继续，直到所有表都连接到结果中。例如，数据库连接两个表，然后将结果连接到第三个表，再将此结果连接到一个第四个表，以此类推。



优化器如何为连接选择执行计划：

在确定连接顺序和连接算法时，优化器的目标是尽早减少行数，以便在整个SQL语句执行过程中执行更少的工作。

优化器根据可能的连接顺序、连接算法和可用访问路径生成一组执行计划。然后，优化器估计每个计划的成本，并选择成本最低的计划。在选择执行计划时，优化器会考虑以下因素：

优化器首先确定连接两个或多个表是否会导致行源最多包含一行：优化器根据表上的UNIQUE和PRIMARY KEY约束来识别这种情况。如果存在这种情况，优化器会将这些表放在连接顺序的第一位。然后，优化器优化剩余表集的连接。
对于具有外部联接条件的联接语句，在联接顺序中，具有外部联接运算符的表通常位于条件中的另一个表之后：一般来说，优化器不会考虑违反此准则的连接顺序，尽管在某些情况下优化器会覆盖此排序条件。同样，当子查询被转换为反连接或半连接时，子查询中的表必须位于它们所连接或关联的外部查询块中的表之后。然而，在某些情况下，哈希反连接和半连接能够覆盖此排序条件。

优化器通过计算估计的I/O和CPU来估计查询计划的成本。这些I/O具有与之相关的特定成本：单个块I/O的成本和多块I/O的另一个成本。此外，不同的函数和表达式都有与之相关的CPU成本。优化器使用这些指标确定查询计划的总成本。这些指标可能会受到编译时许多初始化参数和会话设置的影响，例如DB_FILE_MULTI_BLOCK_READ_COUNT设置、系统统计信息等。例如，优化器通过以下方式估算成本：

nested loops join：嵌套循环连接的成本取决于将外部表（驱动表）的每个选定行及其内部表（被驱动表）的每个匹配行读取到内存中的成本。优化器使用数据字典中的统计数据来估计这些成本。
sort merge join：排序合并连接的成本在很大程度上取决于将所有源读取到内存中并对其进行排序的成本。
hash join：哈希连接的成本在很大程度上取决于在连接的一个输入端构建哈希表并使用连接另一端的行进行探测的成本。