Oracle 学习之性能优化（七）join的实现方式

时间：2015-08-20 06:49:54 阅读：350 评论：0 收藏：0 [点我收藏+]

标签：hash join nestloop join sortmerge join

本文讨论一下join技术背后的机制。我们知道常用的表连接有如下几种

笛卡尔连接
内连接
左外连接
右外连接
全连接

这些sql的写法，想必大家都很清楚了，那么这些连接的数据访问是如何实现的呢？

nested loop

我们看如下查询

SQL> alter session set optimizer_mode=rule;

Session altered.

SQL> select ename,dname from emp,dept where emp.deptno=dept.deptno;

14 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 3625962092

------------------------------------------------
| Id  | Operation		     | Name    |
------------------------------------------------
|   0 | SELECT STATEMENT	     |	       |
|   1 |  NESTED LOOPS		     |	       |
|   2 |   NESTED LOOPS		     |	       |
|   3 |    TABLE ACCESS FULL	     | EMP     |
|*  4 |    INDEX UNIQUE SCAN	     | PK_DEPT |
|   5 |   TABLE ACCESS BY INDEX ROWID| DEPT    |
------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   4 - access("EMP"."DEPTNO"="DEPT"."DEPTNO")

根据我们之前讲的执行计划解读，本查询是这样实现的：

全表扫描emp表（非阻塞扫描，并不是将数据全部取出，才执行下一步）。
将emp中的数据逐条取出，通过索引PK_DEPT查询出索引中的rowid，结果集变成（ename，rowid）
将2生成的结果集逐条取出，通过rowid去访问dept表，结果集变成（ename，dname）
将结果集返回。

这种以循环的方式取出数据的join实现方式就叫嵌套循环。

此计划可以用如下逻辑伪代码实现

for y in （for x in （select * from emp）loop
         index lookup the rowid for x.deptno
         output joined record（ename，dept.rowid）
       end loop）loop
 select * from dept where rowid=y.rowid
 output joined record(ename,dname)
end loop

我们把emp表称之为驱动表（注驱动表与from子句的表顺序无关，主要看执行计划）。

此种连接方式，适用于驱动表返回数据比较少，并且被驱动表dept上deptno列有索引。如果查询返回n行，那么dept表将被扫描n次。此连接擅长于从结果集中迅速取出第一行。

Hash Join

Hash Join适合处理大型结果集，优化器选择两个表或者源数据中比较小的，使用join key在内存中建立一个hash table。然后扫描大表，并探查hash表，去发现匹配的记录。
小表称为驱动表，大表称为探查表

当hash table能全部放到内存中，此种情况最好。如果内存中放不下hash table，优化器将hash table分区，超出内存范围的分区将被写到临时表空间中。

我们分两种情况讨论hash join的实现

hash table 全部在内存里

hash table是Oracle根据join key利用一个hash函数将小表分割成多个bucket。hash table建立完成后，Oracle去扫描大表，并且采用相同的hash算法，将读入的数据也分割成多个bucket。bucket与bucket之间进行join运算，返回结果。直到大表读完为止。

2. hash table 不能全部放到内存中

使用算法，将小表先分区（partition），使得一个partition能加载到内存中。将大表也做相同的分区。表的分区与分区之间按照1的实现方式取出数据。做完一个分区后，再将另一个分区加载进内存，继续相同的操作，直到数据全部处理完。

SQL> insert into big_emp select * from big_emp;
SQL> insert into big_emp select * from big_emp;#重复执行多次
SQL> /

458752 rows created.

SQL> create table dept_new as select * from dept;

Table created.

SQL> set autot traceonly
SQL> select * from big_emp a,dept_new b where a.deptno=b.deptno;

917504 rows selected.


Execution Plan
----------------------------------------------------------
Plan hash value: 1925493178

-------------------------------------------------------------------------------
| Id  | Operation	   | Name     | Rows  | Bytes | Cost (%CPU)| Time     |
-------------------------------------------------------------------------------
|   0 | SELECT STATEMENT   |	      |   917K|    54M|  1490	(2)| 00:00:18 |
|*  1 |  HASH JOIN	   |	      |   917K|    54M|  1490	(2)| 00:00:18 |
|   2 |   TABLE ACCESS FULL| DEPT_NEW |     4 |   120 |     3	(0)| 00:00:01 |
|   3 |   TABLE ACCESS FULL| BIG_EMP  |   917K|    28M|  1482	(1)| 00:00:18 |
-------------------------------------------------------------------------------

Predicate Information (identified by operation id):
---------------------------------------------------

   1 - access("A"."DEPTNO"="B"."DEPTNO")

Note
-----
   - dynamic sampling used for this statement (level=2)


Statistics
----------------------------------------------------------
	  4  recursive calls
	  1  db block gets
      66338  consistent gets
	  0  physical reads
	  0  redo size
   62512398  bytes sent via SQL*Net to client
     673349  bytes received via SQL*Net from client
      61168  SQL*Net roundtrips to/from client
	  0  sorts (memory)
	  0  sorts (disk)
     917504  rows processed

Sort Merge Joins

本文出自 “叮咚” 博客，请务必保留此出处http://lqding.blog.51cto.com/9123978/1686257

Oracle 学习之性能优化（七）join的实现方式

标签：hash join nestloop join sortmerge join

原文地址：http://lqding.blog.51cto.com/9123978/1686257

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行