但从谈论性能点SQL Server选择聚集索引键

时间：2015-07-13 20:39:28 阅读：194 评论：0 收藏：0 [点我收藏+]

标签：

简单介绍

在SQL Server中，数据是按页进行存放的。而为表加上聚集索引后，SQL Server对于数据的查找就是依照聚集索引的列作为keyword进行了。

因此对于聚集索引的选择对性能的影响就变得十分重要了。本文从旨在从性能的角度来谈聚集索引的选择，但这不过从性能方面考虑。对于有特殊业务要求的表，则须要按实际情况进行选择。

聚集索引所在的列或列的组合最好是唯一的

这个原因须要从数据的存放原理来谈。

在SQL Server中，数据的存放方式并非以行(Row)为单位。而是以页为单位。因此。在查找数据时。SQL Server查找的最小单位实际上是页。

也就是说即使你仅仅查找一行非常小的数据，SQL Server也会将整个页查找出来，放到缓冲池中。

每个页的大小是8K。每个页都会有一个对于SQL Server来说的物理地址。这个地址的写法是文件号：页号(理解文件号须要你对文件和文件组有所了解).比方第一个文件的第50页。

则页号为1：50。当表没有聚集索引时。表中的数据页是以堆(Heap)进行存放的,在页的基础上，SQL Server通过一个额外的行号来唯一确定每一行。这也就是传说中的RID。RID是文件号:页号：行号来进行表示的，如果这一行在前面所说的页中的第5行，则RID表示为1:50:5，如图1所看到的。

图1.RID的演示样例

从RID的概念来看，RID不不过SQL Server唯一确定每一行的根据，也是存放行的存放位置。当页通过堆（Heap）进行组织时。页非常少进行移动。

而当表上建立聚集索引时，表中的页依照B树进行组织。此时，SQL Server寻找行不再是按RID进行查找，转而使用了keyword,也就是聚集索引的列作为keyword进行查找。如果图1的表中，我们设置DepartmentID列作为聚集索引列。则B树的非叶子节点的行中仅仅包括了DepartmentID和指向下一层节点的书签(BookMark)。

而当我们创建的聚集索引的值不唯一时。SQL Server则无法只通过聚集索引列（也就是keyword）唯一确定一行。

此时。为了实现对每一行的唯一区分，则须要SQL Server为同样值的聚集索引列生成一个额外的标识信息进行区分。这也就是所谓的uniquifiers。

而使用了uniquifier后。对性能产生的影响分为例如以下两部分：

SQL Server必须在插入或者更新时对如今数据进行推断是否和现有的键反复。假设反复。则须要生成uniquifier,这个是一笔额外开销。
由于须要对同样值的键加入额外的uniquifier来区分，因此键的大小被额外的添加了。因此不管是叶子节点和非叶子节点，都须要很多其它的页进行存储。从而还影响到了非聚集索引，使得非聚集索引的书签列变大，从而使得非聚集索引也须要很多其它的页进行存储。

以下我们进行測试，创建一个測试表，创建聚集索引。插入10万条測试数据。当中每2条一反复，如图2所看到的。