“跳跃表”简析

时间：2014-10-08 11:36:55 阅读：306 评论：0 收藏：0 [点我收藏+]

标签：style blog http color os ar for strong 数据

复杂度

空间复杂度： O(n) （期望）
跳跃表高度： O(logn)（期望）
查找：O(logn)（期望）
插入： O(logn)（期望）
删除：O(logn)（期望）

之所以在每一项后面都加一个“期望”，是因为跳跃表的复杂度分析是基于概率论的。有可能会产生最坏情况，不过这种概率极其微小。

顶层链表元素的确定方式

底层链表就是最初的链表，包含所有元素。

we just like every node to be accessed sort of as quickly as possible, uniformly
我们只希望尽可能的访问每一个节点尽可能的快。那么什么样的元素应该添加进上层链表。

我的理解就是均匀的让底层元素出现在上层链表中。

在第一个上层链表中，其隔一个挑选了一个元素作为上层链表的元素。如此来满足均匀的要求，进而满足了尽可能快的访问到每一个元素。

到底需要多少条额外的链表最合适？

由于访问速度是 k 乘以开k次方的n，所以为了让这个数值最低，那么k取LogN最好。而这个logN很像二叉排序树的高度，那么大家都有感觉，就是这个跳跃链查找过程越来越像折半查找。所以这logN的取法，以这样的方式还是很容易让我明白的。

查找的过程和复杂度

由于我们已经确定了有多少个链表，所以来完整的走一遍查找某个元素的过程，那么就非常清楚其复杂度了。

如下图所示：

最右边的蓝线代表负无穷
当然我们要查找45时，每一根红线代表我们查找的路径
横着代表比较了一下，竖着代表走向下层链表
我们可以认为刚开始有一个指针指着左上方的负无穷

从最上层的链表开始，第一个遇到的数是88，那么45在88之间，比较了一次，45小于88，所以走向下层链表。
45与23相比，大于23，那么再与88比较，发现小于88，所在在23处向下走
45与36相比，发现大于36，所以现在指针指36，再45与88比，又小了，所以在36处向下走
45与67比，发现小了，那么在36处向下走。
在底层链表与45比，发现一样，ok，找到了。

这就是查找过程，一共经历了移动了7次比较，挪动了4次指针。此时的需要的额外的链表为4个，加上底层链表一共是5个链表。
其中，注意比较次数，在每一条链表上我们可以发现最多比较两次，至少比较一次，所以比较次数不会超过 2LogN。

所以比较的时间复杂度是 O(logN)。

跳跃表的查找

目的：在跳跃表中查找一个元素x

在跳跃表中查找一个元素x，按照如下几个步骤进行：

i) 从最上层的链（S_h）的开头开始

ii) 假设当前位置为p，它向右指向的节点为q（p与q不一定相邻），且q的值为y。将y与x作比较

(1) x=y 输出查询成功及相关信息

(2) x>y 从p向右移动到q的位置

(3) x<y 从p向下移动一格

iii) 如果当前位置在最底层的链中（S₀），且还要往下移动的话，则输出查询失败

插入

目的：向跳跃表中插入一个元素x

首先明确，向跳跃表中插入一个元素，相当于在表中插入一列从S₀中某一位置出发向上的连续一段元素。有两个参数需要确定，即插入列的位置以及它的“高度”。

关于插入的位置，我们先利用跳跃表的查找功能，找到比x小的最大的数y。根据跳跃表中所有链均是递增序列的原则，x必然就插在y的后面。

而插入列的“高度”较前者来说显得更加重要，也更加难以确定。由于它的不确定性，使得不同的决策可能会导致截然不同的算法效率。为了使插入数据之后，保持该数据结构进行各种操作均为O(logn)复杂度的性质，我们引入随机化算法（Randomized Algorithms）。

我们定义一个随机决策模块，它的大致内容如下：

•产生一个0到1的随机数r                r ← random()
•如果r小于一个常数p，则执行方案A，        if  r<p    then do A
  否则，执行方案B                          else do B

初始时列高为1。插入元素时，不停地执行随机决策模块。如果要求执行的是A操作，则将列的高度加1，并且继续反复执行随机决策模块。直到第i次，模块要求执行的是B操作，我们结束决策，并向跳跃表中插入一个高度为i的列。

根据上述决策方法，该列的高度大于等于k的概率为p^k-1

此处有一个地方需要注意，如果得到的i比当前跳跃表的高度h还要大的话，则需要增加新的链，使得跳跃表仍满足先前所提到的条件。

我们来看一个例子：

假设当前我们要插入元素“40”，且在执行了随机决策模块后得到高度为4

·步骤一：找到表中比40小的最大的数，确定插入位置