标签:
高速排序(英文名:Quicksort,有时候也叫做划分交换排序)是一个高效的排序算法,由Tony Hoare在1959年发明(1961年发布)。当情况良好时。它能够比主要竞争对手的归并排序和堆排序快上大约两三倍。这是一个分治算法,并且它就在原地排序。
所谓原地排序,就是指在原来的数据区域内进行重排。就像插入排序一般。
而归并排序就不一样,它须要额外的空间来进行归并排序操作。为了在线性时间与空间内归并,它不能在线性时间内实现就地排序,原地排序对它来说并不足够。而高速排序的优点就在于它是原地的,也就是说,它非常节省内存。
引用一张来自维基百科的能够非常清晰表示高速排序的示意图例如以下:
由于高速排序採用了分治算法,所以:
一、分解:本质上高速排序把数据划分成几份,所以高速排序通过选取一个重要数据,再依据它的大小。把原数组分成两个子数组:第一个数组里的数都比这个主元数据小或等于,而还有一个数组里的数都比这个主元数据要大或等于。
二、解决:用递归来处理两个子数组的排序。
(也就是说。递归地求上面图示中左半部分,以及递归地求上面图示中右半部分。)
三、合并:由于子数组都是原址排序,所以不须要合并操作,通过上面两步后数组已经排好序了。
所以高速排序的主要思想是递归与划分。
当然最重要的是它的复杂度是线性的,也就是
Partition(A,p,q) // A[p,..q]
1 x=A[p] // pivot=A[p] 主元
2 i=p
3 for j=p+1 to q
4 do if A[j]<=x
5 then i=i+1
6 exch A[i]<->A[j]
7 exch A[p]<->A[i]
8 return i // i pivot
这就是划分的伪代码,主要的结构就是一个for循环语句,中间加上了一个if条件语句,它实现了对子数组
刚開始时
将
然后再移动区域的界限并開始下一次循环。
那么这个算法在n个数据下的执行时间大约是
上面这幅图具体的描写叙述了Partition过程,每一行后也加了凝视。
有了上面这些准备工作,再加上分治的思想实现高速排序的伪代码也是非常easy的。
Quicksort(A,p,q)
1 if p<q
2 then r=Partition(A,p,q)
3 Quicksort(A,p,r-1)
4 Quicksort(A,r+1,q)
为了排序一个数组A的全部元素。初始调用时
相信通过前面的诸多实践,大家也发现了高速排序的执行时间依赖于Partition过程,也就是依赖于划分是否平衡,而归根结底这还是由于输入的元素决定的。
假设划分是平衡的,那么高速排序算法性能就和归并排序一样。
假设划分是不平衡的。那么高速排序的性能就接近于插入排序。
1)输入的元素已经排序或逆向排序
2)每一个划分的一边都没有元素
也就是说当划分产生的两个子问题分别包括了n-1个元素和0个元素时。高速排序的最坏情况就发生了。
这是一个等差级数,就和插入排序一样。它并不比插入排序快,由于当相同是输入元素已经逆向排好序时,插入算法的执行时间为
但高速排序仍旧是一个优秀的算法,这是由于在平均情况下它已经非常高效。
我们为最坏情况画一个递归树。
这是一课高度不平衡的递归树,图中左边的那些
所以算法的中执行时间为:
通过上面的图示我们知道了在最坏情况下高速排序的复杂度是
当输入规模为n时。时间
除去主元后,在Partition函数中生成的两个子问题的规模的和为n-1,所以r的规模才是0到n-1。
假设
1)而
于是有
终于由于我们能够选择一个足够大的
2)
于是有
相同我们也能够选择一个足够小的
综上这两点得到
当Partition将数组分为
高速排序的平均执行时间更接近于其最好情况,而非最坏情况。
此处有一个经典的演示样例,将数组按
当中此时的递归式是:
这里依然通过递归树来观察一番。
由于每次都降低十分之中的一个,须要减多少次才干达到n呢,也恰好也是以10为底对数的定义。所以左側的高度为
全部那些叶子加在一起也仅仅有
事实上
仅仅要划分是常数比例的,算法的执行时间总是
在前面分析高速排序的平均情况性能时,是建立在输入数据的全部排列都是等概率的条件下的。但在实际project中往往不会总出现这样的良好的情况。
在【算法】3 由招聘问题看随机算法中我们介绍了随机算法,它使得对于全部的输入都有着较好的期望性能。因此随机化高速排序在有大量数据输入的情况下是一种更好的排序算法。
下面是随机化高速排序的优点:
1)其执行时间不依赖与输入序列的顺序
2)无需对输入序列的分布做不论什么假设
3)没有 一种特别的输入会引起最差的执行情况
4)最差的情况由随机数产生器决定
如今我们来使用一种叫做随机抽样(random sampling)的随机化技术,使用该技术就不再始终採用A[p]作为主元,而是从A[p…q]中随机选择一个元素作为主元。
为了达到这一目的,首先将
通过对序列
由于主元元素是随机选择的,我们能够期望在平均情况下对输入数组的划分是比較均衡的。所以对前面的两份伪代码做例如以下改动:
RANDOMIZED-PARTITION(A,p,q)
1 i=RANDOM(p,q)
2 exchange A[p] with A[i]
3 return PARTITION(A,p,q)
RANDOMIZED-QUICKSORT(A,p,q)
1 if p<q
2 r=RANDOMIZED-PARTITION(A,p,q)
3 RANDOMIZED-QUICKSORT(A,p,r-1)
4 RANDOMIZED-QUICKSORT(A,r+1,q)
有了随机抽样技术后再也不用操心高速排序遇到最坏划分的情况啦。所以说随机化高速排序的期望执行时间是
感谢您的訪问,希望对您有所帮助。 欢迎大家关注、收藏以及评论。
为使本文得到斧正和提问,转载请注明出处:
http://blog.csdn.net/nomasp
标签:
原文地址:http://www.cnblogs.com/bhlsheji/p/5399333.html