算法问题分类---Top-K问题与多路归并排序

时间：2014-09-06 12:27:43 阅读：236 评论：0 收藏：0 [点我收藏+]

标签：算法

Pro1:寻找前K大数

方法1：K小根堆后面的值若大于当前根，则替换之，并调整堆

大部分人都推荐的做法是用堆，小根堆。下面具体解释下:

如果K = 1，那么什么都不需要做，直接遍历一遍，时间复杂度O（N）。

下面讨论K 比较大的情况，比如1万。

建立一个小根堆，则根是当前最小的第K个数。然后读入N-K个数，每次读入一个数就与当前的根进行比较，如果大于当前根，则替换之，并调整堆。如果小，则读入下一个。

时间复杂度O（N*logK）。

方法2：利用快排分区思想：

本题还有一个时间复杂度比较好的做法。在编程之美上提到过该算法。

首先找到最大的第K个数。这个时间复杂度可以做到O（N），具体做法如下（利用快排分区思想）：

从N个数中随机选择一个数，扫描一遍，比n大的放在右边，r个元素，比n小的放左边，l个元素

如果： a：l = K-1 返回n

b：l > K-1 在l个元素中继续执行前面的操作。

c：l < K-1 在r个元素中继续执行前面的操作。

b,c每次只需执行一项，因此平均复杂度大概为：O(n+n/2+n/4...)=O(2n)=O(n)

Pro2: 20路已经有序+20路合并求Top500

有 20 个数组，每个数组有 500 个元素，并且是有序排列好的，现在在这 20*500个数中找出排名前 500 的数。

答：

从20个数组中各取一个数，并记录每个数的来源数组，建立一个含20个元素的大根堆。此时堆顶就是最大的数，取出堆顶元素，并从堆顶元素的来源数组中取下一个数加入堆，再取最大值，一直这样进行500次即可。

Pro3: 最小堆K路合并

请给出一个时间为O(nlgk)、用来将k个已排序链表合并为一个排序链表的算法，此处n为所有输入链表中元素的总数。

算法思想:

1. 从k个链表中取出每个链表的第一个元素，组成一个大小为k的数组arr，然后将数组arr转换为最小堆，那么arr[0]就为最小元素了；

2. 取出arr[0]，将其放到新的链表中，然后将arr[0]元素在原链表中的下一个元素补到arr[0]处，即arr[0].next，如果 arr[0].next为空，即它所在的链表的元素已经取完了，那么将堆的最后一个元素补到arr[0]处，堆的大小自动减1，循环即可。

http://www.programlife.net/stl-priority-queue.html

Pro4: 整体有序局部无序问题

一个有100亿个元素的整型数组，它的元素是有序的，现在把它分成若干段，每段不超过20个元素，每段的元素个数不等，现在在每段内将这些元素的顺序打乱，然后重新将这100亿个元素的数组排序，请问时间复杂度最小的算法是什么？并给出时间复杂度。

http://bbs.csdn.net/topics/390252481

http://blog.csdn.net/burningsheep/article/details/8104493

分析：

如果每段长度相等，则可以考虑采用上面的K路归并，但此处长度不相等，需另行考虑其它方法。

解：（直接插入排序）

观察这个结果，假设第1到第5n个数已经有序为sort(5n)，那么我们要将5n+1到5n+5这5个数据添加到已排序的数组中，只需要进行插入排序，将这5个数添加进即可。由于分段的长度不超过5，所以第5n+1个数在插入的时候，最多只需要搜索到第5n-4个数就可以了，比较个数不会超过5次。又因为5n+1到5n+5是已经排好序的，所以，后面的数比较次数也不会超过5次（最多比较到前一个插入的位置）。因此，每加入5个数到已排序数组中，时间复杂度是O（5*5），

假设长度为N，每段长不超过K。则每段插入的时间复杂度即为O（K*K）。

而对于以段为单位插入的操作，需要进行N/K次，所以，总的时间复杂度是O(K*K)*O(N/K)=O(NK)

Pro5:100亿个数，求最大的1万个数，并说出算法的时间复杂度

建一个堆,先把最开始的1万个数放进去。以后每进一个,都把最小的赶出来。

上诉算法的可选实现工具：自己写堆排序函数、优先队列、STL set multiset

算法问题分类---Top-K问题与多路归并排序

标签：算法

原文地址：http://blog.csdn.net/hishentan/article/details/39099923

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行