TOP K 问题

时间：2016-07-03 19:07:54 阅读：117 评论：0 收藏：0 [点我收藏+]

标签：

问题：从N个数中找出最大的K个数。

首先，要解决的第一件事情，就是这N个数能否全部存入内存。

在linux系统中，栈的最大可分配空间是8M，可以用ulimit -s 命令查看。堆可分配的最大内存空间32位系统和64位系统不同。

32位系统中，一个进程可寻址的空间只有4G，即2的32次方，据网上说，可分配给堆得空间约2.8G。所以，堆可分配的最大内存 = min(2.8G，剩余内存大小)

64位系统中，一个进程可寻址的空间原则上是2的64次方，现在的64位机器一般只使用后48位寻址，那也是258T，现在的内存远达不到这个量级。所以，堆可分配的最大内存 = 剩余内存大小。

当然，现在都有swap物理空间，所以可分配的堆空间应该比剩余内存大小要大一些。具体大多少，不是很清楚，需要了解swap空间的使用策略。

如果，这N个数可以都存入内存。

1、最简单，也是最低效的方法是：将这N个数排序，取前K个数即可。一般使用快排或者堆排序，快排在实际运用中能更好一些。 o(N*log2N)

2、部分快排：不断划分区间，直到大的部分的数目为K。o(N*log2K)

3、部分堆排序：堆排序的方法是先建堆，然后不断取堆顶元素，然后重新调整堆。部分堆排序的方法是先将前K个元素建最小堆，然后后面的元素不断与前K个元素比较，重新调整堆，保证堆顶元素比其余N-K个数都大。o(N*log2K)

4、寻找第K大的数。先找出第K大数，然后遍历输出比第K大的数。利用二分法找第K大的数。o(N*log2N)

5、数组下标法。要求比较多，数要为整数，而且不能太大。就可以每个数作为数组下标，存放的是该数出现的次数。o(N)

实现：http://blog.csdn.net/xiaoding133/article/details/8037086

总的来说，部分快排和部分堆排序比较靠谱。第一种方法太蠢，方法四虽然可以优化，但据说实际效果还是不好，方法五要求太多，但如果符合要求的话，方法五还是很高效的。

标签：

原文地址：http://www.cnblogs.com/leng2052/p/5634737.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行