码迷,mamicode.com
首页 > 其他好文 > 详细

若干个(大量)数字中找前K大/小的元素--数值型

时间:2016-05-12 12:47:04      阅读:120      评论:0      收藏:0      [点我收藏+]

标签:

方法一:根据快速排序划分的思想 :

(1) 递归对所有数据分成[a,b)b(b,d]两个区间,(b,d]区间内的数都是大于[a,b)区间内的数 ;

(2) 对(b,d]重复(1)操作,直到最右边的区间个数小于100个。

       注意[a,b)区间不用划分 ;因为[a,b)区间一定小于(b,d]区间;

(3) 返回上一个区间,并返回此区间的数字数目。

     如果个数大于100,对(b,d]重复(1)操作,直到最右边的区间个数小于100个;

     如果个数小于100,对上一区间的左边进行划分,分为[a2,b2)b2(b2,d2]两个区间,取(b2,d2]区间。

     如果个数超过100的就重复1操作,直到最后右边只有100个数为止。 时间复杂度为:O(NlgN)

方法二:维护一个K个元素的堆:

        先取出前100个数,维护一个100个数的最小堆,遍历一遍剩余的元素,在此过程中维护堆就可以了。

 具体步骤如下: 

         第一:取前K个元素(例如m=100),建立一个小顶堆。保持一个小顶堆得性质的步骤,运行时间为O(lgK);建立一个小顶堆运行时间为K*O(lgK)=O(KlgK);       
         第二:顺序读取后续元素,直到结束。每次读取一个元素,如果该元素比堆顶元素小,直接丢弃 ;如果大于堆顶元素,则用该元素替换堆顶元素,然后保持最小堆性质。最坏情况是每次都需要替换掉堆顶的最小元素,因此需要维护堆的代价为(N-K)*O(lgK); 

          最后这个堆中的元素就是前K最大的K个元素。时间复杂度为O(N lgK)。 

方法三:维护一个K个元素的数组:

这种思想类似与思想二,如果在查找比较的时候用二分查找,也可以使时间复杂度变为:O(NlgK)。只不过因为数组时顺序存储,当需要插入更新数据的时候需要移动K个数据,移动的次数变得很多,操作变得复杂。如果是堆,移动的次数最多也是lgK次。所以在这方面堆的效率比数组高。

方法四:分块查找:

如果数据有100W个,求取前100个数据。那么我们可以用分治法的思想,其实对于大量的数据一般都是分治法。大而化小,小而化简,各个击破。最后在组合。因为数据是无限的,而我们的处理资源硬件是有限的,所以必须的分割处理。

方法是:先把100w个数分成100份,每份1w个数。先分别找出每1w个数里面的最大的数,然后比较。找出100个最大的数中的最大的数和最小的数,取最大数的这组的第二大的数,与最小的数比较。如果第二大的数比最小的数大,那么这样就一下砍掉1W个数了;如果第二大的数比最小的数小,那么也可以砍掉9999个数,剩下的肯定不是前100个中的。类似这样可以解决此问题。




若干个(大量)数字中找前K大/小的元素--数值型

标签:

原文地址:http://blog.csdn.net/gogokongyin/article/details/51210794

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!