码迷,mamicode.com
首页 > 编程语言 > 详细

海量数据处理:Hash映射 + Hash_map统计 + 堆/快速/归并排序

时间:2017-05-15 18:23:01      阅读:197      评论:0      收藏:0      [点我收藏+]

标签:百度   受限   归并排序   round   提取   映射   内存   海量数据   堆排   

海量日志数据,提取出某日访问百度次数最多的那个IP。
 既然是海量数据处理,那么可想而知,给我们的数据那就一定是海量的。
针对这个数据的海量,我们如何着手呢?对的,无非就是分而治之/hash映射 + hash统计 + 堆/快速/归并排序,说白了,就是先映射,而后统计,最后排序:
  1. 分而治之/hash映射:针对数据太大,内存受限,只能是:把大文件化成(取模映射)小文件,即16字方针:大而化小,各个击破,缩小规模,逐个解决
  2. hash_map统计:当大文件转化了小文件,那么我们便可以采用常规的hash_map(ip,value)来进行频率统计。
  3. 堆/快速排序:统计完了之后,便进行排序(可采取堆排序),得到次数最多的IP。

海量数据处理:Hash映射 + Hash_map统计 + 堆/快速/归并排序

标签:百度   受限   归并排序   round   提取   映射   内存   海量数据   堆排   

原文地址:http://www.cnblogs.com/hustercn/p/6857451.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!