码迷,mamicode.com
首页 > 其他好文 > 详细

有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复,用5分钟时间找出重复出现最多的前10条短信。

时间:2017-09-23 16:16:30      阅读:704      评论:0      收藏:0      [点我收藏+]

标签:ascii码   style   mil   sci   时间   font   strong   分组   文本文件   

1,哈希表法

  分成若干组,进行扫描。相同记录只加1次,重复次数加1,之后进行第二次扫描,得出重复次数的前十名。

2,从小到大排序(我觉得最好不用这种方法,准确性不高)

3,内存映射(建议)

  对每条短信的第i个字母按ASCII码进行分组,也就是创建树。i是树的深度,也是短信的第i个字母。

 

有1千万条有重复的短信,以文本文件的形式保存,一行一条,也有重复,用5分钟时间找出重复出现最多的前10条短信。

标签:ascii码   style   mil   sci   时间   font   strong   分组   文本文件   

原文地址:http://www.cnblogs.com/pengs/p/7581334.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!