码迷,mamicode.com
首页 > 其他好文 > 详细

高效词频分析

时间:2016-04-23 16:36:08      阅读:137      评论:0      收藏:0      [点我收藏+]

标签:

由于密码泄露越来越普遍,使得各类“密码分析”工具越来越多。比如最近很火的Pipal,由ruby编写的一款程序,可以分析出密码频率TOP N。但实际使用中发现效率较低。

实际上通过简单的bash命令就可以实现上述的功能:

cat password.txt | sort | uniq -c | sort -k1,1nr | head -10

提取password词频TOP10的密码

time cat pass.txt | sort | uniq -c | sort -k1,1nr | head -10 > result.txt
保存提取结果并记录所消耗时间

由于sort是C语言编写,效率远高于Pipal。在数据量较大的词频统计时,差距尤其明显。
实际测试 在虚拟机中两亿条数据获取top 10000 大概50分钟左右。

 

高效词频分析

标签:

原文地址:http://www.cnblogs.com/dongchi/p/5424792.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!