码迷,mamicode.com
首页 > 其他好文 > 详细

文件排序去重新思路

时间:2014-06-23 06:53:18      阅读:264      评论:0      收藏:0      [点我收藏+]

标签:style   使用   strong   文件   数据      

我一直觉得思路是比较重要的。

 

前几天终于从一个充满了垃圾广告的网盘里下载到了传说中的 csdn 数据库(就是以前泄露的那个,现在被各种封杀了)

 

我写了个一个python脚本从中提取密码(用户名和邮箱我都不需要),用来做一个字典。

但是我发现,其中有很多是重复的,比如123456789之类的。

 

所以,第一个问题摆在了我的面前,怎么去重,怎么给文件中的数据去重。

 

我首先想到的就是python 中的先set在list。

 

然后我遇到了第二个问题,当这个字典文件比较大的时候,全部读取到内存是不合理的。

 

通过资料,我查到了一条linux命令,uniq,去重,我的字典有70MB左右,速度还可以接受。

 

第三个问题,如果数据量真的很大很大,我该如何处理呢?

 

这时候我想到了数据库,数据库设计中有一个约束,叫做唯一性约束,既已经插入的值,不能再次插入。

 

那么,我读取文件中的数据,尝试往数据库插入,如果数据库中已经存在,我就忽略此次插入。

这就满足了我的需求了。

 

我的第四个问题,我需要排序,简单的排序就是sorted了,Linux也有sort命令,那么,使用数据库应该也可以排序吧?

 

这里仅仅是一个思路,我还未做尝试,不过应该可行。

文件排序去重新思路,布布扣,bubuko.com

文件排序去重新思路

标签:style   使用   strong   文件   数据      

原文地址:http://www.cnblogs.com/tk091/p/3799745.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!