采集邮件 (一)创建Constants类 ,存储文件路径,文件名,休眠时间以及收件箱,邮件的URL (二)登录 (三)抓取邮件 (1)读取收件箱信息 (2)读取邮件信息 (3)用jsoup解析信息,并存入list集合中 (4)遍历集合,得到邮件的发件人,收件人,发送时间,接收时间,内容等信息,并存储 ...
分类:
其他好文 时间:
2016-08-22 23:14:32
阅读次数:
301
去重:获取最新的邮件mid并保存,以后每采集一次得到邮件mid与存储的mid比较,若不相等则为新邮件,采集并保存,若相等,则当前邮件及之后的邮件均为已经采集的邮件,当前采集可直接结束! (1)获取最新mid (2)读取文件中存储的mid信息,比较mid,并在控制台输出新邮件 (3)重新存一次mid的 ...
分类:
其他好文 时间:
2016-08-22 23:09:47
阅读次数:
172
网易邮件采集器 完成了附件下载存储,了解MD5值,生成附件的MD5值,做好附件与邮件存储文件的关联。 网上了解JSOUP模拟登录,尝试使用fireFox获取登录URL,尝试模拟登录,但未能成功。会继续分析,尝试模拟登录。 重新写了去重方法,使用数据库存储mid,修改查询方法。 windows 环境下 ...
分类:
其他好文 时间:
2016-08-22 21:20:35
阅读次数:
129
网易邮件采集器 经过昨天一天时间的对网易附件内容的研究,得到附件下载URL,以及需要的参数列表。 通过网上寻找httpConsent关于文件下载的内容实例,完成了邮件附件的下载,但是所有的附件都在同一个文件夹中,没能准确划分,因为使用了原附件文件名作为下载内容的文件名,所以会出现文件名重复的问题,仍 ...
分类:
其他好文 时间:
2016-08-18 23:08:58
阅读次数:
187
火车头采集器,http://www.locoy.com/ 如果你想自己写爬虫,可以用基于爬虫框架开发,例如python的scrapy。 火车头采集器,http://www.locoy.com/ 如果你想自己写爬虫,可以用基于爬虫框架开发,例如python的scrapy。 火车头采集器,http:// ...
分类:
其他好文 时间:
2016-08-13 21:10:29
阅读次数:
107
Python爬虫总结(一)入门 很多做数据分析的同学会抱怨没有实际数据,感觉巧妇难为无米之炊,而火车头采集器一类的软件很难完成一些定制性很强的数据采集任务,这时候就需要自己编写爬虫来采集数据了。python是目前做爬虫比较流行的工具。 爬虫的一般原理 爬虫一般通过发送http/https请求,从服务 ...
分类:
编程语言 时间:
2016-07-30 12:06:32
阅读次数:
194
精准QQ号码采集器 在线QQ号码采集器 地区QQ号码采集 空间访客提取器 软件:精准QQ号码采集器 【特色功能】按同城,按同乡,按男女,按在线,按年龄段,按关键字来采集精准的QQ号码功能一:空间动态提取器,提取空间的动态(空间动态)功能二:动态访客提取器,提取空间动态的浏览,赞的QQ号码功能三:日志 ...
分类:
其他好文 时间:
2016-07-23 13:39:13
阅读次数:
472