码迷,mamicode.com
首页 > 其他好文 > 详细

guozhongCrawler的是一个无须配置、便于二次开发

时间:2015-08-11 07:09:46      阅读:137      评论:0      收藏:0      [点我收藏+]

标签:

guozhongCrawler的是一个无须配置、便于二次开发的爬虫开源框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。模块化设计完全 面向业务提供接口,功能覆盖整个爬虫的生命周期(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重试,定制执行js、 自定义cookie等功能。在处理网站抓取多次后被封IP的问题上,guozhongCrawler采用动态轮换IP机制有效防止IP被封。另外,源码中 的注释及Log输出全部采用通俗易懂的中文。让初学者能有更加深刻的理解

 

 

 

 

 

 

 

http://git.oschina.net/woshidaniu/GuozhongCrawler

guozhongCrawler的是一个无须配置、便于二次开发

标签:

原文地址:http://www.cnblogs.com/x113/p/4719833.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!