码迷,mamicode.com
首页 > 其他好文 > 详细

垂直爬虫爬取分页数据

时间:2015-06-24 16:51:13      阅读:130      评论:0      收藏:0      [点我收藏+]

标签:

为了爬取全部详情页,一般从列表页开始多线程并发爬取,并发线程数受网络环境(一般表现为超时)和服务器性能影响(一般表现为http响应500)。

1、第一页作为抓取入口url,解析出详情页url及其他分页url,详情页优先爬,避免缓存的url过多;

2、查看总共多少页(如果分页中没有总共多少页,通过总记录数/每页记录数计算出多少页),爬取过程不解析分页url,一次性添加全部分页url, 当然也可以在爬第一页的时候添加全部分页,每爬完一页解析出详情页url,详情页优先爬;

3、有些网站在详情页提供上一条、下一条功能,可以第一条、最后一条详情页作为入口,通过上一条,下一条爬全部,线程多可以增加几条中间的详情页。

爬取分全量爬取和增量爬取,对于数据量大的短时间内无法爬完,可能一天只爬了一部分,第二天ip就被封了,还得使用代理。研发阶段和系统发布之间有时间差问题,程序开发完的时候全量爬了数据,系统进入集成测试,可能一个月后发布;增量爬取如果按天增量,还需要考虑时间跨度较大(一个月)的爬取方案。


垂直爬虫爬取分页数据

标签:

原文地址:http://my.oschina.net/h2do/blog/470260

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!