码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫超时解决办法

时间:2014-06-19 11:24:05      阅读:354      评论:0      收藏:0      [点我收藏+]

标签:爬虫   超时   解决办法   java   httpclient   

做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢!

1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改

2,设置get方法请求超时为 5 秒

GetMethod getMethod=new GetMethod(url);     
getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 

3,设置 Http 连接超时为5秒

HttpClient httpClient=new HttpClient();   
httpClient.getHttpConnectionManager().getParams().setConnectionTimeout(5000); 

4,将请求超时的链接储存在队列中,选择其他时间再次请求

5,代理IP地址请求重试

6,分时段请求链接

7,记录请求Log输出,解决坏死链接

待完善,续……

爬虫超时解决办法,布布扣,bubuko.com

爬虫超时解决办法

标签:爬虫   超时   解决办法   java   httpclient   

原文地址:http://blog.csdn.net/fullstack/article/details/30086223

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!