做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢!
1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改
2,设置get方法请求超时为 5 秒
GetMethod getMethod=new GetMethod(url);
getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000);
3,设置 Http 连接超时为5秒
HttpClient httpClient=new Http...
分类:
其他好文 时间:
2014-06-19 11:24:05
阅读次数:
354
使用python抓取CSDN关注人的所有发不过的文章...
分类:
编程语言 时间:
2014-06-19 09:35:54
阅读次数:
273
/* * 身份证检测(格式、地区、生日、年龄范围) * code:检测字符串
rangeAge:年龄范围[格式为:25-55] * 返回值 0:为空 ,不为0则验证不通过 */var cityArr = { 11: "北京", 12:
"天津", 13: "河北", 14: "山西", 15: "内...
分类:
Web程序 时间:
2014-06-16 08:46:41
阅读次数:
276
原文:js验证身份证号/* * 身份证检测(格式、地区、生日、年龄范围) *
code:检测字符串 rangeAge:年龄范围[格式为:25-55] * 返回值 0:为空 ,不为0则验证不通过 */var cityArr = { 11:
"北京", 12: "天津", 13: "河北", 14: "...
分类:
Web程序 时间:
2014-06-16 08:14:52
阅读次数:
274
zb的生日
时间限制:3000 ms | 内存限制:65535 KB
难度:2
描述今天是阴历七月初五,acm队员zb的生日。zb正在和C小加、never在武汉集训。他想给这两位兄弟买点什么庆祝生日,经过调查,zb发现C小加和never都很喜欢吃西瓜,而且一吃就是一堆的那种,zb立刻下定决心买了一堆西瓜。当他准备把西瓜送给C小加和never的时候,遇到了一个难题,ne...
分类:
其他好文 时间:
2014-06-15 19:12:07
阅读次数:
182
>
以下分三部分来从感性认识到理性命令代码测试来逐步掌握和熟悉Python脚本;重要的是第三部分,把第三部分中每一条命令,每一个函数,都要亲自测试并显示正确结果,运用熟练就ok!
==========================================================
第一部分:当前python应用实例
google web爬虫,搜索引擎
y...
分类:
编程语言 时间:
2014-06-15 17:40:09
阅读次数:
237
用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。
整个源码如下,比较简单,写这个只是简单的练手而已
#coding: utf-8 #############...
分类:
编程语言 时间:
2014-06-15 16:30:56
阅读次数:
500
转载自我的博客:http://www.mylonly.com/archives/1418.html
经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了...
分类:
编程语言 时间:
2014-06-15 16:30:20
阅读次数:
344
使用python获取博客园作者的文章列表的超链接以及标题...
分类:
编程语言 时间:
2014-06-15 07:42:45
阅读次数:
279
${"%u"+java.lang.Integer.toHexString(region.toString().charAt(s.toInt()))}
这样转换成的每个字符后面会有空行,用的时候需要regionUnicode.toSt...
分类:
其他好文 时间:
2014-06-12 17:47:11
阅读次数:
186