码迷,mamicode.com
首页 >  
搜索关键字:桌酷 爬虫 python3    ( 22387个结果
爬虫超时解决办法
做网络爬虫怕的就是超时,当恰恰出现最多的就是超时,那该怎么办呢! 1,HttpClient默认请求为3次,你可以修改成N次,建议根据实际情况修改 2,设置get方法请求超时为 5 秒 GetMethod getMethod=new GetMethod(url); getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT,5000); 3,设置 Http 连接超时为5秒 HttpClient httpClient=new Http...
分类:其他好文   时间:2014-06-19 11:24:05    阅读次数:354
使用python抓取CSDN关注人的所有发布的文章
使用python抓取CSDN关注人的所有发不过的文章...
分类:编程语言   时间:2014-06-19 09:35:54    阅读次数:273
Python初学笔记
>      以下分三部分来从感性认识到理性命令代码测试来逐步掌握和熟悉Python脚本;重要的是第三部分,把第三部分中每一条命令,每一个函数,都要亲自测试并显示正确结果,运用熟练就ok! ========================================================== 第一部分:当前python应用实例   google web爬虫,搜索引擎   y...
分类:编程语言   时间:2014-06-15 17:40:09    阅读次数:237
Python爬虫之路——简单的网页抓图
用Python的urllib2库和HTMLParser库写了一个简单的抓图脚本,主要抓的是http://desk.zol.com.cn/meinv/这个链接下的图片,通过得到图集的起始URL地址,得到第一张图片,然后不断的去获取其下一个图片的URL,继而得到所有首页的图集的图片。 整个源码如下,比较简单,写这个只是简单的练手而已 #coding: utf-8 #############...
分类:编程语言   时间:2014-06-15 16:30:56    阅读次数:500
Python爬虫之路——简单网页抓图升级版(增加多线程支持)
转载自我的博客:http://www.mylonly.com/archives/1418.html 经过两个晚上的奋斗,将上一篇文章介绍的爬虫稍微改进了下(Python爬虫之路——简单网页抓图),主要是将获取图片链接任务和下载图片任务用线程分开来处理了,而且这次的爬虫不仅仅可以爬第一页的图片链接的,整个http://desk.zol.com.cn/meinv/下面的图片都会被爬到,而且提供了...
分类:编程语言   时间:2014-06-15 16:30:20    阅读次数:344
使用python获取博客园作者的文章列表的超链接以及标题
使用python获取博客园作者的文章列表的超链接以及标题...
分类:编程语言   时间:2014-06-15 07:42:45    阅读次数:279
【自用】爬虫配置XML时拼接URL中文转Unicode问题(例如北京转成%u5317%u4EAC)
${"%u"+java.lang.Integer.toHexString(region.toString().charAt(s.toInt()))} 这样转换成的每个字符后面会有空行,用的时候需要regionUnicode.toSt...
分类:其他好文   时间:2014-06-12 17:47:11    阅读次数:186
pygame小记
突发奇想学习pygame记录一下遇到的问题吧~1.pygame版本对应python版本必须一致,我用pygame对应的python3.2去试python3.4失败,不能识别,后来把python3.4删了重装才OK2.在pycharm下debug一直失败,都卡在execfile的某一句,是因为你的.p...
分类:其他好文   时间:2014-06-12 09:13:00    阅读次数:301
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!