随机UA https://github.com/hellysmile/fake-useragent DOWNLOADER_MIDDLEWARES增加自定义 备注:settings.py增加配置项 RANDOM_UA_TYPE = "random" 动态IP 1、通过免费的代理IP,如西刺,自己获取I ...
分类:
其他好文 时间:
2017-08-10 15:10:38
阅读次数:
299
扩展apache日志记录代理IP以及真实客户端IPhttp://www.lishiming.net/thread-960-1-1.htmlapache只记录指定URI的日志http://www.lishiming.net/thread-981-1-1.htmlapache日志记录客户端请求的域名http://www.lishiming.net/thread-1037-1-1.htmlapache日志切割问题http://www...
分类:
其他好文 时间:
2017-08-01 21:46:48
阅读次数:
194
我们在爬取网页的时候,由于需要不断的访问目标服务器,因此给目标服务器带来了很多的压力。 因此,很多访问量大的服务器都会有保护措施,如果检测到我们的行为,可以会禁止我们的ip访问。 这个时候,我们就需要使用到代理ip来进行访问了。 在HttpCLient中,提供了一个org.apache.http.c ...
分类:
Web程序 时间:
2017-07-26 14:40:08
阅读次数:
157
开始 开篇:爬代理ip v2.0(未完待续),实现了获取代理ips,并把这些代理持久化(存在本地)。同时使用的是tornado的HTTPClient的库爬取内容。 中篇:开篇主要是获取代理ip;中篇打算使用代理ip,同时优化代码,并且异步爬取内容。所以接下来,就是写一个:异步,使用代理的爬虫。定义为 ...
分类:
其他好文 时间:
2017-07-26 14:39:42
阅读次数:
245
废话不多说,直接说重点: 刚开始做的时候,代理IP,头部信息池,都已经做好了,使用selenium+phantomjs获取js动态加载后的源码 起初挺好的,能出来动态加载后的源码,但是运行了几次之后,电脑有点卡顿(估计是运存太小),源码就获取不到了,返回的数据 都是空数据,以至于都是出错 在做的时候 ...
分类:
编程语言 时间:
2017-07-04 20:03:58
阅读次数:
609
第一节: htmlunit 模拟浏览器请求 第二节: htmlunit 获取指定元素 第三节: htmlunit 使用代理 IP 第四节: htmlunit 取消 css,javascript 支持 第五节: htmlunit 模拟按钮点击 ...
分类:
Web程序 时间:
2017-06-21 11:27:19
阅读次数:
181
Nginx不记录指定文件类型的日志查看主配置文件:[root@LHQvhosts]#vim../nginx.conf在配置文件里:log_formatcombined_realip‘$remote_addr$http_x_forwarded_for[$time_local]‘(日志格式)(日志名字)(两个IP,一个自己的IP,一个代理IP)(时间)‘$host"$request_uri"$sta..
分类:
其他好文 时间:
2017-06-15 00:37:31
阅读次数:
173
1. 创建middlewares.py文件。 Scrapy代理IP、Uesr-Agent的切换都是通过DOWNLOADER_MIDDLEWARES进行控制,我们在settings.py同级目录下创建middlewares.py文件,包装所有请求。 2. 修改settings.py配置USER_AGE ...
分类:
其他好文 时间:
2017-06-09 13:27:28
阅读次数:
799