报错自查# 1、 HttpConnectionPool: # 原因: 1、短时间内发起了高频的请求导致IP被禁 # 2、http连接池中的连接资源被耗尽 # 解决: # 1、 使用代理服务器 # 2、headers中加入 Connection: 'close'# 2、代理:代理服务器,可以接受请求将... ...
分类:
其他好文 时间:
2020-07-04 15:01:01
阅读次数:
59
搭建免费代理池 https://github.com/jhao104/proxy_pool # 收费的:提供给你一个接口,每调一次这个接口,获得一个代理 # 免费:用爬虫爬取,免费代理,放到我的库中,flask,django搭一个服务(删除代理,自动测试代理可用性),每次发一个请求,获取一个代理 # ...
分类:
其他好文 时间:
2020-04-08 22:38:29
阅读次数:
103
request 模块基本使用 安装 pip install requests 1.发送http请求 # get,delete,post 本质都是调用request函数 ret = requests.get('http://www.baidu.com') print(ret.status_code) ...
分类:
其他好文 时间:
2020-04-08 09:45:51
阅读次数:
55
目标:通过继承通用爬虫,实现多个具体爬虫,分别从各个免费代理ip网站上抓取代理ip 步骤 1.实现西刺代理,ip3366代理和快代理还有proxylistplus代理 定义一个类,继承通用爬虫类 提供urls,group_xpath和detail_xpath 2.实现66ip爬虫 定义一个类,继承通 ...
分类:
编程语言 时间:
2020-04-02 22:49:45
阅读次数:
108
[toc] 很多网站会监测一段时间内某个IP访问的次数(通过数据流量和日志等),如果访问的次数多的不像正常人,它就会把这个IP地址封了。所以我们就需要设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁止,依然可以换个IP继续爬。 常用的代理服务器: 西刺免费代理IP:https://www.x ...
分类:
编程语言 时间:
2020-03-25 19:39:40
阅读次数:
75
ProxyHandler处理器一、如果我们在一段时间内用某个ip地址访问了一个网站次数过多,网站就检测到不正常,就会禁止这个ip地址的访问。所以我们可以设置一些代理服务器,每段时间换个代理,就算ip被禁止,我们也可以换个ip继续爬取 代理有 1、西刺免费代理:http://www.xicidaili ...
分类:
编程语言 时间:
2020-02-25 00:33:37
阅读次数:
86
1.代理 代理服务器,可以接受请求然后将其转发 1.匿名度 1. 高匿:不知道你使用了代理,也不知道你的真实ip 2. 匿名: 知道你使用了代理,但是不知道你的真实ip 3. 透明:知道你使用了代理并且知道你的真实ip 2.类型 http https 3.免费代理的网站 - http://www.g ...
分类:
其他好文 时间:
2020-01-11 18:25:33
阅读次数:
80
反爬记录 1.UA伪装 2.封IP 3.font family 4.cookeies 5.验证码 6.referer 7.css:before 8.js混淆 9:加密 10.检查webdriver 11.禁用调试 爬虫小知识 测试接口信息的链接 大型免费代理池 https://github.com/ ...
分类:
其他好文 时间:
2020-01-06 22:48:39
阅读次数:
72
由于公司业务要求,西瓜代理已经不满足需求,准备更换新的代理IP池,所以调研测试了一下市面上的各家付费代理(免费代理可用率低故不考虑),功能限制和价格情况等如何,以便从中挑选满足要求的代理。 1、目标站 2、情报收集 整理套餐的价格和类型,API频率,每秒提取上限,每天提取上限,使用时长等信息: (p ...
分类:
其他好文 时间:
2019-09-20 20:58:59
阅读次数:
99