码迷,mamicode.com
首页 > 编程语言 > 详细

python学习5 爬虫老是被封如何解决

时间:2020-02-12 00:16:10      阅读:83      评论:0      收藏:0      [点我收藏+]

标签:浏览器   user   重要   href   ref   使用   safari   情况   nbsp   

先设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图 1 是显性等待时间设置,图 2 是隐性。

 

技术图片
 

 

 

技术图片
 

 

第二步,修改请求头:

 

识别你是程序还是网友浏览器浏览的重要依据就是 User-Agent,比如网友用浏览器浏览就会使这个样子的 User-Agent:’Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36’

 

技术图片
 

 

第三步,采用代理 ip / 建代理 ip 池

\

直接看代码。利用动态 ip 代理,可以强有力地保障爬虫不会被封,能够正常运行。图 1 为使用代理 ip 的情况,图 2 是建 ip 代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量 ip 的。

 

技术图片

python学习5 爬虫老是被封如何解决

标签:浏览器   user   重要   href   ref   使用   safari   情况   nbsp   

原文地址:https://www.cnblogs.com/adret/p/12297399.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!