码迷,mamicode.com
首页 > 其他好文 > 详细

反爬虫的解决办法

时间:2020-09-15 21:15:09      阅读:39      评论:0      收藏:0      [点我收藏+]

标签:一半   简单   限制ip访问   png   判断   就是   针对   代码   idea   

从事互联网工作者都比较清楚,网络爬虫对于互联网的共享是非常大的,其中有超过一半的流量都是网络爬虫的贡献,如果一个网站不设置防爬机制,那么所有的信息都会透明公开化,所以几乎所有的网站都会设置防爬机制,今天介绍一部分常见的反网络爬虫以及应对反网络爬虫的突破方法,但是还是要提醒大家不要恶意进行爬取。
技术图片
动态页面的限制,爬虫工作者可能会遇到这样的尴尬,当你抓取下目标页面之后,你发现,关键信息处一片空白,只有密密麻麻一片的框架代码,这是因为该网站的信息是通过用户Post的XHR动态返回内容信息,解决这种问题就是要通过开发者工具(FireBug等)对网站流进行分析,对内容信息进行抓取,获取所需要的内容。

用户行为检测,有一些是网站通过检测和分析一些用户的行为,比如说是针对cookies,通过检查cookies来判断用户是不是可以利用和保存的有效客户,通常是需要登陆的网站,经常会采用这样的技术。层次再深的还有,信息验证,部分网站的登陆是需要验证吗的验证的,就像登陆的时候,系统会自动分配出验证码,authenticity_token,authenticity_token会和用户提交的登录名和密码一起发送回服务器。

IP的访问频率被限制,一些平台为了防止多次访问网站,会在某个同一个IP在单元时间内超过一定的次数的时候,将禁止这个IP继续访问。对于这个限制IP访问效率,可以使用[代理IP(https://www.ipidea.net/)的方法来解决问题比如使用IPIDEA

以上简单的说了三种常见的反爬虫已经反爬虫的应对方法,一般来讲越高级的爬虫被封锁的机率救会越低,但是性能会比较低一些。

反爬虫的解决办法

标签:一半   简单   限制ip访问   png   判断   就是   针对   代码   idea   

原文地址:https://blog.51cto.com/14910755/2526853

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!