码迷,mamicode.com
首页 > 其他好文 > 详细

简析爬虫、反爬虫、反反爬虫之间的抗衡

时间:2018-12-23 17:57:34      阅读:148      评论:0      收藏:0      [点我收藏+]

标签:网络请求   模拟   方法   ip池   存储   验证   用户名   爬虫   ajax   

爬虫的类型分为:通用型爬虫、聚焦型爬虫。

通用型爬虫指的是搜索引擎,

聚焦型爬虫指的是针对哪家网站做针对性的爬取。

接下来分析一下其各自的手段和方法。

 

反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP。

                  用户信息,需要用户名密码及验证码的验证,

                  ajax异步请求,页面无刷新

                  投毒型,要a给b

                  诱捕型,多层级存储文件

爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器,

 

由爬虫引出的反爬虫、反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”       是个君子协议,内容写的是哪些信息可以爬取,哪些信息不可以爬取,爬虫工程师根据自己意愿选择是否遵守

简析爬虫、反爬虫、反反爬虫之间的抗衡

标签:网络请求   模拟   方法   ip池   存储   验证   用户名   爬虫   ajax   

原文地址:https://www.cnblogs.com/lutt/p/10164741.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!