码迷,mamicode.com
首页 > Web开发 > 详细

用Netscaler解决网络爬虫问题

时间:2018-01-16 10:23:19      阅读:287      评论:0      收藏:0      [点我收藏+]

标签:bdd   页面   常用   server   应用   优先   例子   glob   技术   

用Netscaler解决网络爬虫问题

   近来有人问使用ADC来解决网络爬虫问题,首先要明确的一点:“在爬虫与反爬虫的对弈中,爬虫一定会胜利。”换言之,只要人类能够正常访问的网页,爬虫在具备同等资源的情况下就一定可以抓取到。robots.txt 只是约定,爬虫遵守或者不遵守完全在于爬虫作者的意愿。举个例子,公交车上贴着「请为老弱病残孕让座」,但是大部分人并不见得会遵守。一般来讲,只有大的搜索引擎爬虫会遵守你网站的 robots.txt 协议,其它的爬虫基本都不会看一眼你的 robots.txt 写的是什么。大部分情况下,反爬虫的需求是不能影响到网站正常使用的,一个网站的功能性需求一定高于反爬虫需求,所以大部分网站反爬虫一定不会恶心到正常用户的使用。

伪装UA
使用代理IP
Cookies处理
验证码识别
控制访问速度
云主机运行
多线程并发抓取

通常我们用到的反爬虫的办法有:
1、通过HTTP的UA(User-Agent)header来区分
2、通过验证码来识别机器
3、通过

通过cookie来验证
添加变量来存储cookie的值
技术分享图片

设置变量的属性,名称为vari_verify_cookie_global,生命值为300秒,初始值为不设置
技术分享图片

进行变量运算
技术分享图片
运算名称为,选择刚定义的变量vari_verify_cookie_global,运算方法为“set”,赋值内容为SYS.TIME.TYPECAST_TEXT_T.HASH(当前系统时间并作哈希)
技术分享图片

编写Rewrite策略
技术分享图片
技术分享图片

正常使用my_cookie即可,示例中添加para的cookie是为了验证变量赋值是否正确
编写两个rewrite策略
技术分享图片

给变量赋值策略
技术分享图片

插cookie策略

技术分享图片
编写responder策略来验证cookie是否正确。当用户携带cookie:my_cookie=xxxx时重置tcp连接
技术分享图片
技术分享图片

应用策略
绑定responder策略到vserver
技术分享图片

绑定rewrite策略到vserver,注意策略的优先级和后续操作
技术分享图片
spider01的优先级为100,选下一步操作为next
技术分享图片
spider02的优先级为110,下一步操作为end
技术分享图片

到此完成配置,进行验证
用户第一次访问不带my_cookie,可以正常打开页面,并且Netscaler插入cookie
技术分享图片

当再次刷新时即命中responder策略,重置TCP
技术分享图片
得到此页面说明已经能够成功验证cookie的值

用Netscaler解决网络爬虫问题

标签:bdd   页面   常用   server   应用   优先   例子   glob   技术   

原文地址:http://blog.51cto.com/caojin/2061345

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!