因为搜索引擎的流行,网络爬虫已经成了很普及网络技术,除了专门做搜索的Google,Yahoo,微软,百度以外,几乎每个大型门户网站都有自己的搜索引擎,大大小小叫得出来名字得就几十种,还有各种不知名的几千几万种,对于一个内容型驱动的网站来说,受到网络爬虫的光顾是不可避免的。一些智能的搜索引擎爬虫的爬取...
分类:
Web程序 时间:
2014-11-05 18:54:11
阅读次数:
213
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是...
分类:
Web程序 时间:
2014-09-25 21:33:37
阅读次数:
327
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。 【思路】 反爬虫策略要考虑以下几点: ...
分类:
Web程序 时间:
2014-08-20 19:45:53
阅读次数:
298
今天很不小心点开百度新闻主页面,以及360新闻主页面,分别有一篇文章,但是针对百度诉360违反Robots协议案。标题分别是《百度诉360违反爬虫协议案宣判:360赔偿70万》 《法院判定360搜索可抓取百度内容》。显然,两者报道的最终法院判决结果截然相反。请看下面截图:
显然,双方都在掩饰自己的过错,宣扬自己的长处。更搞笑的是双方互相挖苦,百度发文《360律师要求百度感谢被...
分类:
其他好文 时间:
2014-08-07 19:11:20
阅读次数:
280