标签:不能 tao 情况 baidu 代码 指定 分类 流量 工程
爬虫就是通过编写程序模拟浏览器上网,让其去互联网上抓取数据的过程
实际的应用(爬取数据的产品化、商业化)
就业(爬虫工程师紧缺)
爬虫本身在法律上并不被禁止,但是具有违法的风险
门户网站通过制定相应的策略和技术手段,防止爬虫程序进行网站数据的爬取
爬虫程序通过相应的策略和技术手段,破解门户网站的反爬虫手段,从而爬取到相应的数据
几乎是和爬虫技术诞生的同一时刻,反爬虫技术也诞生了。在90年代开始有搜索引擎网站利用爬虫技术抓取网站时,一些搜索引擎从业者和网站站长通过邮件讨论定下了一项“君子协议”—— robots.txt。即网站有权规定网站中哪些内容可以被爬虫抓取,哪些内容不可以被爬虫抓取。这样既可以保护隐私和敏感信息,又可以被搜索引擎收录、增加流量。
历史上第一桩关于爬虫的官司诞生在2000年,eBay将一家聚合价格信息的比价网站BE告上了法庭,eBay声称自己已经将哪些信息不能抓取写进了robots协议中,但BE违反了这一协议。但BE认为eBay上的内容属于用户集体贡献而不归用户所有,爬虫协议不能用作法律参考。最后经过业内反复讨论和法庭上的几轮唇枪舌战,最终以eBay胜诉告终,也开了用爬虫robots协议作为主要参考的先河。
最后,可以通过网站域名加robots.txt的形式访问该网站的协议详情,例如:www.taobao.com/robots.txt
标签:不能 tao 情况 baidu 代码 指定 分类 流量 工程
原文地址:https://www.cnblogs.com/shibojie/p/11399938.html