标签:概念 应用 目的 use 法律 搜索 .com 定制 alt
1 爬虫应用场合:
1 小规模的,数据量小,爬取速度不敏感 -----爬去网页 ====== requests 库
2 网站资源 中规模,数据规模较大,旅游网站 =======scrapy 库
3 全 internet 规模 搜索引擎 ========= 定制开发
2 爬虫引发的问题:
1 对网络服务器性能的 骚扰 2 网络内容的版权 法律问题 3 个人数据 隐私泄露
3 网络爬虫的限制 或者规则 :
1 来源审查:判断User-Agent 进行限制 检查来访的 HTTP协议头的User-Agent域,只响应浏览器或者友好爬虫的访问 --对审查技术人员要求较高-- 2 发布公告:Robots协议 告知所有爬虫网站的爬取 策略,要求爬虫规则
4 Robots 协议:
Robots Exclusion Standard 网络爬虫排除标准
User-agent:*
Disallow:/ ----- 基本形式
目的:告知网络爬虫规则,那些可以爬取,哪些不行
形式:在网站的根目录下的 robos.txt 文件中
约束性:Robots协议是建议性的而非约束性,可以不遵守,但是存在一定的法律风险
----类人类行为 可以不参考 Robots协议
如果没有 robots协议 ----- 默认为 允许爬虫爬取数据
例子 京东的robots:
标签:概念 应用 目的 use 法律 搜索 .com 定制 alt
原文地址:http://www.cnblogs.com/big-handsome-guy/p/7588041.html