码迷,mamicode.com
首页 > 其他好文 > 详细

爬虫的相关概念

时间:2017-09-24 19:22:43      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:概念   应用   目的   use   法律   搜索   .com   定制   alt   

1 爬虫应用场合:

1 小规模的,数据量小,爬取速度不敏感 -----爬去网页   ======  requests 库
2 网站资源 中规模,数据规模较大,旅游网站 =======scrapy 库
3 全 internet 规模 搜索引擎 ========= 定制开发

2 爬虫引发的问题:

1网络服务器性能骚扰

2 网络内容版权 法律问题

3 个人数据 隐私泄露

3 网络爬虫的限制 或者规则  

1 来源审查:判断User-Agent 进行限制
                  检查来访的 HTTP协议头的User-Agent域,只响应浏览器或者友好爬虫的访问
                  --对审查技术人员要求较高--
2 发布公告Robots协议
                 告知所有爬虫网站的爬取 策略,要求爬虫规则

4 Robots 协议:

Robots Exclusion Standard  网络爬虫排除标准

User-agent:*
Disallow:/ ----- 基本形式 目的:告知网络爬虫规则那些可以爬取,哪些不行 形式:在网站的根目录下的 robos.txt 文件中
约束性Robots协议是建议性的而非约束性,可以不遵守但是存在一定的法律风险
----类人类行为 可以不参考 Robots协议

如果没有 robots协议 ----- 默认为 允许爬虫爬取数据


例子 京东的robots:

技术分享

 

 

 

爬虫的相关概念

标签:概念   应用   目的   use   法律   搜索   .com   定制   alt   

原文地址:http://www.cnblogs.com/big-handsome-guy/p/7588041.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!