爬虫的相关概念

时间：2017-09-24 19:22:43 阅读：167 评论：0 收藏：0 [点我收藏+]

1 爬虫应用场合：

1 小规模的，数据量小，爬取速度不敏感 -----爬去网页   ======  requests 库

2 网站资源 中规模，数据规模较大，旅游网站           =======scrapy 库

3 全 internet 规模 搜索引擎                    =========  定制开发

2 爬虫引发的问题：

1 对网络服务器性能的 骚扰

2 网络内容的版权 法律问题

3 个人数据 隐私泄露

3 网络爬虫的限制或者规则：

1 来源审查：判断User-Agent 进行限制
                  检查来访的 HTTP协议头的User-Agent域，只响应浏览器或者友好爬虫的访问
                  --对审查技术人员要求较高--
2 发布公告：Robots协议
                 告知所有爬虫网站的爬取 策略，要求爬虫规则

4 Robots 协议：

Robots Exclusion Standard  网络爬虫排除标准

User-agent:*
Disallow:/     ----- 基本形式

目的：告知网络爬虫规则，那些可以爬取，哪些不行
形式：在网站的根目录下的 robos.txt 文件中
约束性：Robots协议是建议性的而非约束性，可以不遵守，但是存在一定的法律风险
        ----类人类行为 可以不参考 Robots协议

如果没有 robots协议 ----- 默认为 允许爬虫爬取数据


例子 京东的robots：

爬虫的相关概念

标签：概念应用目的 use 法律搜索 .com 定制 alt

原文地址：http://www.cnblogs.com/big-handsome-guy/p/7588041.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行