《http权威指南》读书笔记五

时间：2015-05-06 15:22:45 阅读：134 评论：0 收藏：0 [点我收藏+]

WEB机器人之robots协议

web机器人，即爬虫。可以递归的对web站点进行遍历查询，获取web页面。

robots.txt：robots协议，是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息，人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件，该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议，当它访问一个web站点时，会首先去根目录下读取robots.txt文件，查看是否有权限去获取个文件。

注：robots.txt资源并不一定严格的存在于web站点的文件系统中，它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt，如果web站点存在该文件，就会将其放在text/plain主体返回给web机器人。如果不存在该文件，则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式：

User-Agent：<robot-name1>(不区分大小写)

Disallow：/private

User-Agent：<robot-name2>

Disallow：/protect

如果机器人没有在该文件中找到与之匹配的规则，则访问不受限制。

《http权威指南》读书笔记五

标签：robots协议

原文地址：http://ahaii.blog.51cto.com/1695127/1642461

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

《http权威指南》读书笔记 五

《http权威指南》读书笔记五