码迷,mamicode.com
首页 > Web开发 > 详细

《http权威指南》读书笔记 五

时间:2015-05-06 15:22:45      阅读:134      评论:0      收藏:0      [点我收藏+]

标签:robots协议

WEB机器人之robots协议


web机器人,即爬虫。可以递归的对web站点进行遍历查询,获取web页面。

robots.txt:robots协议,是一种自愿约束技术。有些web站点并不希望web机器人查看其站内某些隐私信息,人们提出了robots协议。即所有web站点都可以在其根目录下创建一个robots.txt的文件,该文件里面记录了web机器人可以访问的文件和不可以访问的文件。如果web机器人愿意遵守这个协议,当它访问一个web站点时,会首先去根目录下读取robots.txt文件,查看是否有权限去获取个文件。

注:robots.txt资源并不一定严格的存在于web站点的文件系统中,它可以由一个网关应用程序动态的生成。

web机器人使用GET方法请求robots.txt,如果web站点存在该文件,就会将其放在text/plain主体返回给web机器人。如果不存在该文件,则返回404。说明该站点对web机器人没有任何限制。

robots.txt文件格式:

User-Agent:<robot-name1>(不区分大小写)

Disallow:/private


User-Agent:<robot-name2>

Disallow:/protect

如果机器人没有在该文件中找到与之匹配的规则,则访问不受限制。


《http权威指南》读书笔记 五

标签:robots协议

原文地址:http://ahaii.blog.51cto.com/1695127/1642461

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!