码迷,mamicode.com
首页 > 其他好文 > 详细

Robots.txt

时间:2014-11-25 17:50:26      阅读:192      评论:0      收藏:0      [点我收藏+]

标签:blog   http   os   sp   on   log   bs   as   tt   

   搜索引擎都有自己的机器人(robots)沿着超链接访问网站,但是有些时候,网站的管理者和内容的提供者不想让你的robots抓取内容,所以ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是TheRobotsMETA标签。

   当搜索引擎搜索到该站点的时候,会先去站点的根目录下面查看是否含有robots.txt。如果有,就根据txt的配置读取指定的内容,如果不存在robots.txt的话,就毫无影响。

        比如说,我的搜索引擎访问songtaste这个音乐网站,http://www.songtaste.com/,目录是这个。

   那我们查看robots.txt就是http://www.songtaste.com/robots.txt,可以看到:

   User-Agent: *

   Allow: /

   这就代表者,所有的访问的robots都是允许访问站点的所有内容的。

  如果是DisAllow: /,那就代表着所有的robots都不能抓取站点的内容。

      网络爬虫学习第一步!

  更详细的robots知识在:http://www.bloghuman.com/post/67/

 

Robots.txt

标签:blog   http   os   sp   on   log   bs   as   tt   

原文地址:http://www.cnblogs.com/jiejiecool/p/4121287.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!