robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成...
分类:
其他好文 时间:
2014-05-26 13:04:58
阅读次数:
228
我曾经针对yii制作了
个nginx配置,其中包括了以下几项内容:rewrite规则(try_file),需要nginx0.8.6版本以上支持。针对于icon,
robots.txt文件的日志优化.svn, .git,等版本控制文件的忽略,以及Mac本身索引文件目录Yii框架本身应该禁止web访问的...
分类:
其他好文 时间:
2014-05-26 07:54:58
阅读次数:
255
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用。本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录。所以下面这篇文章,就来介绍robots.txt的作用和写作robots.txt基本介绍
robots 是一个...
分类:
其他好文 时间:
2014-05-23 11:03:16
阅读次数:
252
做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
那我们应该怎样使用robots.txt呢?
...
分类:
其他好文 时间:
2014-05-21 15:03:59
阅读次数:
190
题目链接:POJ 1573 Robot Motion&POJ 2632Crashing
Robots【题意】题意就不说了,有兴趣从链接点进去看吧,就是机器人各种打扫房间,行驶指令。【思路】2632是一道纯模拟题,只要把题意读懂,就可以用代码模拟过程,只是写起来有点蛋疼,代码力还是欠缺啊。而1573感...
分类:
其他好文 时间:
2014-05-19 10:22:18
阅读次数:
197
题意:在一个m*n的地图上,有空地,草和墙,其中空地和草能穿透攻击光线,而墙不能。每个机器人能够上下左右攻击,问在地图上最多能放多少个不互相攻击的机器人。这个题和HDU
1045 - Fire Net 很像。很容易联想到对每个点编号然后互相攻击的点连边再求图的最大独立集,但是这个题数据量太多,超时。...
分类:
其他好文 时间:
2014-05-02 00:20:34
阅读次数:
344
方法一 : 可以直接在程序中添加url映射
在最外层的urls.py中添加
1
2
3
4
5
urlpatterns = patterns('',
......
(r'^robots\.txt$', lambda r:
HttpResponse("User-agent:
*\nDisa...
分类:
其他好文 时间:
2014-04-29 13:42:20
阅读次数:
402
今天,接着robots文件设置的DIY部分,更确切的说应该是robots文件的高级阶段,就是不但懂得如何设置robots文件的基础部分,更懂得按照自己网站的需求去设置robots文件。总的原创是,利于搜索引擎对我们网站的收录。一般有如下几点,以下的举例名称只是举例,具体的目录及文件要看自己网站的目录,别照搬就行!
第一:图片目录的屏蔽
说到图片的屏蔽,那么我就给大家提个问题:为什么要屏...
分类:
其他好文 时间:
2014-04-29 13:17:21
阅读次数:
290
BMega Man’s MissionsInputStandard
InputOutputStandard OutputMega Man is off to save the world again. His objective
is to kill the Robots created by Dr...
分类:
其他好文 时间:
2014-04-28 00:38:46
阅读次数:
483