HeritrixHeritrix是一个开源,可扩展的web爬虫项目。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。http://crawler.archive.org/WebSPHINXWebSPHINX是一个Java类包和Web爬虫的交互式开发环境。...
分类:
其他好文 时间:
2015-10-21 01:43:57
阅读次数:
216
一、关于robots文件 1. 搜索引擎蜘蛛访问网站时,会先查看网站根目录下有没有robots.txt文件,该文件用于指令搜索引擎禁止抓取网站某些内容或 允许抓取某些内容。注意:就算允许抓取所有内容,也要建一个空的robots.txt文件放在根目录下。 2. 只有在需要禁止抓取某些内容时,rob.....
分类:
其他好文 时间:
2015-09-30 17:41:19
阅读次数:
119
12549 - Sentry RobotsTime limit: 1.000 secondsWe need to guard a set of points of interest using sentry robots that cannot move or turn. We can positi...
分类:
其他好文 时间:
2015-09-25 22:59:58
阅读次数:
266
Problem DescriptionRompire is a robot kingdom and a lot of robots live there peacefully. But one day, the king of Rompire was captured by human beings...
分类:
其他好文 时间:
2015-09-22 18:41:30
阅读次数:
149
meta是用来在HTML文档中模拟HTTP协议的响应头报文。meta主要为分HTTP标头信息(HTTP-EQUIV)和页面描述信息(NAME)标头信息包括文档类型、字符集、语言等浏览器正确显示网页的信息及处理动作;网页描述如内容的关键字、摘要、作者和定义robots行为等,为搜索引擎索引提供信息。m...
分类:
Web程序 时间:
2015-09-17 13:18:20
阅读次数:
219
编辑一份 Robots 文件,另存为robots.txt,存在到服务器的根目录里 Java代码?? User-agent:?*??? Disallow:?/plus/ad_js.php?? Disallow:?/plus/advancedsearch.php?? Disallow:?/plus/car.php?? ...
分类:
其他好文 时间:
2015-09-12 01:09:38
阅读次数:
272
原文 : https://robots.thoughtbot.com/how-to-use-arguments-in-a-rake-tasknamespace :tweets do desc 'Send some tweets to a user' task :send, [:username].....
分类:
其他好文 时间:
2015-09-11 15:56:00
阅读次数:
179
配置.htaccess如下:RewriteEngine onRewriteBase /RewriteCond $1 !^(index\.php|images|robots\.txt|css|js); RewriteRule ^(.*)$ /sis/index.php/$1 [L]Apache(err...
分类:
数据库 时间:
2015-09-10 15:37:46
阅读次数:
4489
这道题挺像hdu 5093 Battle ships的,不过那道题是要求最多放置的点数,而这道题是要求最小点覆盖。一个重要的位置有(x,y)两个坐标,而要守住这个这个位置就是相当于连了一条边x到y的边。选了一个(x,y)就相当于选了所有相同的x的边或者所有相同的y的边。当所有的x或y被选完的时候就完...
分类:
其他好文 时间:
2015-08-30 11:17:27
阅读次数:
214
首先在项目根目录下建立assets文件夹,在这个文件夹下再建立css和js文件夹分别放置css和js文件 然后,在项目根目录下建立.htaccess文件 内容如下: RewriteEngine on RewriteCond $1 !^(index\.php|images|robots\.txt|j....
分类:
Web程序 时间:
2015-08-27 20:40:13
阅读次数:
237