码迷,mamicode.com
首页 >  
搜索关键字:spider    ( 1087个结果
Scrapy -- 04
翻译的官网文档质量不错啊,在看自己翻的,TAT。 Spider class scrapy.spider.Spider #官网手册后面还有几个,例如CrawlSpider,但感觉还是这个用的多,github上的使用比例为30000对4300。如果CrawlSpider更好用,...
分类:其他好文   时间:2014-10-07 02:40:53    阅读次数:287
robots.txt的详细写法
什么是robots.txt?   搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个...
分类:其他好文   时间:2014-10-06 20:38:32    阅读次数:166
Robots协议具体解释
禁止搜索引擎收录的方法(robots.txt)一、什么是robots.txt文件?搜索引擎通过一种程序robot(又称spider),自己主动訪问互联网上的网页并获取网页信息。您能够在您的站点中创建一个纯文本文件robots.txt,在这个文件里声明该站点中不想被robot訪问的部分,这样,该站点的...
分类:其他好文   时间:2014-10-04 13:00:46    阅读次数:219
Aztec 钻石问题:Spider Move
这篇文章里要介绍的是非常精彩的 Aztec 钻石模型。我觉得这是一个可以进入 "数学天书" 的问题,它的表述简单而初等,但是却与计数组合学中许多最深刻美妙的问题有着千丝万缕的联系,当然它还有一个令人拍案叫绝的解法。所有这些不能不让我把它写出来和大家分享。那么什么是 Aztec 钻石模型呢?很简单:依...
分类:其他好文   时间:2014-10-03 01:52:43    阅读次数:358
scrapy snippet
1. spider文件from scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.linkextractors.sgml import SgmlLinkExtractorfrom scrapy.selector im...
分类:其他好文   时间:2014-10-01 19:29:51    阅读次数:186
百度的搜索引擎相关技术的分析
1、 爬虫(Spider)——数据来源 作为搜索引擎海量数据的来源,爬虫是搜索引擎技术的重要一环,闻道软件工作室有自己开发的爬虫,所以对此技术很熟悉。 爬虫的英文是Spider,其实翻译成蜘蛛更容易理解,无数网站的链接构成了一张巨大的网,搜索引擎的内容采集程序就像一只只勤劳的蜘蛛在这张网上爬...
分类:其他好文   时间:2014-09-22 02:11:11    阅读次数:308
关于robots.txt设置方法
通过网站访问日志我们可以看见很多蜘蛛爬行记录。搜索引擎都遵守互联网robots协议,是放置在网站根目录下robots.txt文本文件,在文件中可以设定搜索引擎蜘蛛爬行规则,以及设置搜索引擎蜘蛛Spider抓取内容规则。通过robots.txt来进行限制,首先在网站跟目录下面建立一个robots...
分类:其他好文   时间:2014-09-18 16:58:24    阅读次数:195
基于gevent全国手机号段spider蜘蛛爬虫
首先介绍下python异步执行,python有两种方法编写异步代码:1、corutines协程(也称为greenlets)2、回调gevent是greenlets的一种实现方式,可以通过pip方便的安装gevent模块。gevent执行方式实际上是代码块的交替执行,具体的可以看下这篇blog,我就不...
分类:移动开发   时间:2014-09-10 17:22:50    阅读次数:499
如何用C#语言构造蜘蛛程序
"蜘蛛"(Spider)是Internet上一种很有用的程序,搜索引擎利用蜘蛛程序将Web页面收集到数据库,企业利用蜘蛛程序监视竞争对手的网站并跟踪变动,个人用户用蜘蛛程序下载Web页面以便脱机使用,开发者利用蜘蛛程序扫描自己的Web检查无效的链接……对于不同的用户,蜘蛛程序有不同的用途。那么,蜘蛛...
分类:其他好文   时间:2014-09-04 18:57:10    阅读次数:231
spider JAVA如何判断网页编码 (转载)
原文链接 http://www.cnblogs.com/nanxin/archive/2013/03/27/2984320.html前言 最近做一个搜索项目,需要爬取很多网站获取需要的信息。在爬取网页的时候,需要获得该网页的编码,不然的话会发现爬取下来的网页有很多都是乱码。分析 一般情况下,网页.....
分类:编程语言   时间:2014-09-04 09:31:27    阅读次数:252
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!