URL、URI、URNURL:protocol :// hostname[:port] / path / [;parameters][?query]#fragment
分类:
编程语言 时间:
2014-10-01 00:28:10
阅读次数:
182
网络爬虫程序的优劣,很大程度上反映了一个搜索引擎的好差。不信,你可以随便拿一个网站去查询一下各家搜索对它的网页收录情况,爬虫强大程度跟搜索引擎好坏基本成正比。 1.世界上最简单的爬虫——三行情诗 我们先...
分类:
Web程序 时间:
2014-09-30 19:37:00
阅读次数:
306
文章转自:http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页,目前网页数量以百亿计,搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地,在本地 形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件...
分类:
其他好文 时间:
2014-09-30 14:57:29
阅读次数:
302
网络爬虫,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互 联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索 引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即 时,因此其性能的优劣直接影响着搜索引擎的效果。网络爬...
分类:
Web程序 时间:
2014-09-29 13:30:00
阅读次数:
281
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。
WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。...
分类:
Web程序 时间:
2014-09-27 13:36:09
阅读次数:
687
了解xml :
解析之前首先对xml 做个了解。
来自维基百科的解释:
XML设计用来传送及携带数据信息,不用来表现或展示数据,HTML语言则用来表现数据,所以XML用途的焦点是它说明数据是什么,以及携带数据信息。
如果你已经了解xml,可以跳过这一部分。
xml是一种描述层次结构化数...
分类:
编程语言 时间:
2014-09-22 21:43:53
阅读次数:
347
四、更新策略 互联网是实时变化的,具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种: 1.历史参考策略 顾名思义,根据页面以往的历史更新数据,预测该页面未来何时会发生变化。一般来说,是通过泊松过程进行建模进行预测。 2.用户体验策略 尽管搜索引擎针对于....
分类:
其他好文 时间:
2014-09-22 00:31:21
阅读次数:
219
昨天晚上为了下载保存某位csdn大牛的全部博文,写了一个爬虫来自动抓取文章并保存到txt文本,当然也可以 保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了,非常方便,抓取别的网站也是大同小异。
为了解析抓取的网页,用到了第三方模块,BeautifulSoup,这个模块对于解析html文件非常有用,当然也可以自己使用正则表达式去解析,但是比较麻烦。
由于csdn网站的robots.txt文件中显示禁止任何爬虫,所以必须把爬虫伪装成浏览器,而且不能频繁抓取,得sleep一会再抓,使用频繁会...
分类:
编程语言 时间:
2014-09-19 13:57:15
阅读次数:
284
网络爬虫不仅仅可以爬取网站的网页,图片,甚至可以实现抢票功能,网上抢购,机票查询等。这几天看了点基础,记录下来。 网页的关系可以看做是一张很大的图,图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先,概括的说来如下: 2个数组,一个记录已访问的网页(Al),一个记录未访问的网页(Un...
分类:
编程语言 时间:
2014-09-14 12:51:17
阅读次数:
427
前天简单分享了用shell写网络爬虫的一些见解,今天特地把代码发出来与51博友分享,还是那句话,爱技术、爱开源、爱linux。针对脚本的注解和整体构思,我会放到脚本之后为大家详解。#!/bin/bash
#
#Thisscriptisusedtograbthedataonthespecifiedindustrywebsites
#Writtenbysuns..
分类:
其他好文 时间:
2014-09-14 11:27:27
阅读次数:
295