一、网络爬虫的定义网络爬虫,即Web
Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这...
分类:
编程语言 时间:
2014-05-27 00:15:52
阅读次数:
328
Dfs:大部分是直接递归枚举,即求满足约束条件下的解,虽不用剪枝,但也需要代码能力。练习递归枚举的题目:1241
Oil Deposits (dfs的连通块个数)1016 Prime Ring Problem1584
蜘蛛牌(简单dfs,简单的剪枝,还有人用DP做(???))1426 Sudoku ...
分类:
其他好文 时间:
2014-05-23 02:54:33
阅读次数:
301
SEOer们都知道,现在都搜索引擎收录对整个网站的页面质量要求更加高了,怎样打造高质量的网页呢?2大步骤介绍.
第一步,站在用户的角度去思考
因为我们知道我们的内容不是给搜索引擎蜘蛛看的,是给用户看的,搜索引擎蜘蛛只是一个你网站的普通访客,它的任务很简单,就是按照一定的规则进行 抓取,它...
分类:
Web程序 时间:
2014-05-22 02:01:04
阅读次数:
292
建置好了网站之后,为了能提升流量或是增加曝光度,Mix通常会到Google谷歌,用手动登录的方式,登录网站,不久之后,搜索引擎就会派遣蜘蛛机器人,来检索你的网站,等一段时间之后,就会出现在搜索引擎内,被网友搜寻到。阅读全文>>
分类:
Web程序 时间:
2014-05-21 18:22:16
阅读次数:
286
做个网页爬虫或搜索引擎(以下统称蜘蛛程序)的各位一定不会陌生,在爬虫或搜索引擎访问网站的时候查看的第一个文件就是robots.txt了。robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
那我们应该怎样使用robots.txt呢?
...
分类:
其他好文 时间:
2014-05-21 15:03:59
阅读次数:
190
404页面是客户端在浏览网页时,服务器无法正常提供信息,或是服务器无法回应,且不知道原因。404错误信息通常是在目标页面被更改或移除,或客户端输入页面地址错误后显示的页面。
404页面是网站必备的一个页面,它承载着用户体验与SEO优化的重任。404页面通常为用户访问了网站上不存在或已删除的页面,服务器返回的404错误。如果站长没有设置404页面,会出现死链接,蜘蛛爬行这类网址时,不利于搜索引擎收...
分类:
其他好文 时间:
2014-05-21 12:26:48
阅读次数:
299
我们发布信息大家都知道,一个好的信息即:看你如何十分好的把要害字融入进入,以及要害字加粗等,可是否晓得为何要这样? 这要从蜘蛛抓取的原理来解释了。
蜘蛛匍匐主要是通过三个过程:
1)匍匐和抓取,
2)预处置,
3)排行。
其间预处置中有一步适当要害,那即是“有关性”。我的了解即是你在查找框中输入要害字,显示出来的页面也即是与这个要害字有关。信息越有关,排行比他人就越靠前,当然这也跟许多的...
分类:
其他好文 时间:
2014-05-18 08:13:21
阅读次数:
127
导语:SEOer们一个老生常谈的问题就是“网站的收录、排名怎么样啊?”几乎每天都会分析,但是随着百度算法的不断更新,对收录内容的质量也是要求越来越
高,如何提高网站收录排名率呢? 一、是否知道这个页面的存在 对页面进行收录当然首先就必须要知道有这个页面,蜘蛛都不知道这个页面,谈何收录?这...
分类:
Web程序 时间:
2014-05-15 17:49:22
阅读次数:
310
很多SEOer都把蜘蛛比作一个人,有它自己的喜好,有它自己的原则,你配合它的工作,它会给你收录足够多的东西,来网站也勤快,你不配合它,那就等着被降权吧。下面我就说说蜘蛛的一些喜好和原则。
1、蜘蛛来爬取网站的时间一般都差不多,一般每天2次,当然一些大型网站都不一样,我说的都是中小型网站,如果来了2次以上,说明你网站让蜘蛛喜欢,如果没有2次,抱歉,你该检讨下自己做站的方法了。根据蜘蛛来的时间,...
分类:
Web程序 时间:
2014-05-15 13:24:25
阅读次数:
329
早期网站由程序员建好,之后由SEO专员进行优化,由于程序员不懂得SEO,所以在建站的时候使用的代码结构都是随心所欲,这给优化带来了很大的麻烦,那么对于新站来讲,涉及到哪些涉及合理性的问题嗯?
首先我们得明白,新站提交后才更容易被收录。
1.网站在建设时应该考虑的是避免使用什么样的框架?过多的使用iframe内嵌页面,尤其是低质量的页面,过多层的内嵌页面容易让蜘蛛迷失,爬不出来,...
分类:
Web程序 时间:
2014-05-15 13:09:00
阅读次数:
301