搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

URL、URI、URNURL:protocol :// hostname[:port] / path / [;parameters][?query]#fragment

分类：编程语言时间：2014-10-01 00:28:10 阅读次数：182

网络爬虫程序的优劣，很大程度上反映了一个搜索引擎的好差。不信，你可以随便拿一个网站去查询一下各家搜索对它的网页收录情况，爬虫强大程度跟搜索引擎好坏基本成正比。 1.世界上最简单的爬虫——三行情诗我们先...

分类：Web程序时间：2014-09-30 19:37:00 阅读次数：306

文章转自：http://blog.csdn.net/hguisu/article/details/7949844通用搜索引擎的处理对象是互联网网页，目前网页数量以百亿计，搜索引擎的网络爬虫能够高效地将海量的网页数据传下载到本地，在本地形成互联网网页的镜像备份。它是搜索引擎系统中很关键也很基础的构件...

分类：其他好文时间：2014-09-30 14:57:29 阅读次数：302

网页爬虫及其用到的算法和数据结构

网络爬虫，是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。网络爬虫是搜索引擎系统中十分重要的组成部分，它负责从互联网中搜集网页，采集信息，这些网页信息用于建立索引从而为搜索引擎提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。网络爬...

分类：Web程序时间：2014-09-29 13:30:00 阅读次数：281

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。 WebCollector使用了Nutch的爬取逻辑（分层广度遍历），Crawler4j的的用户接口（覆盖visit方法，定义用户操作）,以及一套自己的插件机制，设计了一套爬虫内核。...

分类：Web程序时间：2014-09-27 13:36:09 阅读次数：687

python解析xml

了解xml ：解析之前首先对xml 做个了解。来自维基百科的解释： XML设计用来传送及携带数据信息，不用来表现或展示数据，HTML语言则用来表现数据，所以XML用途的焦点是它说明数据是什么，以及携带数据信息。如果你已经了解xml，可以跳过这一部分。 xml是一种描述层次结构化数...

分类：编程语言时间：2014-09-22 21:43:53 阅读次数：347

网络爬虫基本原理(二)

四、更新策略互联网是实时变化的，具有很强的动态性。网页更新策略主要是决定何时更新之前已经下载过的页面。常见的更新策略又以下三种： 1.历史参考策略顾名思义，根据页面以往的历史更新数据，预测该页面未来何时会发生变化。一般来说，是通过泊松过程进行建模进行预测。 2.用户体验策略尽管搜索引擎针对于....

分类：其他好文时间：2014-09-22 00:31:21 阅读次数：219

Python爬虫抓取csdn博客

昨天晚上为了下载保存某位csdn大牛的全部博文，写了一个爬虫来自动抓取文章并保存到txt文本，当然也可以保存到html网页中。这样就可以不用Ctrl+C 和Ctrl+V了，非常方便，抓取别的网站也是大同小异。为了解析抓取的网页，用到了第三方模块，BeautifulSoup，这个模块对于解析html文件非常有用，当然也可以自己使用正则表达式去解析，但是比较麻烦。由于csdn网站的robots.txt文件中显示禁止任何爬虫，所以必须把爬虫伪装成浏览器，而且不能频繁抓取，得sleep一会再抓，使用频繁会...

分类：编程语言时间：2014-09-19 13:57:15 阅读次数：284

Java版网络爬虫基础

网络爬虫不仅仅可以爬取网站的网页，图片，甚至可以实现抢票功能，网上抢购，机票查询等。这几天看了点基础，记录下来。网页的关系可以看做是一张很大的图，图的遍历可以分为深度优先和广度优先。网络爬虫采取的广度优先，概括的说来如下: 2个数组，一个记录已访问的网页(Al)，一个记录未访问的网页(Un...

分类：编程语言时间：2014-09-14 12:51:17 阅读次数：427

SHELL网络爬虫实例剖析

前天简单分享了用shell写网络爬虫的一些见解，今天特地把代码发出来与51博友分享，还是那句话，爱技术、爱开源、爱linux。针对脚本的注解和整体构思，我会放到脚本之后为大家详解。#!/bin/bash # #Thisscriptisusedtograbthedataonthespecifiedindustrywebsites #Writtenbysuns..

分类：其他好文时间：2014-09-14 11:27:27 阅读次数：295

共1546条上一页 1 ... 146 147 148 149 150 ... 155 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)