搜索关键字：网络爬虫，搜索到1546个结果！码迷,mamicode.com！

开源的网络爬虫以及一些简介和比较

转目前网络上开源的网络爬虫以及一些简介和比较目前网络上有不少开源的网络爬虫可供我们使用，爬虫里面做的最好的肯定是google ，不过google公布的蜘蛛是很早的一个版本，下面是几种开源的网络爬虫的简单对比表：下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较： ...

分类：其他好文时间：2016-06-30 17:55:51 阅读次数：178

【Python】Scrapy入门实例

Scrapy Scrapy是一个使用Python编写的轻量级网络爬虫，使用起来非常的方便。Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下：创建一个Scrapy项目 S-57格式是国际海事组织（IMO）颁布的电子海图标准，本身是一种矢量海图。这些标准都公布在http:// ...

分类：编程语言时间：2016-06-29 19:04:20 阅读次数：270

网络爬虫（5）--小实战

到目前为止，我们学习了如何访问远程网站，如何解析页面内容，是时候开始应用一下了。在这里，我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例，这个网站会告诉我们爬虫应该向哪里链接，直到爬到通过为止。首先我们需要查看网页的源代码，确定我们需要的信息在 ...

分类：其他好文时间：2016-06-27 21:41:21 阅读次数：125

API例子：用Java/JavaScript下载内容提取器

1，引言本文讲解怎样用Java和JavaScript使用GooSeekerAPI接口下载内容提取器，这是一个示例程序。什么是内容提取器？为什么用这种方式？源自Python即时网络爬虫开源项目：通过生成内容提取器，大幅节省程序员时间。具体请参看《内容提取器的定义》。2，用Java下载内容提取器这..

分类：编程语言时间：2016-06-27 17:57:27 阅读次数：168

API例子：用Java/JavaScript下载内容提取器

1，引言本文讲解怎样用Java和JavaScript使用GooSeekerAPI接口下载内容提取器，这是一个示例程序。什么是内容提取器？为什么用这种方式？源自Python即时网络爬虫开源项目：通过生成内容提取器，大幅节省程序员时间。具体请参看《内容提取器的定义》。2，用Java下载内容提取器这..

分类：编程语言时间：2016-06-27 17:57:13 阅读次数：263

目前网络上开源的网络爬虫以及一些简介和比较

目前网络上有不少开源的网络爬虫可供我们使用，爬虫里面做的最好的肯定是google ，不过google公布的蜘蛛是很早的一个版本，下面是几种开源的网络爬虫的简单对比表：下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较： Nutch 开发语言：Java http://l ...

分类：其他好文时间：2016-06-27 15:22:17 阅读次数：159

网络爬虫（4）--正则表达式

正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取，正则表达式能够极大的简化我们对信息的筛选过程。对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html 我们以对一个邮箱的正则匹配为例，介绍正则 ...

分类：其他好文时间：2016-06-26 18:28:56 阅读次数：136

网络爬虫（3）--Beautiful页面解析

前面2节中对页面内容的访问都是直接通过标签访问的，这样虽然也可以达到解析页面内容的目的，但是在网页复杂，页面结构发生变化时，爬虫就失效了。为了使爬虫能够更加鲁棒的工作，我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法： BeautifulSoup ...

分类：其他好文时间：2016-06-26 16:49:50 阅读次数：135

AWVS介绍(转)

使用AWVS对域名进行全局分析，深入探索：首先，介绍一下AWVS这个工具。Acunetix Web Vulnerability Scanner（简称AWVS）是一款知名的网络漏洞扫描工具，它通过网络爬虫测试你的网站安全，检测流行安全漏洞。伦敦时间2015年6月24日，官方发布了最新版AWVS 10。 ...

分类：其他好文时间：2016-06-25 17:47:03 阅读次数：195

网络爬虫（2）--异常处理

上一节中对网络爬虫的学习的准备工作作了简要的介绍，并以一个简单的网页爬取为例子。但网络是十分复杂的，对网站的访问并不一定都会成功，因此需要对爬取过程中的异常情况进行处理，否则爬虫在遇到异常情况时就会发生错误停止运行。让我们看看urlopen中可能出现的异常： html = urlopen("htt ...

分类：其他好文时间：2016-06-22 20:19:57 阅读次数：146