转 目前网络上开源的网络爬虫以及一些简介和比较 目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较: ...
分类:
其他好文 时间:
2016-06-30 17:55:51
阅读次数:
178
Scrapy Scrapy是一个使用Python编写的轻量级网络爬虫,使用起来非常的方便。Scrapy使用了Twisted异步网络库来处理网络通讯。整体架构大致如下: 创建一个Scrapy项目 S-57格式是国际海事组织(IMO)颁布的电子海图标准,本身是一种矢量海图。这些标准都公布在http:// ...
分类:
编程语言 时间:
2016-06-29 19:04:20
阅读次数:
270
到目前为止,我们学习了如何访问远程网站,如何解析页面内容,是时候开始应用一下了。在这里,我们以通过http://www.heibanke.com/lesson/crawler_ex00/为例,这个网站会告诉我们爬虫应该向哪里链接,直到爬到通过为止。 首先我们需要查看网页的源代码,确定我们需要的信息在 ...
分类:
其他好文 时间:
2016-06-27 21:41:21
阅读次数:
125
1,引言本文讲解怎样用Java和JavaScript使用GooSeekerAPI接口下载内容提取器,这是一个示例程序。什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目:通过生成内容提取器,大幅节省程序员时间。具体请参看《内容提取器的定义》。2,用Java下载内容提取器这..
分类:
编程语言 时间:
2016-06-27 17:57:27
阅读次数:
168
1,引言本文讲解怎样用Java和JavaScript使用GooSeekerAPI接口下载内容提取器,这是一个示例程序。什么是内容提取器?为什么用这种方式?源自Python即时网络爬虫开源项目:通过生成内容提取器,大幅节省程序员时间。具体请参看《内容提取器的定义》。2,用Java下载内容提取器这..
分类:
编程语言 时间:
2016-06-27 17:57:13
阅读次数:
263
目前网络上有不少开源的网络爬虫可供我们使用,爬虫里面做的最好的肯定是google ,不过google公布的蜘蛛是很早的一个版本,下面是几种开源的网络爬虫的简单对比表: 下面我们再对Nutch、Larbin、Heritrix这三个爬虫进行更细致的比较: Nutch 开发语言:Java http://l ...
分类:
其他好文 时间:
2016-06-27 15:22:17
阅读次数:
159
正则表达式在文本匹配中使用广泛。网络爬虫中往往涉及对页面某些信息的提取,正则表达式能够极大的简化我们对信息的筛选过程。 对正则表达式的学习可以参考http://www.runoob.com/python/python-reg-expressions.html 我们以对一个邮箱的正则匹配为例,介绍正则 ...
分类:
其他好文 时间:
2016-06-26 18:28:56
阅读次数:
136
前面2节中对页面内容的访问都是直接通过标签访问的,这样虽然也可以达到解析页面内容的目的,但是在网页复杂,页面结构发生变化时,爬虫就失效了。为了使爬虫能够更加鲁棒的工作,我们需要学习通过属性查找标签的方法。 BeautifulSoup的find()和findAll()方法: BeautifulSoup ...
分类:
其他好文 时间:
2016-06-26 16:49:50
阅读次数:
135
使用AWVS对域名进行全局分析,深入探索:首先,介绍一下AWVS这个工具。Acunetix Web Vulnerability Scanner(简称AWVS)是一款知名的网络漏洞扫描工具,它通过网络爬虫测试你的网站安全,检测流行安全漏洞。伦敦时间2015年6月24日,官方发布了最新版AWVS 10。 ...
分类:
其他好文 时间:
2016-06-25 17:47:03
阅读次数:
195
上一节中对网络爬虫的学习的准备工作作了简要的介绍,并以一个简单的网页爬取为例子。但网络是十分复杂的,对网站的访问并不一定都会成功,因此需要对爬取过程中的异常情况进行处理,否则爬虫在遇到异常情况时就会发生错误停止运行。 让我们看看urlopen中可能出现的异常: html = urlopen("htt ...
分类:
其他好文 时间:
2016-06-22 20:19:57
阅读次数:
146