网络爬虫+HtmlAgilityPack+windows服务从博客园爬取20万博文1.前言最新在公司做一个项目,需要一些文章类的数据,当时就想到了用网络爬虫去一些技术性的网站爬一些,当然我经常去的就是博客园,于是就有下面的这篇文章。2.准备工作我需要把我从博客园爬取的数据,保存起来,最好的方式当然是...
无论你是由于什么原因想做一个网络爬虫,首先做的第一件事情就是要了解它。...
分类:
编程语言 时间:
2015-08-07 01:56:37
阅读次数:
425
Nutch2.3 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种....
分类:
数据库 时间:
2015-08-04 22:50:55
阅读次数:
1247
网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Intern...
分类:
其他好文 时间:
2015-08-04 20:52:46
阅读次数:
238
现在,我们已经进入到大数据时代,在对数据进行处理分析时,首要的是需要有数据,而作为数据的一个重要来源则来自于网络爬虫,鉴于Python语言的简洁高效,以及对爬虫技术的大力支持,我们选择利用Python作...
分类:
编程语言 时间:
2015-08-03 17:05:38
阅读次数:
261
在编写网络爬虫时,HttpWebRequest几乎可以完成绝大多数网站的抓取,为了更好的使用这一技术,我将常用的几个功能进行了封装,以方便调用。这个类已经在多个项目中得到使用,主要解决了Cookies相关的一些问题;如果有其它方面的问题可以提出来,我会进一步完善。
分类:
Web程序 时间:
2015-07-30 21:20:43
阅读次数:
221
一,我是如何使用Python抓取网页的我知道Python有一个爬虫框架scrapy,但是目前还没有学习,并且也没有什么很棘手的的问题需要去使用一个爬虫框架,所以我就用Python自带的urllib,将目标网页爬下来,然后用正则过滤出自己需要的内容。二,效率问题上面的方法简单,真的是上手即用,但是问题是效率问题,如果一个网页一个网页的抓,显然带宽无法达到最高,浪费了大部分带宽,这时候大部分人都会想到,...
分类:
编程语言 时间:
2015-07-30 00:46:17
阅读次数:
253
我们使用dmoz.org这个网站来作为小抓抓一展身手的对象。首先先要回答一个问题。问:把网站装进爬虫里,总共分几步?答案很简单,四步:新建项目 (Project):新建一个新的爬虫项目明确目标(Items):明确你想要抓取的目标制作爬虫(Spider):制作爬虫开始爬取网页存储内容(Pipeline...
分类:
其他好文 时间:
2015-07-30 00:25:03
阅读次数:
160
Python写的Web spider:
# web spider
# author vince 2015/7/29
import urllib2
import re
# get href content
pattern = '<a(?:\\s+.+?)*?\\s+href=\"([h]{1}[^\"]*?)\"'
t = set("") # collection of url
def...
分类:
编程语言 时间:
2015-07-29 21:29:10
阅读次数:
144
CrawlerPicture.java 文件
package com.lym.crawlerDemo;
import java.io.DataInputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.IOException;
import java.io.InputStream;
impo...
分类:
其他好文 时间:
2015-07-27 20:59:46
阅读次数:
107