结构图
scrapy+webkit:
如结构图③。
scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash.
关于scrapy+webkit的使用后期进行分析。
scrapy+django:
如结构图④。
django实现的配置界面主要是对抓取系统的管理和配置,...
分类:
数据库 时间:
2014-07-28 16:03:03
阅读次数:
673
HQueue:基于HBase的消息队列凌柏?1. HQueue简介HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase ...
分类:
其他好文 时间:
2014-07-24 22:31:52
阅读次数:
290
(fromhttp://chentingpc.me/article/?id=961)事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看...
分类:
编程语言 时间:
2014-07-22 23:09:52
阅读次数:
263
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:
其他好文 时间:
2014-07-09 20:04:15
阅读次数:
200
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("...
分类:
Web程序 时间:
2014-06-22 23:47:37
阅读次数:
373
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:
Web程序 时间:
2014-06-11 11:17:54
阅读次数:
994
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,
然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:
编程语言 时间:
2014-05-27 00:12:25
阅读次数:
323
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:
Web程序 时间:
2014-05-26 05:54:50
阅读次数:
393
对nutch添加中文网站抓取功能。1、中文网页抓取A、调整mysql配置,避免存入mysql的中文出现乱码。修改${APACHE_NUTCH_HOME}/runtime/local/conf/gora.properties################################MySQLproperties################################gora.sqlstore.jdbc.driver=com..
分类:
Web程序 时间:
2014-05-20 19:17:55
阅读次数:
539