码迷,mamicode.com
首页 >  
搜索关键字:网页抓取    ( 184个结果
一淘搜索之网页抓取系统分析与实现(3)—scrapy+webkit & mysql+django
结构图 scrapy+webkit: 如结构图③。 scrapy不能实现对javascript的处理,所以需要webkit解决这个问题。开源的解决方案可以选择scrapinghub的scrapyjs或者功能更强大的splash. 关于scrapy+webkit的使用后期进行分析。 scrapy+django: 如结构图④。 django实现的配置界面主要是对抓取系统的管理和配置,...
分类:数据库   时间:2014-07-28 16:03:03    阅读次数:673
HQueue:基于HBase的消息队列
HQueue:基于HBase的消息队列凌柏?1. HQueue简介HQueue是一淘搜索网页抓取离线系统团队基于HBase开发的一套分布式、持久化消息队列。它利用HTable存储消息数据,借助HBase Coprocessor将原始的KeyValue数据封装成消息数据格式进行存储,并基于HBase ...
分类:其他好文   时间:2014-07-24 22:31:52    阅读次数:290
用python做网页抓取与解析入门笔记[zz]
(fromhttp://chentingpc.me/article/?id=961)事情的起因是,我做survey的时候搜到了这两本书:Computational Social Network Analysis和Computational Social Network,感觉都蛮不错的,想下载下来看看...
分类:编程语言   时间:2014-07-22 23:09:52    阅读次数:263
搜索引擎技术之概要预览
搜索引擎技术之概要预览前言 近些天在学校静心复习功课与梳理思路(找工作的事情暂缓),趁闲暇之际,常看有关搜索引擎相关技术类的文章,接触到不少此前未曾触碰到的诸多概念与技术,如爬虫,网页抓取,分词,索引,查询,排序等等,更惊叹于每一幅精彩的架构图,特此,便有记录下来的冲动,以作备忘。 本文从最主要.....
分类:其他好文   时间:2014-07-09 20:04:15    阅读次数:200
[转载]爬虫的自我解剖(抓取网页HtmlUnit)
网络爬虫第一个要面临的问题,就是如何抓取网页,抓取其实很容易,没你想的那么复杂,一个开源HtmlUnit包,4行代码就OK啦,例子如下:1234finalWebClient webClient=newWebClient();finalHtmlPage page=webClient.getPage("...
分类:Web程序   时间:2014-06-22 23:47:37    阅读次数:373
selenium2+phantomjs入门范例
这是我学习爬虫比较深入的一步了,大部分的网页抓取用urllib2都可以搞定,但是涉及到JavaScript的时候,urlopen就完全傻逼了,所以不得不用模拟浏览器,方法也有很多,此处我采用的是selenium2+phantomjs,原因在于:selenium2支持所有主流的浏览器和phantomj...
分类:Web程序   时间:2014-06-11 11:17:54    阅读次数:994
[Python]网络爬虫(二):利用urllib2通过指定的URL抓取网页内容(转)
版本号:Python2.7.5,Python3改动较大,各位另寻教程。所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端, 然后读取服务器端的响应资源。在Python中,我们使用urllib2...
分类:编程语言   时间:2014-05-27 00:12:25    阅读次数:323
网络爬虫(网络蜘蛛)之网页抓取
现在有越来越多的人热衷于做网络爬虫(网络蜘蛛),也有越来越多的地方需要网络爬虫,比如搜索引擎、资讯采集、舆情监测等等,诸如此类。网络爬虫涉及到的技术(算法/策略)广而复杂,如网页获取、网页跟踪、网页分析、网页搜索、网页评级和结构/非结构化数据抽取以及后期更细粒度的数据挖掘等方方面面,对于新手来说,不...
分类:Web程序   时间:2014-05-26 05:54:50    阅读次数:393
简述php关于网页元素抓取方面的技术
php网页抓取技术...
分类:Web程序   时间:2014-05-25 22:50:41    阅读次数:271
nutch2.1抓取中文网站
对nutch添加中文网站抓取功能。1、中文网页抓取A、调整mysql配置,避免存入mysql的中文出现乱码。修改${APACHE_NUTCH_HOME}/runtime/local/conf/gora.properties################################MySQLproperties################################gora.sqlstore.jdbc.driver=com..
分类:Web程序   时间:2014-05-20 19:17:55    阅读次数:539
184条   上一页 1 ... 16 17 18 19 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!