人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...
分类:
其他好文 时间:
2014-10-03 13:28:14
阅读次数:
368
Nutch1.2的安装与使用1、nutch1.2下载 下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf:Nutch的配置文件;lib:一些运行所需要的jar文件;plugins:存放相应的插件;src:...
分类:
其他好文 时间:
2014-10-03 12:18:04
阅读次数:
215
酒店评论情感分析系统(二)——Nutch安装一、需求部分Nutch是Java开发的所以需要下载JavaJDK。 下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的,需要Tomcat做服务器。 下载地...
参考文档http://nlp.solutions.asia/?p=362http://blog.csdn.net/fby98710/article/details/10367175http://blog.csdn.net/itufo/article/details/21519593需要jdk1.7的环境1.MySql数据库配置lmy.ini配置分别在[client]、[mysql]下添加“default-character-set=utf8”;在[mysq..
分类:
数据库 时间:
2014-09-28 19:32:45
阅读次数:
306
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。
WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。...
分类:
Web程序 时间:
2014-09-27 13:36:09
阅读次数:
687
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:
编程语言 时间:
2014-09-22 20:02:53
阅读次数:
301
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:
编程语言 时间:
2014-09-22 15:47:02
阅读次数:
4678
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:
编程语言 时间:
2014-09-22 02:43:01
阅读次数:
301