搜索关键字：nutch，搜索到272个结果！码迷,mamicode.com！

nutch从搜索引擎到网络爬虫

人物介绍姓名：DougCutting个人名望：开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉：除了 Lucene，还开发了著名的网络爬虫工具 Nutch，分布式系统基础架构Hadoop，这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...

分类：其他好文时间：2014-10-03 13:28:14 阅读次数：368

Nutch1.2 的安装与使用

Nutch1.2的安装与使用1、nutch1.2下载下载地址 http://archive.apache.org/dist/nutch/2、nutch1.2目录bin:用于命令行运行的文件;conf：Nutch的配置文件;lib：一些运行所需要的jar文件;plugins：存放相应的插件;src：...

分类：其他好文时间：2014-10-03 12:18:04 阅读次数：215

（2.1）windows下Nutch1.7的安装

酒店评论情感分析系统（二）——Nutch安装一、需求部分Nutch是Java开发的所以需要下载JavaJDK。下载地址http://java.sun.com/javase/downloads/index.jsp 2. Nutch的演示搜索页面是Jsp的，需要Tomcat做服务器。下载地...

分类：Windows程序时间：2014-10-01 13:02:42 阅读次数：373

Nutch 2.2+MySQL在unbunt上的安装

参考文档http://nlp.solutions.asia/?p=362http://blog.csdn.net/fby98710/article/details/10367175http://blog.csdn.net/itufo/article/details/21519593需要jdk1.7的环境1.MySql数据库配置lmy.ini配置分别在[client]、[mysql]下添加“default-character-set=utf8”；在[mysq..

分类：数据库时间：2014-09-28 19:32:45 阅读次数：306

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。 WebCollector使用了Nutch的爬取逻辑（分层广度遍历），Crawler4j的的用户接口（覆盖visit方法，定义用户操作）,以及一套自己的插件机制，设计了一套爬虫内核。...

分类：Web程序时间：2014-09-27 13:36:09 阅读次数：687

怎样用java编程抓取动态生成的网页

刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到了），很快holder.html和finance.html页面成功下载完成，然后解析完holder.html页面之后再解析finance.html，然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中，再去浏览器查看源码果然是这样的，在源码中确实没有我需要的数据，看来不是我程序写错了，接下来让人身心疲惫的事情来...

分类：编程语言时间：2014-09-22 20:02:53 阅读次数：301

用JAVA制作一个爬取商品信息的爬虫（爬取大众点评）

很多企业要求利用爬虫去爬取商品信息，但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架，而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的，只需要通过简单的转换既可。...

分类：编程语言时间：2014-09-22 15:47:02 阅读次数：4678

java抓取动态生成的网页--吐槽

最近在做项目的时候有一个需求：从网页面抓取数据，要求是首先抓取整个网页的html源码（后期更新要使用到）。刚开始一看这个简单，然后就稀里哗啦的敲起了代码（在这之前使用过Hadoop平台的分布式爬虫框架Nutch，使用起来是很方便，但是最后因为速度的原因放弃了，但生成的统计信息在后来的抓取中使用到.....

分类：编程语言时间：2014-09-22 02:43:01 阅读次数：301

nutch相关目录说明

分类：其他好文时间：2014-09-19 20:56:16 阅读次数：165

共272条上一页 1 ... 20 21 22 23 24 ... 28 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)