下载Hadoop安装包 wget http://apache.fayea.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz java安装 wget -c --header "Cookie: oraclelicense=accept-secureba ...
分类:
数据库 时间:
2017-08-01 14:34:12
阅读次数:
186
在对nutch源码执行ant runtime后,会创建一个runtime的文件夹。在runtime文件夹下有deploy和local 2个文件夹。 [jediael@jediael runtime]$ ls deploy local 这2个文件夹分别代表nutch的2种执行方式:部署模式及本地模式。 ...
分类:
其他好文 时间:
2017-07-19 20:38:42
阅读次数:
257
一、Apache Hadoop 历史发展 Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。 随后在 2003 年 Google 发表了一篇 ...
分类:
其他好文 时间:
2017-07-08 20:19:10
阅读次数:
126
Hadoop历史 Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是googl ...
分类:
其他好文 时间:
2017-06-28 21:49:07
阅读次数:
103
linux下扩展硬盘有非常多种方式,在扩展之前。尽量看看自己的空间存在的有哪些盘,然后再进行扩展。假设是扩展的话,磁盘的符号和已经有的符号一样,比方都是sda的设备,知识分区不同。可能是sda3 sda4 假设是加入的话,相对于一个新的硬盘,可能是sdb sdc 非常多人在学习Nutch、Hadoo ...
分类:
系统相关 时间:
2017-06-19 19:34:29
阅读次数:
352
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File Sy ...
分类:
其他好文 时间:
2017-06-12 12:58:12
阅读次数:
175
爬虫爬取时,须要约束爬取的范围。基本全部的爬虫都是通过正則表達式来完毕这个约束。 最简单的,正则: http://www.xinhuanet.com/.*代表"http://www.xinhuanet.com/"后加随意个随意字符(能够是0个)。 通过这个正则能够约束爬虫的爬取范围,可是这个正则并非 ...
分类:
编程语言 时间:
2017-06-11 11:30:04
阅读次数:
169
需求: 需要采集js渲染的页面,有些网站的页面是js渲染的 实现: 基于HtmlUnit实现: maven依赖: 说明: Nutch插件:nutch-htmlunit用于替换Nutch自身的Http Fetch组件 ...
分类:
编程语言 时间:
2017-05-22 17:45:47
阅读次数:
206
一、hadoop的起源Apache Lucene 开源的高性能全文检索工具包Apache Nutch 开源的web搜索引擎google的三篇论文 GFS -> HDFS MapReduce -> MapReduce BigTable -> HBaseApache Hadoop 大规模数据处理 二、h ...
分类:
其他好文 时间:
2017-05-22 00:19:37
阅读次数:
266
全文索引-lucene。solr。nutch,hadoop之lucene 全文索引-lucene。solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr。nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系。我还是仅仅写了两篇文章,分别介绍了一下lu ...
分类:
Web程序 时间:
2017-05-04 21:51:17
阅读次数:
247