码迷,mamicode.com
首页 >  
搜索关键字:nutch    ( 272个结果
HADOOP nutch java mysql
下载Hadoop安装包 wget http://apache.fayea.com/hadoop/common/hadoop-2.7.2/hadoop-2.7.2.tar.gz java安装 wget -c --header "Cookie: oraclelicense=accept-secureba ...
分类:数据库   时间:2017-08-01 14:34:12    阅读次数:186
【Nutch基础教程之七】Nutch的2种执行模式:local及deploy
在对nutch源码执行ant runtime后,会创建一个runtime的文件夹。在runtime文件夹下有deploy和local 2个文件夹。 [jediael@jediael runtime]$ ls deploy local 这2个文件夹分别代表nutch的2种执行方式:部署模式及本地模式。 ...
分类:其他好文   时间:2017-07-19 20:38:42    阅读次数:257
Hadoop基础学习
一、Apache Hadoop 历史发展 Apache Hadoop 的雏形开始于2002年的 Apache 的 Nutch。Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和 Web 爬虫。 随后在 2003 年 Google 发表了一篇 ...
分类:其他好文   时间:2017-07-08 20:19:10    阅读次数:126
Hadoop简介
Hadoop历史 Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是googl ...
分类:其他好文   时间:2017-06-28 21:49:07    阅读次数:103
VMware 下扩展linux硬盘空间
linux下扩展硬盘有非常多种方式,在扩展之前。尽量看看自己的空间存在的有哪些盘,然后再进行扩展。假设是扩展的话,磁盘的符号和已经有的符号一样,比方都是sda的设备,知识分区不同。可能是sda3 sda4 假设是加入的话,相对于一个新的硬盘,可能是sdb sdc 非常多人在学习Nutch、Hadoo ...
分类:系统相关   时间:2017-06-19 19:34:29    阅读次数:352
hadoop之HDFS与MapReduce
Hadoop历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File Sy ...
分类:其他好文   时间:2017-06-12 12:58:12    阅读次数:175
JAVA爬虫Nutch、WebCollector的正则约束
爬虫爬取时,须要约束爬取的范围。基本全部的爬虫都是通过正則表達式来完毕这个约束。 最简单的,正则: http://www.xinhuanet.com/.*代表"http://www.xinhuanet.com/"后加随意个随意字符(能够是0个)。 通过这个正则能够约束爬虫的爬取范围,可是这个正则并非 ...
分类:编程语言   时间:2017-06-11 11:30:04    阅读次数:169
Java使用HtmlUnit抓取js渲染页面
需求: 需要采集js渲染的页面,有些网站的页面是js渲染的 实现: 基于HtmlUnit实现: maven依赖: 说明: Nutch插件:nutch-htmlunit用于替换Nutch自身的Http Fetch组件 ...
分类:编程语言   时间:2017-05-22 17:45:47    阅读次数:206
hadoop概述
一、hadoop的起源Apache Lucene 开源的高性能全文检索工具包Apache Nutch 开源的web搜索引擎google的三篇论文 GFS -> HDFS MapReduce -> MapReduce BigTable -> HBaseApache Hadoop 大规模数据处理 二、h ...
分类:其他好文   时间:2017-05-22 00:19:37    阅读次数:266
全文索引-lucene,solr,nutch,hadoop之nutch与hadoop
全文索引-lucene。solr。nutch,hadoop之lucene 全文索引-lucene。solr,nutch,hadoop之solr 我在去年的时候,就想把lucene,solr。nutch和hadoop这几个东东给具体的介绍下,但因为时间的关系。我还是仅仅写了两篇文章,分别介绍了一下lu ...
分类:Web程序   时间:2017-05-04 21:51:17    阅读次数:247
272条   上一页 1 ... 3 4 5 6 7 ... 28 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!