码迷,mamicode.com
首页 > 数据库 > 详细

Nutch2.3+Mongodb+ElasticSearch

时间:2015-08-04 22:50:55      阅读:1247      评论:0      收藏:0      [点我收藏+]

标签:

Nutch2.3

    Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

    Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。
这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为:

  • Apache Hadoop 1.0.1 & 2.4.0
  • Apache Cassandra 2.0.2
  • Apache HBase 0.94.14
  • Apache Accumulo 1.5.1
  • MongoDB 2.12.2
  • Apache Solr 4.8.1
  • Apache Avro 1.7.6

    同时请注意,Gora对SQL的支持已经过时了。

Mongodb

    Mongo DB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一条记录都是一个Document对象。Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。

ElasticSearch

    ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

Kibana

    Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。

 

本机配置

centos 6.5 64位

 

1、JDK、ant安装

 1 $ mkdir /download
 2 $ cd /download
 3 $ wget http://download.oracle.com/otn-pub/java/jdk/8u40-b26/jdk-8u40-linux-x64.tar.gz 
 4 $ wget http://mirror.tcpdiag.net/apache//ant/binaries/apache-ant-1.9.4-bin.tar.gz
 5 $ tar xzf jdk-8u40-linux-x64.tar.gz
 6 $ tar xzf apache-ant-1.9.4-bin.tar.gz
 7 $ mv apache-ant-1.9.4/ /opt/ant
 8 $ mv jdk-8u40-linux-x64/ /opt/jdk1.8.0_40
 9 $ vim /etc/profile
10 
11 #jdk 1.8.0
12 export JAVA_HOME=/usr/java/jdk1.8.0_40
13 export JRE_HOME=/usr/java/jdk1.8.0_40/jre
14 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
15 export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin
16 
17 #ant install path
18 export ANT_HOME=/usr/local/ant
19 export PATH=$ANT_HOME/bin:$PATH

 测试是否安装成功:

[root@ewanalysis ~]# ant
Buildfile: build.xml does not exist!
Build failed
[root@ewanalysis ~]# java -version
java version "1.8.0_40"
OpenJDK Runtime Environment (IcedTea6 1.13.6) (rhel-1.13.6.1.el6_6-x86_64)
OpenJDK 64-Bit Server VM (build 23.25-b01, mixed mode)

 

2、Mongodb下载、安装、启动

1 $ wget /download http://downloads.mongodb.org/linux/mongodb-linux-i686-2.6.7-rc0.tgz
2 $ tar xzf /download/mongodb-linux-x86_64-2.6.7.tgz
3 $ mv mongodb-linux-x86_64-2.6.7/ /opt/mongodb/
4 $ cd /opt/mongodb/
5 $ mkdir log/ conf/ data/

从2.6版开始,mongodb使用YAML-based配置文件格式。参考下面的配置可以在这里找到。

$ vim conf/se.yml

 1 net:
 2         port: 27017
 3         bindIp: 127.0.0.1
 4 systemLog:
 5         destination: file
 6         path: "/opt/mongodb/log/mongodb.log"
 7         logAppend: true
 8 processManagement:
 9         fork: true
10         pidFilePath: "/opt/mongodb/log/mongodb.pid"
11 storage:
12         dbPath: "/opt/mongodb/data"
13         directoryPerDB: true
14         smallFiles: true

 启动Mongodb

$ cd /opt/mongodb
$ bin/mongod -f conf/se.yml

 

进入Mongodb以检查Mongodb是否启动成功

$ bin/mongo
> show dbs
admin (empty)
local 0.031GB
> exit
bye

 

3、ElasticSearch下载、安装

$ wget /download https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.4.4.tar.gz
$ cd /download
$ tar xzf /download/elasticsearch-1.4.4.tar.gz
$ mv elasticsearch-1.4.4 /opt/elasticsearch 
$ cd /opt/elasticsearch
$ vim config/elasticsearch.yml
cluster.name: hist
node.name: "hist-node1"
node.master: true
node.data: true
path.conf: /opt/elasticsearch/config
path.data: /opt/elasticsearch/data
http.enabled: true

 

后台启动ElasticSearch

$ cd /opt/elasticsearch
$ elasticsearch -d

 

终止ElasticSearch进程

#关闭单一节点
curl -XPOST http://localhost:9200/_cluster/nodes/_shutdown
#关闭节点BlrmMvBdSKiCeYGsiHijdg
curl –XPOST http://localhost:9200/_cluster/nodes/BlrmMvBdSKiCeYGsiHijdg/_shutdown

 

检测是否成功运行ElasticSearch

$ curl -XGET http://localhost:9200
{
  "status" : 200,
  "name" : "hist-node1",
  "cluster_name" : "hist",
  "version" : {
    "number" : "1.4.4",
    "build_hash" : "c88f77ffc81301dfa9dfd81ca2232f09588bd512",
    "build_timestamp" : "2015-02-19T13:05:36Z",
    "build_snapshot" : false,
    "lucene_version" : "4.10.3"
  },
  "tagline" : "You Know, for Search"
}

 

4、Kibana下载、安装

$ wget /download https://download.elasticsearch.org/kibana/kibana/kibana-4.0.1-linux-x64.tar.gz
$ cd /download
$ tar xzf /download kibana-4.0.1-linux-x64.tar.gz 
$ mv kibana-4.0.1-linux-x64/ /opt/kibana/ 
$ cd /opt/kibana/
$ bin/kibana

 

下面你就可以通过http://127.0.0.1:5601端口访问了

5、Nutch2.3下载、安装

 

Nutch2.3+Mongodb+ElasticSearch

标签:

原文地址:http://www.cnblogs.com/zhjsll/p/4703170.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!