标签:
Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。
Apache Nutch v2.3已经发布了,建议所有使用2.X系列的用户和开发人员升级到这个版本。
这个版本提供了一个基于Apache Wicket的Web管理界面,解决了143个问题,提供了Maven依赖,升级到Gora v0.5,支持的底层存储为:
同时请注意,Gora对SQL的支持已经过时了。
Mongo DB 是目前在IT行业非常流行的一种非关系型数据库(NoSql),其灵活的数据存储方式备受当前IT从业人员的青睐。Mongo DB很好的实现了面向对象的思想(OO思想),在Mongo DB中 每一条记录都是一个Document对象。Mongo DB最大的优势在于所有的数据持久操作都无需开发人员手动编写SQL语句,直接调用方法就可以轻松的实现CRUD操作。
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是第二流行的企业搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
Kibana 是一个为 Logstash 和 ElasticSearch 提供的日志分析的 Web 接口。可使用它对日志进行高效的搜索、可视化、分析等各种操作。
本机配置
centos 6.5 64位
1、JDK、ant安装
1 $ mkdir /download 2 $ cd /download 3 $ wget http://download.oracle.com/otn-pub/java/jdk/8u40-b26/jdk-8u40-linux-x64.tar.gz 4 $ wget http://mirror.tcpdiag.net/apache//ant/binaries/apache-ant-1.9.4-bin.tar.gz 5 $ tar xzf jdk-8u40-linux-x64.tar.gz 6 $ tar xzf apache-ant-1.9.4-bin.tar.gz 7 $ mv apache-ant-1.9.4/ /opt/ant 8 $ mv jdk-8u40-linux-x64/ /opt/jdk1.8.0_40 9 $ vim /etc/profile 10 11 #jdk 1.8.0 12 export JAVA_HOME=/usr/java/jdk1.8.0_40 13 export JRE_HOME=/usr/java/jdk1.8.0_40/jre 14 export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib 15 export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin 16 17 #ant install path 18 export ANT_HOME=/usr/local/ant 19 export PATH=$ANT_HOME/bin:$PATH
测试是否安装成功:
[root@ewanalysis ~]# ant Buildfile: build.xml does not exist! Build failed [root@ewanalysis ~]# java -version java version "1.8.0_40" OpenJDK Runtime Environment (IcedTea6 1.13.6) (rhel-1.13.6.1.el6_6-x86_64) OpenJDK 64-Bit Server VM (build 23.25-b01, mixed mode)
2、Mongodb下载、安装、启动
1 $ wget /downloadhttp:
//downloads.mongodb.org/linux/mongodb-linux-i686-2.6.7-rc0.tgz
2 $ tar xzf /download/mongodb-linux-x86_64-2.6.7.tgz 3 $ mv mongodb-linux-x86_64-2.6.7/ /opt/mongodb/ 4 $ cd /opt/mongodb/ 5 $ mkdir log/ conf/ data/
从2.6版开始,mongodb使用YAML-based配置文件格式。参考下面的配置可以在这里找到。
$ vim conf/se.yml
1 net: 2 port: 27017 3 bindIp: 127.0.0.1 4 systemLog: 5 destination: file 6 path: "/opt/mongodb/log/mongodb.log" 7 logAppend: true 8 processManagement: 9 fork: true 10 pidFilePath: "/opt/mongodb/log/mongodb.pid" 11 storage: 12 dbPath: "/opt/mongodb/data" 13 directoryPerDB: true 14 smallFiles: true
启动Mongodb
$ cd /opt/mongodb
$ bin/mongod -f conf/se.yml
进入Mongodb以检查Mongodb是否启动成功
$ bin/mongo > show dbs admin (empty) local 0.031GB > exit bye
3、ElasticSearch下载、安装
$ wget /download https://download.elasticsearch.org/elasticsearch/elasticsearch/elasticsearch-1.4.4.tar.gz $ cd /download $ tar xzf /download/elasticsearch-1.4.4.tar.gz $ mv elasticsearch-1.4.4 /opt/elasticsearch $ cd /opt/elasticsearch $ vim config/elasticsearch.yml cluster.name: hist node.name: "hist-node1" node.master: true node.data: true path.conf: /opt/elasticsearch/config path.data: /opt/elasticsearch/data http.enabled: true
后台启动ElasticSearch
$ cd /opt/elasticsearch
$ elasticsearch -d
终止ElasticSearch进程
#关闭单一节点 curl -XPOST http://localhost:9200/_cluster/nodes/_shutdown #关闭节点BlrmMvBdSKiCeYGsiHijdg curl –XPOST http://localhost:9200/_cluster/nodes/BlrmMvBdSKiCeYGsiHijdg/_shutdown
检测是否成功运行ElasticSearch
$ curl -XGET ‘http://localhost:9200‘ { "status" : 200, "name" : "hist-node1", "cluster_name" : "hist", "version" : { "number" : "1.4.4", "build_hash" : "c88f77ffc81301dfa9dfd81ca2232f09588bd512", "build_timestamp" : "2015-02-19T13:05:36Z", "build_snapshot" : false, "lucene_version" : "4.10.3" }, "tagline" : "You Know, for Search" }
4、Kibana下载、安装
$ wget /download https://download.elasticsearch.org/kibana/kibana/kibana-4.0.1-linux-x64.tar.gz $ cd /download $ tar xzf /download kibana-4.0.1-linux-x64.tar.gz $ mv kibana-4.0.1-linux-x64/ /opt/kibana/ $ cd /opt/kibana/ $ bin/kibana
下面你就可以通过http://127.0.0.1:5601端口访问了
5、Nutch2.3下载、安装
Nutch2.3+Mongodb+ElasticSearch
标签:
原文地址:http://www.cnblogs.com/zhjsll/p/4703170.html