码迷,mamicode.com
首页 > 其他好文 > 详细

Hadoop技术内幕HDFS-笔记1

时间:2014-06-27 12:15:57      阅读:221      评论:0      收藏:0      [点我收藏+]

标签:Lucene   style   blog   java   http   color   

 书籍学习——董西成《Hadoop技术内幕 深入解析HADOOP COMMON和HDFS架构设计与实现原理》

HDFS 高容错,高伸缩性

Lucene是引擎开发包,提供了一个纯java的高性能全文检索,可方便的嵌入到各种应用中实现全文搜索/索引功能。

Nutch是以Lucene为基础实现的搜索引擎应用,Lucene为Nutch提供了文本搜索和索引的Api,Nutch不光有搜索功能,还有数据抓取的功能,却无法支持拥有数亿网页的网络(在网络抓取和索引过程中产生的大量文件存储需求)。

Hadoop优势:

         方便:可应用在一般商业机器的大型集群上

         弹性:可依据集群负载实现增加或减少节点的弹性伸缩,高效的使用资源

         健壮:

         简单:

bubuko.com,布布扣

1、  Hadoop common 为hadoop的其它项目提供一些常用工具,包括:系统配置工具Configuration,远程过程调用RPC,序列化机制和hadoop抽象文件系统FileSystem

2、  Avro 数据序列化系统,便于网络传输

3、  Zookeeper解决分布式系统的一致性问题,如统一命名服务,状态同步服务,集群管理,分布式应用配置项的管理等。

4、  HDFS 数据管理与存储

5、Mapreduce

  bubuko.com,布布扣

6、Hbase:提供对大规模数据的随机、实时读写访问,其中保存的数据可以通过Mapreduce来处理,将数据存储和并行计算完美的结合在一起。

7、Hive 建立在hadoop之上的数据仓库架构,包括数据ETL(抽取、转换、和加载)工具,数据存储管理和大型数据集的查询和分析能力,类SQL语言。

8、pig简化任务代码,将pig latin脚本转换为hadoop任务链

9、Mahout 主要目标是创建一些可以扩展的机器学习领域经典算法的实现,更快的创建智能应用程序(聚类、分类、推荐引擎(协调过滤)和频繁集挖掘等数据挖掘算法)

10、X-RIME,社会网络分析工具

11、Chukwa 数据收集系统,监控大规模分布式系统,工具集提供了数据的生成、收集、排序、去重、分析和展示等功能

12、lume海量日志收集系统,数据流,可定制数据发送方,从而支持各种不同的协议的数据,对日志数据提供简单的处理能,如过滤,格式转换等,可将日志写往各种数据目标。

13、SQOOP: 在结构化数据存储和hadoop(hive)之间进行数据交换,过程是使用mapreduce并行化。

14、Oozie 工作流引擎,hadoop计算作业被抽象为动作,构建他们之间的依赖关系,组成一个有向无环的工作流。

 

eclipse快捷键:

Ctrl+T 查看类的结构

Ctrl+Shift+T 查找某个类

Ctrl+Alt+F 查看方法的调用关系

CrygWin不符,暂且不看

Hadoop技术内幕HDFS-笔记1,布布扣,bubuko.com

Hadoop技术内幕HDFS-笔记1

标签:Lucene   style   blog   java   http   color   

原文地址:http://www.cnblogs.com/jsunday/p/3810744.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!