码迷,mamicode.com
首页 > 其他好文 > 详细

读《Hadoop 权威指南》

时间:2015-02-13 20:01:07      阅读:183      评论:0      收藏:0      [点我收藏+]

标签:

部分目录:
1,初始Hadoop
2,关于MapReduce
3,Hadoop分布式文件系统
HDFS 文件系统。
4,Hadoop I/O
5,MapReduce应用开发
6,MapReduce的工作机制
7,MapReduce的类型与格式
8,MapReduce 的特性
9,构建 Hadoop 集群
10,管理 Hadoop
11,Pig简介
Pig Latin 描述数据流的语言,由“操作”“变换”组成。可以对输入数据处理,产生输出结果。
可以本地单机执行或分布式执行。
操作有:
加载,把数据从文件系统或其他存储器中加载或反着来保存
过滤,从中删除不需要的行;从中删除重复的行;从中增加或删除字段;对数据进行变换;从中随机取样;
多个数据进行连接;分组;乘积;
排序
合并;切分
还有表达式可以用
12,Hive
Hive的设计目的是让精通SQL技能(但JAVA 编程技能相对较弱)的分析师能够在 facebook 存放在 HDFS 的大规模数据集上运行查询。不适合用来开发复杂的机器学习算法。但对很多分析任务非常有用。
即使用 SQL 通过 Hive 来运行于 Hadoop 上,处理大量的数据。
HiveQL 是 Hive 的查询语言。是SQL 的一种方言。与 mysql 很相似。
事务,索引,不支持。
延迟,分钟级。
多表插入,支持。
函数,几十个。SQL 有数百个。
扩展:用户定义函数,MapReduce 脚本。
13,HBase
是在 HDFS 上开发的面向列的分布式数据库。适合实时地随机读写超大规模数据集。
它不是关系型数据库,不支持SQL。

14, ZooKeeper
分布式协调服务。
15, 开源工具 Sqoop
一个开源工具,可以将数据从关系数据库抽取到 Hadoop 中。也可以将处理结果导回数据库。
16,实例分析


本书算是从各方面介绍了 Hadoop ,有内容,但细节总是会不到位的,工作流程也不算特别明晰。

但也是比较全面的了。

读了此书看到,Hadoop支持许多语言,但性能和调用方便上最好的还是它的开发语言java。

推荐:2星

读《Hadoop 权威指南》

标签:

原文地址:http://blog.csdn.net/wide288/article/details/43796943

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!