标签:hadoop
1 HDFS
1.1 概念
Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统
1.2 特点
- 高度容错性
- 硬件要求低
- 能提供高吞吐量的数据访问
1.2 文件系统命令行
1.1.1 获取帮助
hadoop fs -help
1.2.2 ls命令
hadoop fs -ls / hadoop fs -ls -R /user
1.3 getconf命令
hdfs getconf -help hdfs getconf -namenodes
1.4 版本信息
hdfs version
2 MapReduce
3 Hive
3.1 Hive的简介
3.1.1 概念
Hive是一个基于Hadoop的数据仓库平台。
3.1.1 Hive的作用
通过hive,我们可以方便地进行ETL的工作
hive定义了一个类似于SQL的查询语言
HQL能够将用户编写的QL转化为相应的Mapreduce程序基于Hadoop执行
3.1.3 Hive项目的历史
Hive是Facebook 2008年8月刚开源的一个数据仓库框架,其系统目标与Pig有相似之处,但它有一些Pig目前还不支持的机制。
比如:更丰富的类型系统、更类似SQL的查询语言、Table/Partition元数据的持久化等。
参阅资料:
==================================================
Docs:
----------------
http://hadoop.apache.org/docs/current/
Hadoop Common Guide:
---------------------
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/HDFSCommands.html
File System Shell Guide:
MapReduce Common Guide:
------------------------
Hive Docs
-------------------------
GettingStarted:
https://cwiki.apache.org/confluence/display/Hive/GettingStarted
User Documentation:
https://cwiki.apache.org/confluence/display/Hive/Home#Home-UserDocumentation
======================================
其他参考:
======================================
ETL的概念:
----------
http://www.cnblogs.com/elaron/archive/2012/04/09/2438372.html
本文出自 “老谭linux集群博客” 博客,请务必保留此出处http://cmdschool.blog.51cto.com/2420395/1843887
标签:hadoop
原文地址:http://cmdschool.blog.51cto.com/2420395/1843887