HDFS配置:
客户端中的配置参数可以覆盖服务端的参数。
例如:副本数,切块大小
HDFS文件存储:
服务端存储block的实际大小,但是不适合存储小文件,小文件会占用namenode的元数据空间。
对于小文件数据的优化,可以在上传之前先合并再上传。
例如:压缩、文本文件合并
HDFS扩展:
hdfs支持rest API,与平台无关
jetty 容器
hdfs支持rest command
分布式任务传统方式:
任务资源分发 jar配置文件。。。硬件资源的分配
任务在各个任务节点上设置运行环境,启动执行
监视各个阶段任务执行状态
任务失败,重试
中间结果调度,汇总
hadoop对分布式抽象
yarn:资源调度器,负责硬件资源调度、任务分配、环境配置、启动任务。
mapredce:分布式运算框架,监视任务执行、失败重试、中间结果调度。
spark、storm:实时计算
mapreduce
hadoop序列化机制:
mapreduce任务提交方式
mapreduce任务执行流程
大数据学习笔记3--HDFS扩展和mapreduce工作过程
原文地址:http://blog.csdn.net/jinyingone/article/details/44998943