1.HDFS架构: NameNode保存元数据信息,包含文件的owner,permission。block存储信息等。存储在内存。 2.HDFS设计思想 文件以块的形式存贮,即block,大小为64M。大于64的文件分块,小于64则为1块。文件在上传的时候会产生副本,副本与原文件在不同的节点上,这样 ...
分类:
其他好文 时间:
2017-08-01 09:17:20
阅读次数:
142
Hadoop下有一些经常使用的命令,通过这些命令能够非常方便操作Hadoop上的文件。 1、查看指定文件夹下的内容 语法: hadoop fs -ls 文件文件夹 2、打开某个已存在的文件 语法: hadoop fs -cat 文件地址 [ | more] []表示的是可选命令 3、将本地文件存到H ...
分类:
其他好文 时间:
2017-07-23 21:01:45
阅读次数:
123
Hadoop重新格式化后,仍然datanode启动失败,查看log: org.apache.hadoop.hdfs.server.datanode.DataNode: Java.io.IOException: Incompatible namespaceIDs in /home/admin/joe. ...
分类:
其他好文 时间:
2017-07-18 01:43:02
阅读次数:
161
1. MapReduce 定义: 是一种可用于数据处理的编程的模型 优势: MapReduce 本质上是并行运行的,因此可以将大规模的数据分析任务,分发给任何一个拥有足够多机器的 的数据中心。 MapReduce 的优势在于处理大规模数据集。 过程: (map 和 reduce) 每个阶段都已 键值 ...
分类:
其他好文 时间:
2017-06-02 11:35:53
阅读次数:
150
在学习HDFS的过程中,重点关注了HDFS的REST访问接口。以前对REST的认识非常笼统,这次通过对HDFS的REST接口进行实际操作,形成很直观的认识。 1? 写文件操作 写文件操作分为两个命令,第一个命令先产生一个重定向(TEMPORARY_REDIRECT)响应报文,响应报文中的Locati ...
分类:
其他好文 时间:
2017-05-07 20:28:10
阅读次数:
583
Hadoop学习笔记总结 01. InputFormat和OutFormat 1. 整个MapReduce组件 InputFormat类和OutFormat类都是抽象类。可以实现文件系统的读写,数据库的读写,服务器端的读写。这样的设计,具有高内聚、低耦合的特点。 2. 提交任务时,获取split切片 ...
分类:
其他好文 时间:
2017-04-27 23:20:39
阅读次数:
356
Hadoop学习笔记总结 01. MapReduce 1. Combiner(规约) Combiner号称本地的Reduce。 问:为什么使用Combiner?答:Combiner发生在Map端,对数据进行规约处理,数据量变小了,传送到reduce端的数据量变小了,传输时间变短,作业的整体时间变短。 ...
分类:
其他好文 时间:
2017-04-27 23:10:37
阅读次数:
360
Hadoop学习笔记总结 01. YARN框架 1. 新一代的框架介绍 YARN的职能就是将资源调度和任务调度分开。资源管理器ResourceManager全局管理所有应用程序计算资源的分配,每一个job的ApplicationMaster负责相应任务的调度和协调。 ResourceManager做 ...
分类:
其他好文 时间:
2017-04-27 23:06:13
阅读次数:
255
近期工作调动。打算补一下大数据处理的知识。可能会陆续涉及hadoop、mongodb、ddbs等。首先Apache提供二进制的Hadoop版本号是32位的。在启动时总是有警告,所以想自己编译一遍。部分内容来源于网络。 0、环境说明: 操作系统环境: ububtu 14.04 LTS 64位操作系统 ...
分类:
其他好文 时间:
2017-04-17 21:45:38
阅读次数:
204
折腾了大半个晚上最终部署成功了,比在Linux上面略微复杂一点,具体过程例如以下: 1) jdk、ant、hadoop环境变量配置 2) 分别将hadoop-2.5.2.tar.gz、hadoop-2.5.2-src.tar.gz、hadoop2x-eclipse-plugin、hadoop-com ...