Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可...
分类:
其他好文 时间:
2014-08-02 15:27:03
阅读次数:
215
Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS....
分类:
其他好文 时间:
2014-08-02 15:24:53
阅读次数:
403
2014-06-18 20:34:59,622 FATAL org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for block pool Block pool (Datanode Uuid unassig....
分类:
其他好文 时间:
2014-08-02 12:13:03
阅读次数:
269
1、文件系统本地性 第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;2、内存本地性 第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;3、LRU置换 如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取; ...
分类:
其他好文 时间:
2014-08-02 01:47:22
阅读次数:
218
HadoopHA的实现方式上图大致架构包括:1、利用共享存储来在两个NN间同步edits信息。以前的HDFS是sharenothingbutNN,现在NN又sharestorage,这样其实是转移了单点故障的位置,但中高端的存储设备内部都有各种RAID以及冗余硬件包括电源以及网卡等,比服务器的可靠性还是略有提高..
分类:
其他好文 时间:
2014-07-31 21:09:38
阅读次数:
394
1:datanode中的快,命令ll查看
2:实际上文件在进行上传到hdfs的过程中,...
分类:
系统相关 时间:
2014-07-31 13:22:46
阅读次数:
206
这篇文章是看了HBase权威指南之后,依据上面的解说搬下来的样例,可是略微有些不一样。HBase与mapreduce的集成无非就是mapreduce作业以HBase表作为输入,或者作为输出,也或者作为mapreduce作业之间共享数据的介质。这篇文章将解说两个样例:1、读取存储在hdfs上的txt文...
分类:
其他好文 时间:
2014-07-31 12:09:16
阅读次数:
261
最近发生了一次因为hdfs的坏块导致的hive计算问题,因此写了个监控脚本用来监控hdfs的坏块,脚本如下:#!/usr/bin/python
#-*-coding:utf8-*-
#editbyericni
#20140724
#monitorhdfscorrupt
importsys
importproperty
importsendmail
importre,os
reload(sys)
sys.setdefaulten..
分类:
其他好文 时间:
2014-07-31 03:11:06
阅读次数:
350
HDFS和MapReduce是Hadoop的两大核心。整个Hadoop体系结构主要是通过HDFS来实现分布式存储的底层支持的,并且通过MapReduce来实现分布式并行任务处理的程序支持。...
分类:
其他好文 时间:
2014-07-30 20:57:44
阅读次数:
238
一、Impala简介
Cloudera Impala对你存储在Apache Hadoop在HDFS,HBase的数据提供直接查询互动的SQL。除了像Hive使用相同的统一存储平台,Impala也使用相同的元数据,SQL语法(Hive SQL),ODBC驱动程序和用户界面(Hue Beeswax)。Impala还提供了一个熟悉的面向批量或实时查询和统一平台。
二、Impala安装
1.安装要求...
分类:
其他好文 时间:
2014-07-30 09:59:03
阅读次数:
358