1 定义hadoop是一个分布式系统架构。2 基本模块HDFS为海量数据提供了存储。Map/Reduce为海量数据提供了计算。3 子项目Hadoop Common: 在0.20及以前的版本中,包含HDFS、MapReduce和其他项目公共内容,从0.21开始HDFS和MapReduce被分离为独立的...
分类:
其他好文 时间:
2014-08-07 15:40:30
阅读次数:
239
注意:在导出前需要先创建待导出的表结构。如果导出的表在数据库中不存在则会报错;如果重复导出多次,表中的数据会重复;create table EMP_DEMO as select * from EMP where 1=2;create table SALGRADE_DEMO as select * f...
分类:
数据库 时间:
2014-08-06 18:32:11
阅读次数:
358
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1;查看执行结果:hadoop fs -cat /u...
分类:
数据库 时间:
2014-08-06 18:11:53
阅读次数:
434
一、 hdfs默认存储基本单位是64M的数据块,若一个文件小于64M,则该文件不会占用整个数据块。二、HDFS体系结构 1、元数据节点(Namenode) 主控制服务器,管理文件系统的命名空间,包括打开、关闭、重命名文件和目录。 NameNode将数据块映射到DataNode,...
分类:
其他好文 时间:
2014-08-06 17:38:21
阅读次数:
249
1 概述
为了增大并发性,Yarn采用事件驱动的并发模型,将各种处理逻辑抽象成事件和调度器,将事件的处理过程用状态机表示。什么是状态机?
如果一个对象,其构成为若干个状态,以及触发这些状态发生相互转移的事件,那么此对象称之为状态机。
处理请求作为某种事件发送到系统中,由一个中央调度器传递给对应的事件调度器,进而对事件进行处理,处理完成之后再次发送给中央调度...
分类:
其他好文 时间:
2014-08-05 22:34:40
阅读次数:
232
在用Hadoop框架处理大数据时使用最多就是HDFS--分布式文件系统,但Hadoop的文件系统不仅只有分布式文件系统,例如:hfs,HSFTP,HAR等在Hadoop中都是有集成的,用来处理存储在不同体系中的数据。事实上应该这么说,Hadoop其实是一个综合性的文件系统。 下面来看看文件系统...
分类:
其他好文 时间:
2014-08-05 03:01:09
阅读次数:
291
翻译自cloudera,原文直通车:Apache HBase Write Path Apache HBase也就是Hadoop Database是基于HDFS之上的.HBase可以随机获取和更新存储在HDFS上的记录。但是HDFS 上的文件只能追加而且一旦创建便无法修改。说到这里你或许会问:那HBa...
分类:
其他好文 时间:
2014-08-04 21:20:57
阅读次数:
264
今天来说说hadoop的一大核心——HDFS,这个是很重要的,它呢,是分布式文件系统。为什么说hadoop能存储海量数据?其实主要还是依赖与hdfs的能力,主要依赖的是hdfs能存储海量数据。
1、 为什么hdfs能存储海量数据呢?
一开始抛出这样的问题来想想。至于HDFS的基本概念什么的都不用多说了的~我们重在使用,而不是去做“研究”。扯蛋的话就是,“专家的研究”已经成为名副其实的贬义词了,...
分类:
其他好文 时间:
2014-08-03 18:09:05
阅读次数:
332
1.Hadoop和MapReduce概念Mapreduce是一种模式。Hadoop是一种框架。Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。2.Hadoop框架借助Hadoop 框架及云计算核心技术MapReduce 来实现数据的计算和存储,并且将HDFS 分布式文件系统...
分类:
其他好文 时间:
2014-08-02 20:45:54
阅读次数:
252