码迷,mamicode.com
首页 >  
搜索关键字:hadoop hdfs mapreduce yarn    ( 18270个结果
hadoop wordCount运行
本文以康哥的博客为基础进行修改和补充,详见:http://kangfoo.github.io/article/2014/01/hadoop1.x-wordcount-fen-xi/hadoop mapreduce 过程粗略的分为两个阶段: 1.map; 2.redurce(copy, sor...
分类:其他好文   时间:2014-05-02 00:06:57    阅读次数:553
hadoop技术基本架构
一、Hadoop概述 hadoop由两部分组成,分别是分布式文件系统和分布式计算框架MapReduce。其中,分布式文件系统主要用于大规模数据的分布式存储,而MapReduce 则构建在分布式文件系 统之上,对存储在分布式文件系统中的数据进行分布式计算。 2、在Hadoop 中,MapReduce 底层的分布式文件系统是独立模块,用户可按照约定的一套接口实现自己的分布式文件系统,然后经过简单...
分类:其他好文   时间:2014-05-01 18:34:41    阅读次数:382
HDFS集中式缓存管理(Centralized Cache Management)
Hadoop从2.3.0版本开始支持HDFS缓存机制,HDFS允许用户将一部分目录或文件缓存在HDFS当中,NameNode会通知拥有对应块的DataNodes将其缓存在DataNode的内存当中 集中式缓存管理有着许多显著的优势: 防止那些被频繁使用的数据从内存中清除因为DataNode的缓存由NameNode来管理,applications在做任务安排时可以查询这个缓存的列表,...
分类:其他好文   时间:2014-05-01 17:45:58    阅读次数:379
javaScript Windows相关
javaScript 关于Windows 1 Windows 对象 所有浏览器都支持 window 对象。它表示浏览器窗口。 所有 JavaScript 全局对象、函数以及变量均自动成为 window 对象的成员。 全局变量是 window 对象的属性。 全局函数是 window 对象的方法。 window.document.getElementById("header"); 2...
分类:编程语言   时间:2014-04-30 22:27:39    阅读次数:499
MapReduce 编程模型
一、简介 1、MapReduce 应用广泛的原因之一在于它的易用性。它提供了一个因高度抽象化而变得异常简单的编程模型。 2、从MapReduce 自身的命名特点可以看出,MapReduce 由两个阶段组成:Map 和Reduce 。用户只需编写map ( ) 和reduce( ) 两个函数,即可完成简单的分布式程序的设计。   1)m a p ( ) 函数以key/value 对作为输入,产...
分类:其他好文   时间:2014-04-30 22:23:39    阅读次数:466
flare-spork: 自己维护的Pig on Spark项目
很早以前有个Pig Spork分支,尝试把Pig迁移到Spark上,但是代码很久没有更新了。目前Pig on Spark应该是在Twitter内部进行着。 flare-spork是基于Spork对Pig和Spark的衔接,把Spark部分的代码迁移到了Pig 0.12.0上,并且升级了依赖和版本,升级为Scala 2.10.3,Spark 0.9.1,且兼容Hadoop 2.2.0。 目前项目在Github上,地址。打算参考Spork已经做的一些东西,继续Pig on Spark的开发。 Github...
分类:其他好文   时间:2014-04-30 22:15:39    阅读次数:360
HBase伪分布式安装及简单使用
HBase是Hadoop的数据库,基于Hadoop运行,是一种NoSQL数据库。 特点:分布式、多版本、面向列的存储模型,能够大规模的数据实时随机读写,可直接使用本地文件系统。 不适合:与关系型数据库相比,模型简单,API很少;不适合小规模的数据。 数据存放的位置叫做单元(cell),其中的数据可以有多个版本,根据时间戳(timestamp)来区别。 安装: tar xfz hbase-...
分类:其他好文   时间:2014-04-29 13:27:22    阅读次数:403
Hadoop架构设计、运行原理详解
1、Map-Reduce的逻辑过程 假设我们需要处理一批有关天气的数据,其格式如下: 按照ASCII码存储,每行一条记录每一行字符从0开始计数,第15个到第18个字符为年第25个到第29个字符为温度,其中第25位是符号+/- 0067011990999991950051507+0000+ 0043011990999991950051512+0022+ 00430119...
分类:其他好文   时间:2014-04-29 13:22:20    阅读次数:309
创建Hive/hbase相关联的表异常
FAILED: Error in metadata: java.lang.RuntimeException: MetaException(message:org.apache.hadoop.hive.serde2.SerDeException org.apache.hadoop.hive.hbase.HBaseSerDe: columns has 3 elements while hbase.columns.mapping has 4 elements (counting the key if implic...
分类:其他好文   时间:2014-04-29 13:17:21    阅读次数:387
spark编译与onyarn的运行
Spark on yarn执行流程源代码分析 目前的分析主要基于spark0.9.0的cdh5的版本进行分析, 源代码下载地址:https://github.com/cloudera/spark.git 下载方式:gitclone url ./spark 进入spark目录,执行gitcheckout cdh5-0.9.0_5.0.0 源代码编译 使用sbt编译spa...
分类:其他好文   时间:2014-04-29 13:13:22    阅读次数:446
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!