码迷,mamicode.com
首页 >  
搜索关键字:hadoop block 策略    ( 46455个结果
hive基本操作
Hive是一个基于hadoop的数据仓库工具。Hive的查询语言是hive ql。一种类似sql的语言。 Hive支持的数据类型有 1整形: Tinyint  1字节整型 Smallint  2字节整型 Bigint   8字节整型   2.布尔型 Boolean   3浮点型  Float Double   4字符串类型 String   5.符合类型 ...
分类:其他好文   时间:2014-07-22 23:03:34    阅读次数:393
Hadoop AWS Word Count 例子
在AWS里用Elastic Map Reduce 开一个Cluster然后登陆master node并编译以下程序:import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; ...
分类:其他好文   时间:2014-07-22 23:01:32    阅读次数:405
Hadoop初学指南(5)--MapReduce入门
本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,在Hadoop中用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单..
分类:其他好文   时间:2014-05-03 01:53:48    阅读次数:519
Hadoop初学指南(6)--MapReduce的简单实例及分析
本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据,分别是helloyou,hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>,分别是<0,helloyou><10,hel..
分类:其他好文   时间:2014-05-03 01:51:40    阅读次数:382
HDFS追本溯源:租约,读写过程的容错处理及NN的主要数据结构
Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢? 读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。...
分类:其他好文   时间:2014-05-02 23:22:14    阅读次数:450
Linux进程调度策略
从Linux2.5开始Linux实现了0(1)调度算法, 算法的思想要点在于设定动态的nice值确定优先级, 在优先级数组调度(数组最大长度是固定常数) 简而言之,不管系统中有多少进程需要调度都可以在o(1)的时间复杂度内完成调度,是不是很吊啊?但是实践证明(我没证明,文献说的) o(1)对i/o交互型的调度体验上表现很差 轮转周期很不灵活,主要原因在于调度出发点采用粒度很大时间片进行轮换,诚然整体负载会比较好,但是对于i/o交互型的,我们理想的调度策略是采用处理器使用比而不是时间片来分配, ...
分类:系统相关   时间:2014-05-02 21:18:41    阅读次数:460
Ubuntu14下Hadoop开发<1> 基础环境安装
在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...
分类:其他好文   时间:2014-05-02 19:56:21    阅读次数:367
Hadoop web监控界面设置安全机制
Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。实验环境:OS:Centos 6.5 x64, Soft:Hadoop 1.2.11、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hado...
分类:Web程序   时间:2014-05-02 12:17:15    阅读次数:1290
GCD的一些小结
GCD是基于C语言的底层API,用Block定义任务用起来非常灵活便捷. GCD的基本思想是就将操作放在队列中去执行 (1)操作使用Blocks定义 (2)队列负责调度任务执行所在的线程以及具体的执行时间 (3)队列的特点是先进先出(FIFO)的,新添加至对列的操作都会排在队尾关于多线程的一些概念....
分类:其他好文   时间:2014-05-02 06:32:43    阅读次数:313
用hadoop实现SimRank++算法(1)----权值转移矩阵的计算
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。 SimRank++的矩阵形式的计算公式为: 算法主要步骤如下: Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号; Step2:...
分类:其他好文   时间:2014-05-01 08:21:53    阅读次数:527
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!