Hive是一个基于hadoop的数据仓库工具。Hive的查询语言是hive ql。一种类似sql的语言。
Hive支持的数据类型有
1整形:
Tinyint 1字节整型
Smallint 2字节整型
Bigint 8字节整型
2.布尔型
Boolean
3浮点型
Float
Double
4字符串类型
String
5.符合类型
...
分类:
其他好文 时间:
2014-07-22 23:03:34
阅读次数:
393
在AWS里用Elastic Map Reduce 开一个Cluster然后登陆master node并编译以下程序:import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
...
分类:
其他好文 时间:
2014-07-22 23:01:32
阅读次数:
405
本文将介绍Hadoop中的重点MapReduce的入门知识。(1)MapReduce概述MapReduce是一种分布式计算模型,由Google提出,主要用于搜索领域,解决海量数据的计算问题。MR由两个阶段组成:Map和Reduce,在Hadoop中用户只需要实现map()和reduce()两个函数,即可实现分布式计算,非常简单..
分类:
其他好文 时间:
2014-05-03 01:53:48
阅读次数:
519
本文在上一节的基础上通过一个简单的MR示例对MapReduce的运行流程进行分析。假设有两行数据,分别是helloyou,hellome,我们要统计其中出现的单词以及每个单词出现的次数。所得的结果为hello2you1me1(1)大致运行流畅1.解析成2个<k,v>,分别是<0,helloyou><10,hel..
分类:
其他好文 时间:
2014-05-03 01:51:40
阅读次数:
382
Lease 的机制:hdfs支持write-once-read-many,也就是说不支持并行写,那么对读写的互斥同步就是靠Lease实现的。Lease说白了就是一个有时间约束的锁。客户端写文件时需要先申请一个Lease,对应到namenode中的LeaseManager,客户端的client name就作为一个lease的holder,即租约持有者。LeaseManager起什么作用呢?
读写过程的容错是怎么做的?数据块是如何复制的?数据块的恢复机制?本文都有涉及。...
分类:
其他好文 时间:
2014-05-02 23:22:14
阅读次数:
450
从Linux2.5开始Linux实现了0(1)调度算法, 算法的思想要点在于设定动态的nice值确定优先级, 在优先级数组调度(数组最大长度是固定常数) 简而言之,不管系统中有多少进程需要调度都可以在o(1)的时间复杂度内完成调度,是不是很吊啊?但是实践证明(我没证明,文献说的) o(1)对i/o交互型的调度体验上表现很差 轮转周期很不灵活,主要原因在于调度出发点采用粒度很大时间片进行轮换,诚然整体负载会比较好,但是对于i/o交互型的,我们理想的调度策略是采用处理器使用比而不是时间片来分配, ...
分类:
系统相关 时间:
2014-05-02 21:18:41
阅读次数:
460
在Ubuntu14.04下使用Hadoop2.4进行大数据开发之基础环境准备篇...
分类:
其他好文 时间:
2014-05-02 19:56:21
阅读次数:
367
Hadoop集群配置完成,web监控界面的50070和50030端口不需用户验证即可访问,对生产环境是不容许的,需要加上安全机制。实验环境:OS:Centos
6.5 x64, Soft:Hadoop 1.2.11、修改core-site.xml,增加如下内容,配置完成后拷贝到其他节点上。 hado...
分类:
Web程序 时间:
2014-05-02 12:17:15
阅读次数:
1290
GCD是基于C语言的底层API,用Block定义任务用起来非常灵活便捷.
GCD的基本思想是就将操作放在队列中去执行 (1)操作使用Blocks定义 (2)队列负责调度任务执行所在的线程以及具体的执行时间
(3)队列的特点是先进先出(FIFO)的,新添加至对列的操作都会排在队尾关于多线程的一些概念....
分类:
其他好文 时间:
2014-05-02 06:32:43
阅读次数:
313
本文主要针对广告检索领域的查询重写应用,根据查询-广告点击二部图,在MapReduce框架上实现SimRank++算法,关于SimRank++算法的背景和原理请参看前一篇文章《基于MapReduce的SimRank++算法研究与实现》。
SimRank++的矩阵形式的计算公式为:
算法主要步骤如下:
Step1: 计算权值矩阵,并获取最大Query编号和最大广告编号;
Step2:...
分类:
其他好文 时间:
2014-05-01 08:21:53
阅读次数:
527