一、客户端 Map-Reduce的过程首先是由客户端提交一个任务开始的。 提交任务主要是通过JobClient.runJob(JobConf)静态函数实现的: public static RunningJob runJob(JobConf job) throws IOException { //首先 ...
分类:
其他好文 时间:
2016-06-14 20:59:39
阅读次数:
305
spark集群安装配置 一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果 ...
分类:
其他好文 时间:
2016-06-14 10:11:26
阅读次数:
158
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发。Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于Hadoop MapReduce的是Job中间输出和结果可以保存在内存中,从而不 ...
分类:
系统相关 时间:
2016-06-14 00:55:34
阅读次数:
204
MapReduce是一种函数式编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 M ...
分类:
编程语言 时间:
2016-06-13 13:17:09
阅读次数:
228
Hive ive优化 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时是跑不完的。...
分类:
其他好文 时间:
2016-06-13 06:38:34
阅读次数:
297
Map函数: 原型:map(function, sequence),作用是将一个列表映射到另一个列表, 使用方法: def f(x): return x**2 l = range(1,10) map(f,l) Out[3]: [1, 4, 9, 16, 25, 36, 49, 64, 81] Red ...
分类:
编程语言 时间:
2016-06-10 12:15:47
阅读次数:
196
一:Hive本质是是什么 1:hive是分布式又是数据仓库,同时又是查询引擎,Spark SQL只是取代的HIVE的查询引擎这一部分,企业一般使用Hive+spark SQL进行开发 2:hive的主要工作 1> 把HQL翻译长map-reduce的代码,并且有可能产生很多mapreduce的job ...
分类:
其他好文 时间:
2016-06-05 12:34:55
阅读次数:
181
map/reduce map()方法定义在JavaScript的Array中,我们调用Array的map()方法,传入我们自己的函数,就得到了一个新的Array作为结果: map()传入的参数是pow,即函数对象本身。 你可能会想,不需要map(),写一个循环,也可以计算出结果,的确也可以,但是,从 ...
分类:
编程语言 时间:
2016-06-01 18:04:49
阅读次数:
577
1.将hadoop插件放入eclipse/plugins目录中 2.eclipse配置hadoop 依赖包目录 Window—Preferences 3.新建Map/Reduce Project项目 4.显示Map/Reduce Locations 窗口 5.配置Hadoop服务器 6.新建java ...
分类:
其他好文 时间:
2016-05-31 13:47:15
阅读次数:
130
1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:
其他好文 时间:
2016-05-31 00:57:12
阅读次数:
117