Spark SQL架构和案例深入实战 视频地址:http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=977951266414309王家林老师(邮箱:18610086859@126.com QQ: 174041554...
分类:
数据库 时间:
2014-10-04 00:18:35
阅读次数:
359
MapOutputBuffer对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是io.sort.mb默认值是100MB.一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:io.sort.spill.percent默认值是80%或者0.8.在内存...
分类:
其他好文 时间:
2014-10-03 23:54:35
阅读次数:
273
好早的时候就打算写这篇文章,但是还是参加阿里大数据竞赛的第一季三月份的时候实验就完成了,硬生生是拖到了十一假期,自己也是醉了。。。找工作不是很顺利,希望写点东西回顾一下知识,然后再攒点人品吧,只能如此了。
一、问题背景
二、基于用户的协同过滤算法介绍
三、数据结构和实验过程设计
四、代码...
分类:
编程语言 时间:
2014-10-03 21:50:45
阅读次数:
281
J:\传智播客_尹成_C语言从菜鸟到高手├─传智播客_尹成_C语言从菜鸟到高手_第一章C语言概述A│ 第一讲1.1C语言第一阶段.mp4│ 第二讲1.2c语言入门教程.mp4│ ├─传智播客_尹成_C语言从菜鸟到高手_第七章编译选项_链表_栈_队列_C实战│ ├─7.1编译与预处理│ │ 第10讲 7.1.14-24宏的高级用法2.mp4│ │...
分类:
编程语言 时间:
2014-10-03 19:02:15
阅读次数:
387
example4演示了如何指定Reducer的数量,本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大,从而整体reduce的性能更加均衡。Reducer的数量由HashPartitioner函数getPartition返回值来确定。public int getPartitio...
分类:
其他好文 时间:
2014-10-03 16:37:14
阅读次数:
220
本篇介绍如何控制reduce的数目。前面观察结果文件,都会发现一般是以part-r-00000 形式出现多个文件,其实这个reducer的数目有关系,reducer数目多,结果文件数目就多。在初始化job的时候,是可以设置reducer的数目的。example4在example的基础上做了改动。修改了pom.xml,使得结束一个参数作为reducer的数目。修改了LogJob.java的代码,作为...
分类:
其他好文 时间:
2014-10-03 15:39:04
阅读次数:
265
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map...
分类:
其他好文 时间:
2014-10-03 12:52:54
阅读次数:
184
之前看spring实战的时候,书中提到spring roo工具,一直没有来得及尝试. 这次十一,我和女友一致认为前两天人太挤出去是受罪,于是就窝在了家里,就有了点时间来研究一下技术.好了,言归正传 ,我比较懒,所以一直在寻找最简单的办法去完成一些事情. 对于框架集成也是如此 ,已经尝试过各种方法了,...
分类:
编程语言 时间:
2014-10-03 02:47:54
阅读次数:
375
理论基础:Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...
分类:
其他好文 时间:
2014-10-03 01:34:04
阅读次数:
451
有了前面的MultipleOutputs的使用经验,就可以将HDFS输入目录的路径解析出来,组成输出路径,这在业务上是十分常用的。这样其实是没有多文件名输出,仅仅是调用了MultipleOutputs的addNamedOutput方法一次,设置文件名为result.先看pom.xml, 现在参数只有一个输入目录了,输出目录会在该路径后面自动加上/output.<project xmlns="htt...
分类:
其他好文 时间:
2014-10-03 00:03:53
阅读次数:
393