码迷,mamicode.com
首页 >  
搜索关键字:mapreduce 实战    ( 20951个结果
Spark视频第5期:Spark SQL架构和案例深入实战
Spark SQL架构和案例深入实战 视频地址:http://pan.baidu.com/share/link?shareid=3629554384&uk=4013289088&fid=977951266414309王家林老师(邮箱:18610086859@126.com QQ: 174041554...
分类:数据库   时间:2014-10-04 00:18:35    阅读次数:359
MapReduce 编程 系列十一 Map阶段的调优
MapOutputBuffer对于每一个Map,都有一个内存buffer用来缓存中间结果,这不仅可以缓存,而且还可以用来排序,被称为MapOutputBuffer, 设置这个buffer大小的配置是io.sort.mb默认值是100MB.一般当buffer被使用到一定比例,就会将Map的中间结果往磁盘上写,这个比例的配置是:io.sort.spill.percent默认值是80%或者0.8.在内存...
分类:其他好文   时间:2014-10-03 23:54:35    阅读次数:273
【推荐系统实战】:C++实现基于用户的协同过滤(UserCollaborativeFilter)
好早的时候就打算写这篇文章,但是还是参加阿里大数据竞赛的第一季三月份的时候实验就完成了,硬生生是拖到了十一假期,自己也是醉了。。。找工作不是很顺利,希望写点东西回顾一下知识,然后再攒点人品吧,只能如此了。 一、问题背景 二、基于用户的协同过滤算法介绍 三、数据结构和实验过程设计 四、代码...
分类:编程语言   时间:2014-10-03 21:50:45    阅读次数:281
传智播客C语言视频第一季(有效下载期为10.1-10.7,10.8关闭)
J:\传智播客_尹成_C语言从菜鸟到高手├─传智播客_尹成_C语言从菜鸟到高手_第一章C语言概述A│      第一讲1.1C语言第一阶段.mp4│      第二讲1.2c语言入门教程.mp4│      ├─传智播客_尹成_C语言从菜鸟到高手_第七章编译选项_链表_栈_队列_C实战│  ├─7.1编译与预处理│  │      第10讲 7.1.14-24宏的高级用法2.mp4│  │...
分类:编程语言   时间:2014-10-03 19:02:15    阅读次数:387
MapReduce 编程 系列九 使用HashPartitioner来调节Reducer的计算负载
example4演示了如何指定Reducer的数量,本节演示如何使用HashPartitioner将Mapper的输出按照key进行分组后交给Reducer来处理。合理的分组策略将使得每个Reducer获得的计算负载差距不大,从而整体reduce的性能更加均衡。Reducer的数量由HashPartitioner函数getPartition返回值来确定。public int getPartitio...
分类:其他好文   时间:2014-10-03 16:37:14    阅读次数:220
MapReduce 编程 系列八 Reducer数目
本篇介绍如何控制reduce的数目。前面观察结果文件,都会发现一般是以part-r-00000 形式出现多个文件,其实这个reducer的数目有关系,reducer数目多,结果文件数目就多。在初始化job的时候,是可以设置reducer的数目的。example4在example的基础上做了改动。修改了pom.xml,使得结束一个参数作为reducer的数目。修改了LogJob.java的代码,作为...
分类:其他好文   时间:2014-10-03 15:39:04    阅读次数:265
Hive简介
Hive简介1、hive基本概念hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的Map...
分类:其他好文   时间:2014-10-03 12:52:54    阅读次数:184
利用Spring Roo搭建spring/springMVC/jpa(hibernate)
之前看spring实战的时候,书中提到spring roo工具,一直没有来得及尝试. 这次十一,我和女友一致认为前两天人太挤出去是受罪,于是就窝在了家里,就有了点时间来研究一下技术.好了,言归正传 ,我比较懒,所以一直在寻找最简单的办法去完成一些事情. 对于框架集成也是如此 ,已经尝试过各种方法了,...
分类:编程语言   时间:2014-10-03 02:47:54    阅读次数:375
Rhel6-hadoop分布式部署配置文档
理论基础:Hadoop 分布式文件系统架构HDFS 负责大数据存储MapReduce 负责大数据计算namenode master守护进程datanode slaves上负责存储的进程secondarynamenode master上提供周期检查和清理任务的进程jobtracker maste...
分类:其他好文   时间:2014-10-03 01:34:04    阅读次数:451
MapReduce 编程 系列八 根据输入路径产生输出路径和清除HDFS目录
有了前面的MultipleOutputs的使用经验,就可以将HDFS输入目录的路径解析出来,组成输出路径,这在业务上是十分常用的。这样其实是没有多文件名输出,仅仅是调用了MultipleOutputs的addNamedOutput方法一次,设置文件名为result.先看pom.xml, 现在参数只有一个输入目录了,输出目录会在该路径后面自动加上/output.<project xmlns="htt...
分类:其他好文   时间:2014-10-03 00:03:53    阅读次数:393
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!