码迷,mamicode.com
首页 >  
搜索关键字:mapreduce partitioner    ( 4100个结果
Hadoop,MapReduce操作Mysql
转自:http://www.cnblogs.com/liqizhou/archive/2012/05/16/2503458.html 前以前帖子介绍,怎样读取文本数据源和多个数据源的合并:http://www.cnblogs.com/liqizhou/archive/2012/05/15/2501835.html 这一个博客...
分类:数据库   时间:2014-08-15 13:04:39    阅读次数:285
Hadoop的ChainMapper和ChainReducer实战
Hadoop的MR作业支持链式处理,类似在一个生产牛奶的流水线上,每一个阶段都有特定的任务要处理,比如提供牛奶盒,装入牛奶,封盒,打印出厂日期,等等,通过这样进一步的分工,从而提高了生产效率,那么在我们的Hadoop的MapReduce中也是如此,支持链式的处理方式,这些Mapper像Linux管道...
分类:移动开发   时间:2014-08-15 12:43:28    阅读次数:285
mapreduce排序【二次排序】
mr自带的例子中的源码SecondarySort,我重新写了一下,基本没变。这个例子中定义的map和reduce如下,关键是它对输入输出类型的定义:(java泛型编程)public static class Map extends Mapper public static class Reduce ...
分类:其他好文   时间:2014-08-14 19:43:59    阅读次数:255
mapreduce原理【分区,分组】
分析这个原理,的原因是: 1、更好的理解MAPREDUCE的过程。 2、在二次排序时会用到这个原理,二次排序要重写分区方法,重写分组方法;如果原理没搞明白,就无法写二次排序的代码。Key默认分区默认分组自定义分区自定义分组Abc1231、使用系统默认分区方式,是按KEY进行分区。2、KEY相...
分类:其他好文   时间:2014-08-14 19:32:39    阅读次数:170
Hadoop的HDFS和Map/Reduce
HDFS HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点: 1)适合存储非常大的文件 2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式 3)适合部署在廉价的机器上 但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术): 1)不适合存储大量的小文件,因为受Namenode内...
分类:其他好文   时间:2014-08-14 16:46:28    阅读次数:260
HBase备份之ExportSnapshot或CopyTable
文章《HBase备份之导入导出》介绍了使用HBase的自带工具Export和Import来实现在主集群和从集群之间拷贝表的目的。本篇介绍一种相比导入导出而言,更快速的一种备份办法。即ExportSnapshot。 1、ExportSnapshot 和Export类似,ExportSnapshot也是使用MapReduce方式来进行表的拷贝。不过和Export不同,ExportSnapsho...
分类:其他好文   时间:2014-08-13 18:55:47    阅读次数:287
hadoop培训管理员认证
【课程内容】1、Hadoop分布式文件系统(HDFS)2、YARN/MapReduce的工作原理3、如何优化Hadoop机群所需要的硬件配置4、搭建Hadoop机群所需要考虑的网络因素5、Hadoop机群维护和控制6、如何利用Hadoop配置选项进行系统性能调优7、如何利用FairScheduler...
分类:其他好文   时间:2014-08-13 14:51:36    阅读次数:288
pig基础知识总结
Pig Latin UDF语句 REGISTER   在Pig运行时环境中注册一个JAR文件 DEFINE      为UDF、流式脚本或命令规范新建别名   Pig Latin命令类型 kill    中止某个MapReduce任务 exec 在一个新的Grunt shell程序中以批处理模式运行一个脚本 run   在当前Grunt外壳程序中运行程序 quit  退出解释器 ...
分类:其他好文   时间:2014-08-12 19:06:04    阅读次数:362
Hive运行架构及配置部署
Hive 运行架构 由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;    构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;    设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:            使用HQL作为查询接口;            使用HDFS作为存储底层;...
分类:其他好文   时间:2014-08-12 19:05:44    阅读次数:314
浅谈mapreduce程序部署
尽管我们在虚拟机client上能非常快通过shell命令,进行运行一些已经封装好实例程序,可是在应用中还是是自己敲代码,然后部署到server中去,以下,我通过程序进行浅谈一个程序的部署过程。在启动Hadoop之后,然后把程序达成可运行的jar包,并把对应的第三方jar包 包括进去。运行hadoop...
分类:其他好文   时间:2014-08-12 00:19:43    阅读次数:224
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!