HDFS小文件问题及解决方案:http://dongxicheng.org/mapreduce/hdfs-small-files-solution/Hadoop升级方案(一):Hadoop
1.0内部版本升级(初稿):http://dongxicheng.org/mapreduce-nextgen/...
分类:
其他好文 时间:
2014-05-10 02:08:24
阅读次数:
327
单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为MapReduce版"Hello
World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能是:统计一系列文本文件中每个单词出现的次数,如下图所示。现在我们以"hadoop...
分类:
其他好文 时间:
2014-05-10 01:54:48
阅读次数:
445
想象一个场景:现在我们要计算一个给定包中的一个类Tank的放run()的运行时间,并不是计算new
Tank().run()的时间,因为new包含JDK实例化的时间。这里要求是纯粹计算run方法的时间。方法有两种:继承和聚合。1、继承 1 package
program.proxy.model; 2...
分类:
其他好文 时间:
2014-05-04 11:45:24
阅读次数:
350
函数与分组查询数据系统函数分聚合函数、数据类型转换函数、日期函数、数学函数 . . . 1、
聚合函数 主要是对一组值进行计算,然后返回一个值。 聚合函数包括 sum(求和)、avg(求平均值)、min()、max()、...
分类:
数据库 时间:
2014-05-04 11:01:38
阅读次数:
402
MapReduce
job中,可以使用FileInputFormat和FileOutputFormat来对输入路径和输出路径来进行设置。在输出目录中,框架自己会自动对输出文件进行命名和组织,如:part-(m|r)-00000之类。但有时为了后续流程的方便,我们常需要对输出结果进行一定的分类和组织。...
分类:
其他好文 时间:
2014-05-04 10:22:15
阅读次数:
341
前段时间有一个业务需求,要在外网商品(TOPB2C)信息中加入联营自营识别的字段。但存在的一个问题是,商品信息和自营联营标示数据是两份数据;商品信息较大,是存放在hbase中。他们之前唯一的关联是url。所以考虑用url做key将两者做join,将联营自营标识信息加入的商品信息中,最终生成我需要的数...
分类:
其他好文 时间:
2014-05-04 10:02:22
阅读次数:
565
使用工具:
FineReport报表设计器,Access数据库
需求描述:
有两张表,订单表和订单明细表
1、订单表结构:
2、订单明细表结构:
目的:根据这两张表做出下面的一张表
分析:
1、因为在订单明细里订单ID可能出现多次,所以一定要先把订单ID去重,否则两张表join的时候,订单ID就会有重复的,这时用count函数求订单数量时就会出错了
所以先...
分类:
数据库 时间:
2014-05-04 09:26:59
阅读次数:
999
IPv6相对于IPv4的改进:1.改进的IP地址。2.简化的报头。3.移动性和安全性。4.丰富的过度方法。改进的IP报头改进了全局性和灵活性更好的聚合路由选择表中的路由前缀没有广播多宿主主机自动配置,可在地址中包含数据链路层地址。即插即用选项公有到私有端到端重新分配地址。重新..
分类:
其他好文 时间:
2014-05-03 15:03:13
阅读次数:
347
本文主要介绍了MapReduce中的Combiner操作。在MapReduce的执行步骤中,我们一共分了8步,其中Map中的最后一步规约操作就是今天要讲的Combiner。首先看一下前文中的计数器:我们可以发现,其中有两个计数器:Combineoutputrecords和Combineinputrecords,他们的计数都是0,这是..
分类:
其他好文 时间:
2014-05-03 15:00:55
阅读次数:
323
本文主要介绍了MapReduce中的自定义计数器的相关内容。在上次的单词统计例子中,我们可以看到MapReduce在执行过程中会有很多的控制台输出信息,其中有一个很关键的内容:计数器。如下图:可以看到最上方的关键字:Counters,这就表示计数器。在这里,只有一个制表符缩进的表示..
分类:
其他好文 时间:
2014-05-03 14:56:19
阅读次数:
336