//map类 package hadoop3; import java.io.IOException; import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop ...
分类:
其他好文 时间:
2016-09-14 16:46:30
阅读次数:
121
需求:单表关联问题。从文件中孩子和父母的关系挖掘出孙子和爷奶关系 样板:child-parent.txt xiaoming daxiong daxiong alice daxiong jack 输出:xiaoming alice xiaoming jack 分析设计: mapper部分设计: 1、< ...
分类:
其他好文 时间:
2016-08-11 06:19:50
阅读次数:
246
首先考虑表的自连接,其次是列的设置,最后是结果的整理. 文件内容: 输出结果: 参考:《Hadoop实战》 ...
分类:
其他好文 时间:
2016-05-12 06:53:18
阅读次数:
253
1. 实例描述 单表关联这个实例要求从给出的数据中寻找出所关心的数据,它是对原始数据所包含信息的挖掘。 实例中给出child-parent 表, 求出grandchild-grandparent表。 输入数据 file01: 希望输出为: 2. 设计思路 1. 在map阶段,将原数据进行分割,将pa ...
分类:
其他好文 时间:
2016-04-11 15:45:39
阅读次数:
180
1、项目名称:2、项目数据:chile parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry AliceTerry JessePhilip TerryPhilip AlimaMark Te...
分类:
其他好文 时间:
2015-12-05 12:44:33
阅读次数:
268
单表关联实例中给出child-parent(孩子——父母)表,要求输出grandchild-grandparent(孙子——爷奶)表。file:child parentTom LucyTom JackJone LucyJone J...
分类:
其他好文 时间:
2015-11-22 20:23:25
阅读次数:
406
问题描述:两种类型输入文件:address类(地址)和company类(公司)进行一对多的关联查询,得到地址名(例如:Beijing)与公司名(例如:Beijing JD、Beijing Red Star)的关联信息。1.map阶段:对比于前者的单表关联可知,reduce阶段的key必须为关联两表的...
分类:
其他好文 时间:
2015-08-20 20:43:19
阅读次数:
201
多表关联和单表关联类似,它也是通过对原始数据进行一定的处理,从其中挖掘出关心的信息。如下
输入的是两个文件,一个代表工厂表,包含工厂名列和地址编号列;另一个代表地址表,包含地址名列和地址编号列。
要求从输入数据中找出工厂名和地址名的对应关系,输出工厂名-地址名表
样本如下:
factory:
factoryname addressed
Beijing Red Star 1
Shenzhe...
分类:
其他好文 时间:
2015-06-23 13:42:16
阅读次数:
121
设计思路
分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。
连接结果中除去连接的两列就是所需要的结果——"grandchild--grandparent"表。要用MapReduce解决这个实例,首先应该考虑如何实现表的自连接;其次就是连接列的设置;最后是结果的整理。
考虑到MapReduc...
分类:
其他好文 时间:
2015-06-20 18:30:55
阅读次数:
205
简化陆喜恒. Hadoop实战(第2版)5.4单表关联的代码时遇到空指向异常,经分析是逻辑问题,在此做个记录。环境:Mac OS X 10.9.5, IntelliJ IDEA 13.1.5, Hadoop 1.2.1改好的代码如下,在reduce阶段遇到了NullPointerException。...
分类:
其他好文 时间:
2014-10-07 15:34:23
阅读次数:
175