hadoop 原生MapReduce 实现数据连接

时间：2014-10-20 02:16:39 阅读：155 评论：0 收藏：0 [点我收藏+]

标签：hadoop

业务逻辑

其实很简单，输入两个文件，一个作为基础数据(学生信息文件),一个是分数信息文件。
学生信息文件：存放学生数据：包括学号，学生名称

分数信息数据：存放学生的分数信息：包括学号，学科，分数。

我们将通过M/R实现根据学号，进行数据关联，最终结果为：学生名称，学科，分数。

模拟数据

学生数据

[hadoop@hadoop11 student_data]$ cat students.txt
1       Randy
2       Tom
3       kitty
4       Lucy
5       Lily
6       Bruce
7       King
8       Jay
9       Melody
10      Kimy
/////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////

分数数据

[hadoop@hadoop11 student_data]$ cat scores.txt
1       English 89
2       English 77
3       English 54
4       English 98
5       English 83
6       English 99
7       English 30
8       English 76
9       English 56
10      English 88
1       Math    79
2       Math    37
3       Math    65
4       Math    88
5       Math    89
6       Math    59
7       Math    60
8       Math    86
9       Math    56
10      Math    68
1       China   89
2       China   67
3       China   84
4       China   68
5       China   43
6       China   89
7       China   70
8       China   96
9       China   56
10      China   78
///////////////////////////////////////////////////////////////////////////////////////////////////////

实现

1）两个文本解析器，分别解析两个文本文件。

本文出自 “简单” 博客，请务必保留此出处http://dba10g.blog.51cto.com/764602/1565697

hadoop 原生MapReduce 实现数据连接

标签：hadoop

原文地址：http://dba10g.blog.51cto.com/764602/1565697

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行