标签:
这个过程,是针对如何在eclipse中编写hadoop2.x对应的MapReduce程序,然后打包并上传到hadoop集群执行的过程。
1. 下载hadoop2.x的tar包,解压到某个目录下(注: 不是源码包,是安装包)
2. 将hadoop2x-eclipse插件导入eclipse:
(1) 编译插件。插件源码地址 https://github.com/winghc/hadoop2x-eclipse-plugin
(2) 把编译后的hadoop2x-eclipse*.jar包拷贝到eclipse/plugins目录下
(3) 重启eclipse
(4) eclipse —> windows —> open perspective,打开MapReduce视图
(5) eclipse —> windows —>preferences —> Hadoop MapReduce, 配置hadoop安装路径,指向1中解压hadoop tar包后的目录。
3. 创建MapReduce项目
(1) 创建项目: eclipse —> File —> New —> Map/Reduce Project。 创建完项目后,会在项目目录下发现一系列依赖的jar包,包括hadoop-hdfs*, hadoop-yarn*等包。如果没有,那么写代码的时候会报错,需要手工导入。
项目中会看到的一系列jar包:
(2) 然后可以开始开发了。在项目中通过new —> Mapper / Reducer / Driver 创建出的map或reduce文件,会自动把引用,继承和结构都生成,只需要添加实现就好。
结构已经自动生成好了的map文件:
4. 打包,上传到集群,运行
(1) eclipse —> File —> Export —> Jar File。 导出jar包
(2) 把jar包上传到集群中,运行:
hadoop jar wordcount.jar org.apache.hadoop.wordcount arg0 arg1 ...
版权声明:本文为博主原创文章,未经博主允许不得转载。
标签:
原文地址:http://blog.csdn.net/amber_amber/article/details/47396419