声明:1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究。
2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0。
3)统计词频工作在单节点的伪分布上,至于真正实际集群的配置操作还没有达到,希望能够由本文抛砖引玉。(一)Hadoop的配置修正 网上有很多...
分类:
其他好文 时间:
2014-05-05 21:54:47
阅读次数:
456
在Hadoop集群环境下安装Mahout。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout
0.91、简介mahout项目主页:https://mahout.apache.org/下载二进制包,上传到服务器。2、安装用集群环境用户安装,解压二进制包。...
分类:
其他好文 时间:
2014-05-05 21:35:23
阅读次数:
429
Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget
http://archive.ics.uci.edu/ml/databas...
分类:
其他好文 时间:
2014-05-04 12:34:58
阅读次数:
340
之前在写MR
job的时候,由于要在云梯,或者一淘的开发集群上运行;所以处理方法是,在本地打成jar包,然后scp到客户端网关机上,然后在提交job运行。这样的问题时,有时候如果遇到一些逻辑上的问题,job跑挂了。必须在本地修改程序,然后重新打包,scp,再运行,这样比较麻烦;询问了一圈,觉得采用M...
分类:
其他好文 时间:
2014-05-04 10:54:29
阅读次数:
427
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476
利用JavaAPI访问HDFS的文件
1、重读配置文件core-site.xml要利用Java客户端来存取HDFS上的文件,不得不说的是配置文件hadoop-0.20.2/conf/core-site.xml了,最初我就是在这里吃了大亏,所以我死活连不上HDFS,文件无法创建、读取。hadoop.t...
分类:
编程语言 时间:
2014-05-03 22:10:40
阅读次数:
300
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
呵呵吧。
前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:
其他好文 时间:
2014-05-03 21:51:45
阅读次数:
344
dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
分类:
其他好文 时间:
2014-05-03 21:37:44
阅读次数:
308
本文主要介绍了MapReduce中的Combiner操作。在MapReduce的执行步骤中,我们一共分了8步,其中Map中的最后一步规约操作就是今天要讲的Combiner。首先看一下前文中的计数器:我们可以发现,其中有两个计数器:Combineoutputrecords和Combineinputrecords,他们的计数都是0,这是..
分类:
其他好文 时间:
2014-05-03 15:00:55
阅读次数:
323
本文主要介绍了MapReduce中的自定义计数器的相关内容。在上次的单词统计例子中,我们可以看到MapReduce在执行过程中会有很多的控制台输出信息,其中有一个很关键的内容:计数器。如下图:可以看到最上方的关键字:Counters,这就表示计数器。在这里,只有一个制表符缩进的表示..
分类:
其他好文 时间:
2014-05-03 14:56:19
阅读次数:
336