1、概述Hadoop Streaming是Hadoop提供的一个编程工具,它允许用户使用任何可执行文件或者脚本文件作为Mapper和Reducer,例如:采用shell脚本语言中的一些命令作为mapper和reducer(cat作为mapper,wc作为reducer)$HADOOP_HOME/bi...
分类:
其他好文 时间:
2014-06-19 06:10:13
阅读次数:
345
问题导读:1.如果获取hadoop srcmaven包?2.编译hadoop需要装哪些软件?3.如何编译hadoop2.4?扩展:编译hadoop为何安装这些软件?本文链接http://www.aboutyun.com/thread-8130-1-1.html一、首先下载hadoop源码包下载的方式...
分类:
系统相关 时间:
2014-06-19 06:05:04
阅读次数:
329
转自:使用Python实现Hadoop MapReduce程序英文原文:Writing an Hadoop MapReduce Program in Python根据上面两篇文章,下面是我在自己的ubuntu上的运行过程。文字基本采用博文使用Python实现Hadoop MapReduce程序, 打...
分类:
编程语言 时间:
2014-06-19 06:01:59
阅读次数:
366
目的这份文档描写叙述了怎样安装、配置和管理从几个节点到有数千个节点的Hadoop集群。玩的话,你可能想先在单机上安装。(看单节点配置)。准备从Apache镜像上下载一个Hadoop的稳定版本号。安装安装一个Hadoop集群,一般包含分发软件到全部集群中的机器上或者是安装RPMs。一般地,集群中的一台...
分类:
其他好文 时间:
2014-06-19 00:19:50
阅读次数:
372
1、检查空间是否够用(我的就是这个原因) df -hl 查看,如果可用的很少,那就是了。2、datanode是否正常启动 访问:50070,查看datanode的个数,如果不对应,重新启动3、是否在safemode下 hadoop dfsadmin -safemode get,查看,leave...
分类:
其他好文 时间:
2014-06-19 00:14:41
阅读次数:
306
使用 Apache Pig 从大数据集中获得所需的信息Apache Pig 是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似 SQL 的查询,Pig 可以简化 Hadoop 的使用。本文将探索 Pig 背后的语言,并在...
分类:
其他好文 时间:
2014-06-18 23:59:12
阅读次数:
305
Hadoop Pipes Exception: Illegal text protocol command对于Hadoop pipes 出现这样的错误,基本上编译代码依赖的.so和.a 版本不匹配网上也没有给出更多信息,我的同事最近回复了解决办法,可以参考https://groups.google....
分类:
其他好文 时间:
2014-06-15 14:37:31
阅读次数:
243
推荐系统,主要采用对历史数据的分析计算,得到某种模型,对未来的数据进行预测。说到底,还是分类问题。
Mahout,是一个可扩展的机器学习库,可用于单机,也可用于Hadoop。
Mahout的API非常简单,实现一个推荐功能只需要如下的几行代码:
DataModel model = new FileDataModel(new File(file));//建立数据模型
UserSimil...
分类:
其他好文 时间:
2014-06-15 12:35:30
阅读次数:
193
【甘道夫】Hadoop2.2.0 NN HA详细配置+Client透明性试验【完整版】...
分类:
其他好文 时间:
2014-06-15 12:30:52
阅读次数:
296
1、新建MR工程 2、设置工程名字 3、finish 4、使用navicate浏览,使用package太长了。 5、将hadoop例子下的WordCount复制过来,当然我自己打的,重新熟悉一下。 改改包名即可。 一个示例完成。6、linux下准备数据文件 >hadoop dfs -m...
分类:
其他好文 时间:
2014-06-15 10:51:31
阅读次数:
293