码迷,mamicode.com
首页 > 其他好文 > 详细

Mahout的安装与配置

时间:2015-03-29 17:54:37      阅读:147      评论:0      收藏:0      [点我收藏+]

标签:

 

Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚类等。 Mahout最大的优点就是基于hadoop实现,把很多以前运行于单机上的算法,转化为了MapReduce模式,这样大大提升了算法可处理的数据量和处理性能。

 

下载Mahout,我下载的版本是Mahout0.9:mahout-distribution-0.9.tar.gz

 

解压:

技术分享

 

重命名:

技术分享

 

配置环境变量:

技术分享

 

使用命令 source/profile 使环境变量立即生效:

技术分享

 

验证Mahout是否安装成功:输入myhout,若列出一些算法,则成功

技术分享

 

运行一个Mahout实例,从网站下载测试数据,另存为 synthetic_control.data.txt 格式

启动Hadoop,在HDFS上创建文件夹testdata(必须命名为testdata)

然后将 synthetic_control.data.txt 上传至 testdata

技术分享

 

运行k-means算法,该算法会启动10个MapReduce Job任务

技术分享

 

下面是运行生成的结果:

技术分享

 

查看output目录:

技术分享

 

Mahout的安装与配置

标签:

原文地址:http://www.cnblogs.com/Murcielago/p/4375842.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!