1运行环境说明... 31.1硬软件环境... 31.2机器网络环境... 32书面作业0:搭建Mahout环境... 32.1Mahout介绍... 32.2部署过程... 42.2.1 下载Mahout42.2.2 上传Mahout42.2.3 解压缩... 42.2.4 设置环境变量... 5...
分类:
其他好文 时间:
2015-01-12 09:12:25
阅读次数:
239
mahout(或者hadoop)优先使用用户指定的classpath加载jar包
问题:使用mahout0.8时,出现java.lang.NoSuchMethodError: org.apache.lucene.util.PriorityQueue
类似http://www.warski.org/blog/2013/10/using-amazons-elastic-map-reduce-to-compute-recommendations-with-apache-mahout-0-8/
原因:
$HADO...
分类:
编程语言 时间:
2015-01-07 23:36:11
阅读次数:
297
深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)适合人群:高级课时数量:17课时用到技术:MapReduce并行分词程序 Mahout涉及项目:Hadoop综合实战-文本挖掘项目 Mahout数据挖掘工具咨询QQ:1840215592课程介绍本课程主要涉及以下内容的...
分类:
其他好文 时间:
2015-01-05 12:52:24
阅读次数:
532
1.下载ubuntu的iso2.安装虚拟机,vmware,最好英文原版3.在vm里面安装ubuntu,安装vm tools4.本地连接设置为共享上网,虚拟机采用NAT,打开ubuntu,自动连接上网5.JDK下载安装6.hadoop安装,http://www.cnblogs.com/zhengyuh...
分类:
编程语言 时间:
2015-01-01 23:48:07
阅读次数:
241
2015年其实才真正算的上是我的大数据元年,我需要在这一年中为自己的职业发展打好地基,所以需要做到但不限于:1、熟练使用mr,yarn,spark(spark sql,spark streaming,ml....),hive,mahout,hbase进行开发,并熟悉调优,及其中的执行原理。2、阅读f...
分类:
其他好文 时间:
2014-12-31 07:35:26
阅读次数:
219
maven打包hadoop项目(含第三方jar)
问题背景:
1 写map-reduce程序,用到第三方jar,怎么打包并提交项目到服务器执行。
2 mahout中itembased算法,将uid从string映射为long。
我这里实现的具体功能是:
Mahout的itembased算法的数据格式是:uid,vid,score。其中uid和vid必须是数字型(long),s...
分类:
编程语言 时间:
2014-12-25 01:29:52
阅读次数:
305
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。Yarn是目前公认的最佳的分布式集群资源管理框架; Mahout是目前数据挖掘领域的王者; 工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012...
分类:
其他好文 时间:
2014-12-24 22:41:30
阅读次数:
305
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。Yarn是目前公认的最佳的分布式集群资源管理框架;Mahout是目前数据挖掘领域的王者;工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012年美...
分类:
其他好文 时间:
2014-12-23 06:40:35
阅读次数:
183
相似度的计算是数据挖掘与机器学习中的一个永恒的话题,为了能更好地理解与比较各种相似度计算的方法,能灵活运用到各种计算模型中,自己在研究机器学习之Mahout框架时,源代码中也实现了很多相似度计算方法,本文结合机器学习Mahout框架中各种相似度计算方法的实现,并且从代数角度和几何角度来理解相似度的计算方法。并阐述其优缺点,及自己的适用场景。本文通过总结和归纳,一共总结了9中距离测量方法,方法一到方法七是Mahout中完完本本实现了,其中前面是方面名,破折号后是Mahout中各方法实现的类名,本文结合Maho...
分类:
其他好文 时间:
2014-12-23 00:19:48
阅读次数:
1390
基于mahout的itembased算法
其实mahout分布式上只是实现了部分算法。比如推荐算法中Item-based和slopone都有hadoop实现和单机版实现,User-based没有分布式实现。
Mahout已实现的算法(单机版和分布式版)
https://mahout.apache.org/users/basics/algorithms.html
大多...
分类:
编程语言 时间:
2014-12-23 00:18:47
阅读次数:
230