错误一:
Hive的where中不能用别名,
错误二:
hive的groupby中不能用自定义函数,否则报错(用嵌套select代替)
错误三:
执行:$ ./hive_game_operationstatis5.sh
报错信息如下:
./hive_game_operationstatis5.sh:line 11: [: missing `]'
./hive_ga...
分类:
数据库 时间:
2014-10-14 22:10:29
阅读次数:
240
基于item的推荐是常用并且高效的一种推荐方式,最重要的是它可以做实事推荐。...
分类:
编程语言 时间:
2014-10-11 14:41:25
阅读次数:
337
“探索推荐引擎内部的秘密”系列将带领读者从浅入深的学习探索推荐引擎的机制,实现方法,其中还涉及一些基本的优化方法,例如聚类和分类的应用。同时在理论讲解的基础上,还会结合 Apache Mahout 介绍如何在大规模数据上实现各种推荐策略,进行策略优化,构建高效的推荐引擎的方法。本文作为这个系列的第一...
分类:
其他好文 时间:
2014-10-10 21:09:54
阅读次数:
221
Apache Mahout项目主要包括以下五个部分:
频繁模式挖掘:挖掘数据中频繁出现的项集。
聚类:将诸如文本、文档之类的数据分成局部相关的组。
分类:利用已经存在的分类文档训练分类器,对未分类的文档进行分类。
推荐引擎(协同过滤):获得用户的行为并从中发现用户可能喜欢的事务。
频繁子项挖掘:利用一个项集(查询记录或购物目录)去识别经常一起出现的项目。
在Maho...
分类:
其他好文 时间:
2014-10-06 00:55:49
阅读次数:
346
Mahout简介一、mahout是什么Apache Mahout是ApacheSoftware Foundation (ASF)旗下的一个开源项目,提供了一些经典的机器学习的算法,皆在帮助开发人员更加方便快捷地创建智能应用程序。目前已经有了三个公共发型版本,通过ApacheMahout库,Mahou...
分类:
其他好文 时间:
2014-10-04 12:13:46
阅读次数:
385
Hadoop是云计算的事实标准软件框架,是云计算理念、机制和商业化的具体实现,是整个云计算技术学习中公认的核心和最具有价值内容。 工业和信息化部电信研究院于2014年5月发布的“大数据白皮书”中指出:“2012 年美国联邦政府就在全球率先推出“大数据行动计划(Big data initiative)...
分类:
移动开发 时间:
2014-09-13 17:10:15
阅读次数:
379
FP-Growth是一种常被用来进行关联分析,挖掘频繁项的算法。与Aprior算法相比,FP-Growth算法采用前缀树的形式来表征数据,减少了扫描事务数据库的次数,通过递归地生成条件FP-tree来挖掘频繁项。参考资料[1]详细分析了这一过程。事实上,面对大数据量时,FP-Growth算法生成.....
分类:
其他好文 时间:
2014-09-13 15:46:05
阅读次数:
406
引言
之前成功在服务器上为Mahout0.9打patch,使其支持Hadoop2.2.0。
今天的需求是:在Win7+Eclipse+Maven环境下开发Mahout程序,打jar包放到集群上,使其在Hadoop2.2.0下正常运行。
过程
步骤一:Eclipse下创建Maven工程
pom.xml:
1.引入mahout依赖
depe...
引言
Taste是曾经风靡一时的推荐算法框架,后来被并入Mahout中,Mahout的部分推荐算法基于Taste实现。
下文介绍基于Taste实现最常用的UserCF和ItemCF。
本文不涉及UserCF和ItemCF算法的介绍,这方面网上资料很多,本文仅介绍如何基于Mahout编程实现。
欢迎转载,请注明来源:
步骤一:构建数据模型...
分类:
其他好文 时间:
2014-09-10 17:45:26
阅读次数:
183