导读: 第一章:初识Hadoop第二章:更高效的WordCount第三章:把别处的数据搞到Hadoop上第四章:把Hadoop上的数据搞到别处去第五章:快一点吧,我的SQL第六章:一夫多妻制第七章:越来越多的分析任务第八章:我的数据要实时第九章:我的数据要对外第十章:牛逼高大上的机器学习 经常有初学 ...
分类:
其他好文 时间:
2017-10-12 19:06:15
阅读次数:
180
前一文中已经对推荐算法做了个简单的介绍,最常用的就是协同过滤,可分为基于用户的或者基于作品的。我以mahout对这两个算法进行了测试,发现只用这两个算法来完成推荐的工作,还远远不够。这两算法有以下问题待解决: 1.数据源的广度和精度。 算法需要大量的user_id,product_id,like_n ...
分类:
其他好文 时间:
2017-10-10 19:13:34
阅读次数:
176
原文出自 http://blog.fens.me/Hadoop-family-roadmap/ Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, Hbase, Sqoop, Mahout, Zookeeper, A ...
分类:
其他好文 时间:
2017-08-25 15:04:37
阅读次数:
143
<strong><span style="font-size:18px;">/*** * @author YangXin * @info 准备Mahout所用的向量 * 将苹果的信息转化为输入的向量 */ package unitEight; import java.util.ArrayList; ...
分类:
移动开发 时间:
2017-08-18 18:27:03
阅读次数:
210
传统数据挖掘/机器学习库存在的问题 缺少一个活跃的技术社区 扩展性差 文档化差,缺少实例 不开源。商业化库 通常由研究机构开发 实施性差 Apache Mahout长处 技术社区活跃 扩展性好 文档化好。实例丰富 100%源码开源 易于使用 Apache Mahout是什么 基于MapReduce开 ...
分类:
其他好文 时间:
2017-08-14 16:38:33
阅读次数:
283
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Ooz ...
分类:
其他好文 时间:
2017-08-09 12:53:05
阅读次数:
232
Hadoop家族学习路线图 Hadoop家族系列文章,主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Ooz ...
分类:
其他好文 时间:
2017-08-07 10:16:29
阅读次数:
165
摘自:http://blog.fens.me/mahout-recommendation-api/ 测试程序:RecommenderTest.java 测试数据集:item.csv 测试程序:org.conan.mymahout.recommendation.job.RecommenderTest. ...
分类:
编程语言 时间:
2017-07-27 10:40:36
阅读次数:
177
重点组件:HDFS:分布式文件系统MAPREDUCE:分布式运算程序开发框架Hive:基于大数据技术(文件系统+运算框架)的SQL数据仓库工具Hbase:基于Hadoop的分布式海量数据库ZOOKEEPER:分布式协调服务基础组件Mahout:基于mapreduce/Spark/flink等分布式运算框架的机器学习算法库Ooz..
分类:
其他好文 时间:
2017-07-26 21:53:45
阅读次数:
180
之前主要研究oracle与mysql,认为hive事实上就是一种数据仓库的框架,也没有太多另类,所以主要精力都在研究hadoop。hbase,sqoop,mahout,近期略微用心看了下hive。事实上hive还是比我想象中好用的多,心里有点点暗爽,不论是与hadoop的衔接,还是在对外查询分析,定 ...
分类:
其他好文 时间:
2017-07-22 23:39:54
阅读次数:
225