搜索关键字：mahout，搜索到315个结果！码迷,mamicode.com！

写给大数据开发初学者的话

导读：第一章：初识Hadoop第二章：更高效的WordCount第三章：把别处的数据搞到Hadoop上第四章：把Hadoop上的数据搞到别处去第五章：快一点吧，我的SQL第六章：一夫多妻制第七章：越来越多的分析任务第八章：我的数据要实时第九章：我的数据要对外第十章：牛逼高大上的机器学习经常有初学 ...

分类：其他好文时间：2017-10-12 19:06:15 阅读次数：180

搜索系统11：协同过滤的数据源和遗留问题

前一文中已经对推荐算法做了个简单的介绍，最常用的就是协同过滤，可分为基于用户的或者基于作品的。我以mahout对这两个算法进行了测试，发现只用这两个算法来完成推荐的工作，还远远不够。这两算法有以下问题待解决: 1.数据源的广度和精度。算法需要大量的user_id,product_id,like_n ...

分类：其他好文时间：2017-10-10 19:13:34 阅读次数：176

Hadoop家族学习路线图

原文出自 http://blog.fens.me/Hadoop-family-roadmap/ Hadoop家族学习路线图 Hadoop家族系列文章，主要介绍hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, Hbase, Sqoop, Mahout, Zookeeper, A ...

分类：其他好文时间：2017-08-25 15:04:37 阅读次数：143

准备Mahout所用的向量ApplesToVectors

<strong><span style="font-size:18px;">/*** * @author YangXin * @info 准备Mahout所用的向量 * 将苹果的信息转化为输入的向量 */ package unitEight; import java.util.ArrayList; ...

分类：移动开发时间：2017-08-18 18:27:03 阅读次数：210

大数据(十一) - Mahout

传统数据挖掘/机器学习库存在的问题缺少一个活跃的技术社区扩展性差文档化差，缺少实例不开源。商业化库通常由研究机构开发实施性差 Apache Mahout长处技术社区活跃扩展性好文档化好。实例丰富 100%源码开源易于使用 Apache Mahout是什么基于MapReduce开 ...

分类：其他好文时间：2017-08-14 16:38:33 阅读次数：283

转:Hadoop家族学习路线图

Hadoop家族学习路线图 Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Ooz ...

分类：其他好文时间：2017-08-09 12:53:05 阅读次数：232

Hadoop家族学习路线图

Hadoop家族学习路线图 Hadoop家族系列文章，主要介绍Hadoop家族产品，常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa，新增加的项目包括，YARN, Hcatalog, Ooz ...

分类：其他好文时间：2017-08-07 10:16:29 阅读次数：165

mahout demo——本质上是基于Hadoop的分步式算法实现，比如多节点的数据合并，数据排序，网路通信的效率，节点宕机重算，数据分步式存储

摘自：http://blog.fens.me/mahout-recommendation-api/ 测试程序：RecommenderTest.java 测试数据集：item.csv 测试程序：org.conan.mymahout.recommendation.job.RecommenderTest. ...

分类：编程语言时间：2017-07-27 10:40:36 阅读次数：177

HADOOP生态圈以及各组成部分的简介

重点组件：HDFS：分布式文件系统MAPREDUCE：分布式运算程序开发框架Hive：基于大数据技术（文件系统+运算框架）的SQL数据仓库工具Hbase：基于Hadoop的分布式海量数据库ZOOKEEPER：分布式协调服务基础组件Mahout：基于mapreduce/Spark/flink等分布式运算框架的机器学习算法库Ooz..

分类：其他好文时间：2017-07-26 21:53:45 阅读次数：180

Hive 外部表分区表

之前主要研究oracle与mysql，认为hive事实上就是一种数据仓库的框架，也没有太多另类，所以主要精力都在研究hadoop。hbase，sqoop，mahout，近期略微用心看了下hive。事实上hive还是比我想象中好用的多，心里有点点暗爽，不论是与hadoop的衔接，还是在对外查询分析，定 ...

分类：其他好文时间：2017-07-22 23:39:54 阅读次数：225