背景&目标:
1、sport.tar 是体育类的文章,一共有10个类别;
用这些原始材料构造一个体育类的文本分类器,并测试对比bayes和cbayes的效果;
记录分类器的构造过程和测试结果。
2、user-sport.tar 是用户浏览的文章,每个文件夹对应一个用户;
利用上题构造的文本分类器,计算每个用户浏览各类文章的占比;
记录计算过程和结果。...
分类:
其他好文 时间:
2014-05-09 14:03:40
阅读次数:
408
SVD原理:
http://blog.csdn.net/wuyanyi/article/details/7964883
分类:
其他好文 时间:
2014-05-08 14:43:13
阅读次数:
317
在Hadoop集群环境下安装Mahout。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout
0.91、简介mahout项目主页:https://mahout.apache.org/下载二进制包,上传到服务器。2、安装用集群环境用户安装,解压二进制包。...
分类:
其他好文 时间:
2014-05-05 21:35:23
阅读次数:
429
Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget
http://archive.ics.uci.edu/ml/databas...
分类:
其他好文 时间:
2014-05-04 12:34:58
阅读次数:
340
一、Mahout简介
查了Mahout的中文意思——驭象的人,再看看Mahout的logo,好吧,想和小黄象happy地玩耍,得顺便陪陪这位驭象人耍耍了...
附logo:
(就是他,骑在象头上的那个Mahout)
步入正文:
Mahout 是一个很强大的数据挖掘工具,是一个分布式机器学习算法的集合,包括:被称为Taste的分布式协同过滤的实现、分类、聚...
分类:
其他好文 时间:
2014-04-27 19:59:55
阅读次数:
569