本博客通过对当前比较成熟的聚类算法分析,介绍如何对非结构的数据(文档)做聚类算法;如何利用搜索引擎的相关知识来解决文本聚类问题等...
分类:
编程语言 时间:
2015-04-10 13:38:24
阅读次数:
279
本节内容: 1、混合高斯模型; 2、将混合高斯模型应用到混合贝叶斯模型;(应用:文本聚类) 3、结合EM算法,讨论因子分析算法; 4、高斯分布的有用性质。混合高斯模型将一般化的EM算法流程(下载笔记)应用到混合高斯模型因子分析模型因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系,即...
分类:
其他好文 时间:
2015-04-02 14:44:36
阅读次数:
298
Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
K-Means是常用的聚类算法,与其他聚类算法相比,其时间复杂度低,聚类的效果也还不错,本文介绍一下k-means算法并在文本分类上应用。
分类:
其他好文 时间:
2014-08-18 18:08:12
阅读次数:
318
项目原理概述利用sqoop将数据从MySQL导入到HDFS中,利用mahout的LDA的cvb实现对输入数据进行聚类,并将结果更新到数据库中。数据流向图如下mahout算法分析输入数据格式为的matrix矩阵,key为待聚类文本的数字编号,value为待聚类文本的单词向量Vector, Vector...
分类:
其他好文 时间:
2014-07-07 10:43:16
阅读次数:
1186