源代码下载:NaviveBayesClassify.rarPreface文本的分类和聚类是一个比较有意思的话题,我以前也写过一篇blog《基于K-Means的文本聚类算法》,加上最近读了几本数据挖掘和机器学习的书籍,因此很想写点东西来记录下学习的所得。在本文的上半部分《基于朴素贝叶斯分类器的文本分类...
分类:
其他好文 时间:
2014-09-18 22:02:34
阅读次数:
325
常用的分类算法主要有决策树,贝叶斯,KNN,SVM,神经网络以及基于规则的分类算法。本文主要对各种分类算法的特性做一下总结。1. 决策树算法决策树算法是一种构建分类模型的非参数方法,它不要求任何先验假设,不假定类和其他属性服从一定的概率分布。找到最佳决策树是NP完全问题,许多决策树算法都采取启发式的...
分类:
其他好文 时间:
2014-09-02 10:16:54
阅读次数:
341
初始的想法就是,结合不同的分类算法来给出综合的结果,会比较准确一些 称为ensemble methods or meta-algorithms,集成方法或元算法 集成方法有很多种,可以是不同算法之间的,也可以是同一个算法但不同参数设置之间的,也可以是将数据集分成多分给不同的分类器之间的 总的来说,有...
分类:
其他好文 时间:
2014-08-28 12:58:39
阅读次数:
366
AdaBoost算法 基本思想是,对于一个复杂的问题,单独用一个分类算法判断比较困难,那么我们就用一组分类器来进行综合判断,得到结果,“三个臭皮匠顶一个诸葛亮” 专业的说法, 强可学习(strongly learnable),存在一个多项式算法可以学习,并且准确率很高 弱可学习(weakly lea...
分类:
其他好文 时间:
2014-08-26 17:06:26
阅读次数:
247
文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构...
分类:
其他好文 时间:
2014-08-18 17:52:42
阅读次数:
193
算法简单介绍NBC是应用最广的分类算法之中的一个。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同一时候,NBC模型所需预计的參数非常少,对缺失数据不太敏感,算法也比較简单。算法如果给定目标值时属性之间互相条件独立。算法输入训练数据T={(x1,y1),(x2,y2),…...
分类:
其他好文 时间:
2014-08-16 22:26:21
阅读次数:
353
算法简介
NBC是应用最广的分类算法之一。朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。同时,NBC模型所需估计的参数很少,对缺失数据不太敏感,算法也比较简单。
算法假设
给定目标值时属性之间互相条件独立。
算法输入
训练数据 T={(x1,y1),(x2,y2),……,(xn,yn)}
待分类数据x0=(x0(1),x0(2),……,x0(n)...
分类:
其他好文 时间:
2014-07-28 16:17:13
阅读次数:
412
算法简介:
K-Means算法是输入聚类个数k,以及包含n个数据对象的数据库,输出满足方差最小标准的k个聚类。并使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中
对象相似度较小。
算法假设:
均方误差是计算群组分散度的最佳参数。
算法输入:
聚类个数k;...
分类:
其他好文 时间:
2014-07-28 00:03:39
阅读次数:
343
一篇基于最大最小分类算法的好文章.简单明了.有所改进...
分类:
其他好文 时间:
2014-07-20 22:12:43
阅读次数:
265