Training入口package org.wordCount;import java.util.ArrayList;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop....
分类:
其他好文 时间:
2015-11-14 16:30:07
阅读次数:
540
LibSVM使用指南本文包含以下几个部分:支持向量机--SVM简介LibSVM的安装LibSVM的使用LibSVM参数调优Java版LibSVM库函数的调用SVM简介在进行下面的内容时我们认为你已经具备了数据挖掘的基础知识。SVM是新近出现的强大的数据挖掘工具,它在文本分类、手写文字识别、图像分类、...
分类:
其他好文 时间:
2015-11-11 11:24:17
阅读次数:
335
贝叶斯定理:X是已知条件,H是假设。映射到文本分类中,X就是给定的测试文档,H是文档属于的类别。朴素贝叶斯分类:即求出所有类的P(Ci|X),概率最大的类为预测类。因为P(X)是一样的,只需求P(X|C)P(C)即可。(1)P(Ci)=Ci类文档数/训练文档集总文档数(2)P(X|Ci)不好求,因此...
分类:
其他好文 时间:
2015-11-08 14:36:43
阅读次数:
263
主题模型(topic modeling)是一种常见的机器学习应用,主要用于对文本进行分类。传统的文本分类器,例如贝叶斯、KNN和SVM分类器,只能将测试对象分到某一个类别中,假设我给出三个分类:“算法”、“网络”和“编译”让其判断,这些分类器往往将对象归到某一类中。但是如果一个外行完全给不出备选类别...
分类:
其他好文 时间:
2015-10-28 20:51:38
阅读次数:
247
数据挖掘-关联分析频繁模式挖掘Apriori、FP-Growth及Eclat算法的JAVA及C++实现:网址:http://blog.csdn.net/yangliuy/article/details/7494983数据挖掘-基于贝叶斯算法及KNN算法的newsgroup18828文本分类器的JAV...
分类:
编程语言 时间:
2015-10-26 13:39:30
阅读次数:
287
利用向量空间模型进行文本分类的思路主要基于邻近假设(contiguity hypothesis)。 邻近假设: ????同一类的文档会构成一个邻近区域,而不同类的邻近区域之间是互不重叠的。 1、Rocchio方法 ????...
分类:
其他好文 时间:
2015-10-22 07:04:55
阅读次数:
144
1、朴素贝叶斯假设 ????为了处理这种维数过高的情况,我们做一个假设:X的每一维特征之间都是独立的。这也就是朴素贝叶斯假设。 根据独立分布的条件,我们就能够容易地写出P(d|C),如下: ????...
分类:
其他好文 时间:
2015-10-22 01:41:48
阅读次数:
227
主要内容:1、动机2、基于朴素贝叶斯的文本分类器3、python实现一、动机之前介绍的朴素贝叶斯分类器所使用的都是结构化的数据集,即每行代表一个样本,每列代表一个特征属性。但在实际中,尤其是网页中,爬虫所采集到的数据都是非结构化的,如新闻、微博、帖子等,如果要对对这一类数据进行分类,应该怎么办呢?例...
分类:
其他好文 时间:
2015-10-06 16:41:21
阅读次数:
370
当前数据挖掘技术使用最为广泛的莫过于文本挖掘领域,包括领域本体构建、短文本实体抽取以及代码的语义级构件方法研究。常用的数据挖掘功能包括分类、聚类、预测和关联四大模型。本文针对四大模型之一的分类进行讨论。分类算法包括回归、决策树、支持向量机、贝叶斯等,显然,不少涉及机器学习的知识(随后会写些机器学习专...
分类:
其他好文 时间:
2015-09-29 20:14:57
阅读次数:
152
概率是许多机器学习算法的基础,在前面生成决策树的过程中使用了一小部分关于概率的知识,即统计特征在数据集中取某个特定值的次数,然后除以数据集的实例总数,得到特征取该值的概率。之前的基础实验中简单实现了朴素贝叶斯分类器,并正确执行了文本分类,这一节将贝叶斯运用到实际场景,垃圾邮件过滤这一实际应用。...
分类:
其他好文 时间:
2015-09-15 00:18:48
阅读次数:
232