文本挖掘是一个对具有丰富语义的文本进行分析,从而理解其所包含的内容和意义的过程。文本挖掘包含分词、文本表示、文本特征选择、文本分类、文本聚类、文档自动摘要等方面的内容。文本挖掘的具体流程图可下图所示:
我的项目是以复旦大学中文语料库和路透社英文语料库为数据集的,都是有类别的两层目录文本集。
不管你要做什么,你首先都要先读取文本,为了方便后面的操作,我写了几个工具类,这里先将文本读取Reade...
分类:
其他好文 时间:
2016-03-29 10:52:32
阅读次数:
291
建立文本数据数学描述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要采用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每一个文本的词条串被进一步转换为一个文本向量,向量的每一维对应一个词条,其值反映的是这个词条与这个文本之间的相似度。相似度有很多不同的计算方法,所以优化文本向量就是采用最为合适的计算方法来规范化文本向量,使其能更好...
分类:
其他好文 时间:
2016-03-29 10:48:22
阅读次数:
314
刚刚接触R语言和文本分析,为了将二者结合,试着对《红楼梦》进行分析,首先对《红楼梦》进行分词处理,并统计词频,同时画出标签云。 其实文本分析还可以分析其它很多东西,我的下一步打算分析新浪微博。现在先写一个小的分析,作为学习用。 文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的
分类:
其他好文 时间:
2016-03-21 18:22:35
阅读次数:
1138
在数据挖掘过程中,高维数据是非常棘手的研究对象。特别是在文本挖掘、图像处理和基因数据分析中,维度过高使很多学习器无法工作或效率降低,所以降维也是数据预处理过程的一项必要任务。降维大致有两大类别,一类是从原始维度中提取新的维度,例如主成分分析或因子分析,再或者是奇异值分解或是多维标度分析。另一类是从原
分类:
其他好文 时间:
2016-03-09 23:55:11
阅读次数:
242
def wordfeatures(word):
return {"cnword":word}
.....
classifier=nltk.NaiveBayesClassifier.train(samplewords)
#大学所属的类别 http://blog.csdn.net/myhaspl
print u"----大学所属的类别-----"
print classifier.class...
分类:
其他好文 时间:
2016-02-05 02:05:10
阅读次数:
240
#条件频率,每个词条在不同分类中出现的频率
print "------------------"
cfd=nltk.ConditionalFreqDist(samplewords)
fdist=cfd[u'财经']
for word in fdist:
print word
print "---------流动性出现次数-----------"
print cfd[u'财经'][u'...
分类:
其他好文 时间:
2016-02-02 15:10:51
阅读次数:
196
sample=cutstring(u"据悉,这辆汽车绰号野兽,野兽很可能于2017年1月份美国第45任总统就职时使用。目前,野兽的详细规格都属于绝密信息,但谍照显示野兽采用了凯迪拉克的最新护栅和前灯设计。")
tokenstr=nltk.word_tokenize(sample)
fdist3=nltk.FreqDist(tokenstr)
print "---美国出现的次数---"
print...
分类:
其他好文 时间:
2016-01-30 02:56:00
阅读次数:
137
tf–idf算法解释tf–idf, 是term frequency–inverse document frequency的缩写,它通常用来衡量一个词对在一个语料库中对它所在的文档有多重要,常用在信息检索和文本挖掘中。一个很自然的想法是在一篇文档中词频越高的词对这篇文档越重要,但同时如果这个词又在非常...
分类:
编程语言 时间:
2015-12-23 21:12:25
阅读次数:
1036
那几年。我学习机器学习的主要内容:1.机器学习基本导论,机器学习入门了解;2.线性回归与Logistic。xx业绩预測系统。智能交互统计系统等。3.岭回归。Lasso,变量选择技术。维度的技巧等技术;4.降维技术。xx指标设计,详细规范。5.线性分类器,Knn算法,朴素贝叶斯分类器。文本挖掘。XX智...
分类:
其他好文 时间:
2015-12-19 17:55:21
阅读次数:
141
特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改1.DF——基于文档频率的特征提取方法概念:DF(document frequency)指出现某个特征项的文档的频率。步骤:1).从训练语料中统计出保函某个特征的文档频率(个数) 2).根据设定的阈值(min&max)...
分类:
其他好文 时间:
2015-12-18 16:10:46
阅读次数:
159