码迷,mamicode.com
首页 > 编程语言 > 详细

使用R语言进行主题发现(一)

时间:2014-11-22 11:49:12      阅读:752      评论:0      收藏:0      [点我收藏+]

标签:blog   http   io   ar   使用   sp   文件   数据   on   

写作目的

最近由于研究需要,使用R语言对文本进行了主题发现,下面对具体过程进行记录。

步骤一:读取文本并进行预处理

本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析,文件名为download_2.txt 目录为c:\\data\\,具体代码为:

 

#文件路径
textfile<-"C:\\data\\download_1.txt"
#按行读取该文本到变量bigdata
bigdata<-readLines(textfile)
#使用正则表达式对记录中的摘要进行提取
doc<-grep("^AB.*?",bigdata)
#删除文件开头的AB 字符,得到摘要列表
doc<-sub("^AB ","",doc)

步骤二:使用tm包建立DocumentTermMatrix矩阵

将摘要信息读取doc变量后,接下来就需要使用tm包对文本进行处理了.

#加载tm包
library(tm)
#建立语料库
doc.vec<-VectorSource(doc)
doc.corpus<-Corpus(doc.vec)
#进行预处理
doc.corpus<-tm_map(doc.corpus,tolower)
doc.corpus<-tm_map(doc.corpus,removePunctuation)
doc.corpus<-tm_map(doc.corpus,removeNumbers)
doc.corpus<-tm_map(doc.corpus,removeWords, stopwords("english"))
#加载SnowballC包
library(SnowballC)
#继续进行预处理
doc.corpus <- tm_map(doc.corpus, stemDocument)
doc.corpus <- tm_map(doc.corpus, stripWhitespace)
#建立TermDocumentMatrix
TDM <- TermDocumentMatrix(doc.corpus)

  

步骤三:使用wordcloud查看词语分布情况

library(wordcloud)
m <- as.matrix(TDM)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
wordcloud(d$word,d$freq,c(8,.3),2)

  

经过上述步骤后,可以得到该语料的词云图如下

bubuko.com,布布扣

步骤四:使用topicmodels包对文本进行主题挖掘

未完待续......

使用R语言进行主题发现(一)

标签:blog   http   io   ar   使用   sp   文件   数据   on   

原文地址:http://www.cnblogs.com/deeplearningfans/p/4114892.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!