使用R语言进行主题发现（一）

时间：2014-11-22 11:49:12 阅读：752 评论：0 收藏：0 [点我收藏+]

写作目的

最近由于研究需要，使用R语言对文本进行了主题发现，下面对具体过程进行记录。

步骤一：读取文本并进行预处理

本实验中主要对从SCI引文数据库中关于bigdata的索引记录进行分析，文件名为download_2.txt 目录为c:\\data\\,具体代码为：

#文件路径
textfile<-"C:\\data\\download_1.txt"
#按行读取该文本到变量bigdata
bigdata<-readLines(textfile)
#使用正则表达式对记录中的摘要进行提取
doc<-grep("^AB.*?",bigdata)
#删除文件开头的AB 字符，得到摘要列表
doc<-sub("^AB ","",doc)

步骤二：使用tm包建立DocumentTermMatrix矩阵

将摘要信息读取doc变量后，接下来就需要使用tm包对文本进行处理了.

#加载tm包
library(tm)
#建立语料库
doc.vec<-VectorSource(doc)
doc.corpus<-Corpus(doc.vec)
#进行预处理
doc.corpus<-tm_map(doc.corpus,tolower)
doc.corpus<-tm_map(doc.corpus,removePunctuation)
doc.corpus<-tm_map(doc.corpus,removeNumbers)
doc.corpus<-tm_map(doc.corpus,removeWords, stopwords("english"))
#加载SnowballC包
library(SnowballC)
#继续进行预处理
doc.corpus <- tm_map(doc.corpus, stemDocument)
doc.corpus <- tm_map(doc.corpus, stripWhitespace)
#建立TermDocumentMatrix
TDM <- TermDocumentMatrix(doc.corpus)

步骤三：使用wordcloud查看词语分布情况

library(wordcloud)
m <- as.matrix(TDM)
v <- sort(rowSums(m),decreasing=TRUE)
d <- data.frame(word = names(v),freq=v)
wordcloud(d$word,d$freq,c(8,.3),2)

经过上述步骤后，可以得到该语料的词云图如下

bubuko.com,布布扣

步骤四：使用topicmodels包对文本进行主题挖掘

未完待续......

使用R语言进行主题发现（一）

标签：blog http io ar 使用 sp 文件数据 on

原文地址：http://www.cnblogs.com/deeplearningfans/p/4114892.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行