码迷,mamicode.com
首页 > 其他好文 > 详细

情感分析-R与spark机器学习库测试分类比较

时间:2016-05-30 12:35:01      阅读:222      评论:0      收藏:0      [点我收藏+]

标签:

1     环境

R 3.0以上版本

安装机器学习软件包:

说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。

> install.packages("RTextTools")

> install.packages("e1071")

 

2     实验步骤

研究对象:http://www.xueqing.tv/cms/article/107#rd?sukey=3903d1d3b699c20870d8c0b36a06c8665d146b24b47f8953d7202230c1ad9c9dd368d27959ec776c4cd0e2c94248f632 

此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。

其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。

另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。

3     试验结果

实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):

 

预测准确率:

 

 

分类器

准确率

随机森林

60%

最大熵

60%

决策树

60%

BAGGING

60%

SVM

20%

 

实验二(代码文件sentiment_analyse.R):

数据文件:http:///sentiment/data/

采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类

结果如下:

 

分类器名称

准确率(R)

准确率(spark)

贝叶斯

65%

95%

随机森林

95%

90%

SVM

95%

 

SLDA

75%

 

BAGGING

95%

 

决策树

100%

85%

MAXENTROPY

95%

 

GBT

 

90%

Vord2vec

 

70%

情感分析-R与spark机器学习库测试分类比较

标签:

原文地址:http://www.cnblogs.com/DRUNK2013/p/5541931.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!