标签:
1 环境
R 3.0以上版本
安装机器学习软件包:
说明:此两个包是R机器学习包。RTextTools包含文本处理,e1071包含分类器。
> install.packages("RTextTools")
> install.packages("e1071")
此篇博文(最上面图是word2vec的图,与本篇博文无关)使用R语言,对文本进行分类,并且使用多种分类器。
其包含两部分,都是对句子进行情感分类。一部分使用手工添加的少量数据进行。
另一部分使用80条happy数据,80条sad数据,10条happy测试数据,10条sad测试数据(代码路径:sentiment_analyse.R)。
实验一:对各个分类器初步比较,作者手工添加数据,进行预测(代码文件:sentiment_compare.R):
预测准确率:
分类器 |
准确率 |
随机森林 |
60% |
最大熵 |
60% |
决策树 |
60% |
BAGGING |
60% |
SVM |
20% |
实验二(代码文件sentiment_analyse.R):
采用bayes, MAXENT, SVM, SLDA, BAGGING, RF, TREE分类器,进行分类
结果如下:
分类器名称 |
准确率(R) |
准确率(spark) |
贝叶斯 |
65% |
95% |
随机森林 |
95% |
90% |
SVM |
95% |
|
SLDA |
75% |
|
BAGGING |
95% |
|
决策树 |
100% |
85% |
MAXENTROPY |
95% |
|
GBT |
|
90% |
Vord2vec |
|
70% |
标签:
原文地址:http://www.cnblogs.com/DRUNK2013/p/5541931.html