标签:word coding 方案 博士 随机 word2vec 测试 odi 情感分类
一、情感分类方面
为了提高CNN情感分类的准确率,对CNN模型的输入层进行改进,加入word2vec。
各个方案基于这样的前提:
a. 经过上个星期调试,当KERNEL_NUM=200, KERNEL_SIZES=[3, 4, 5, 6, 7] 时准确率最高,所以下面所有改进都是基于此结论的基础上的,达到的最高准确率。
b. 所用数据是老师提供的统一数据,2分类,训练、开发、测试数据量比约为8:1:2
结果对比如下:
1)输入:rand(随机初始化) + 训练过程:static
准确率:73.1%
2)输入:rand(随机初始化) + 训练过程:nonstatic
准确率:74.4%
3)输入:预训练word2vec + 训练过程:nonstatic
准确率:79.6%
4)输入:预训练word2vec(平滑处理) + 训练过程:nonstatic
准确率:80.2%
二、关键字提取方面
看完了刘知远老师的博士论文-基于文档主题结构的关键字提取方法,在博客园写了一篇阅读笔记。
三、PyTorch Coding Group学习
周六去工大听word2vec的报告,主要学习了两种模型(CBOW模型和Skip-gram模型)、两种加速方法(负采样、层次化softmax),来训练生成词向量。
四、听讨论班王潜升讲围棋AI相关知识
标签:word coding 方案 博士 随机 word2vec 测试 odi 情感分类
原文地址:http://www.cnblogs.com/Joyce-song94/p/7152986.html