之前在看《Semi-supervised Sequence Learning》这篇文章的时候对seq2seq半监督的方式做文本分类的方式产生了一定兴趣,于是开始简单研究了seq2seq。先来简单说一下这篇paper的内容: 创立的新形式Sequence AutoEncoder LSTM(SA-LST ...
分类:
数据库 时间:
2017-07-15 19:48:25
阅读次数:
3931
1.数据下载地址 http://pan.baidu.com/s/1ge9bJIN 2.这些数据已经分过类别-webkb 20newsGroup R8,预处理 分词 stemming 词频统计 3.这些数据数据下载地址 http://ana.cachopo.org/datasets-for-singl ...
分类:
Web程序 时间:
2017-07-14 10:19:51
阅读次数:
309
文本分类单层网络就够了。非线性的问题用多层的。 fasttext有一个有监督的模式,但是模型等同于cbow,只是target变成了label而不是word。 fastText有两个可说的地方:1 在word2vec的基础上, 把Ngrams也当做词训练word2vec模型, 最终每个词的vector ...
分类:
其他好文 时间:
2017-07-14 00:40:42
阅读次数:
11624
fasttext的基本使用 java 、python为例子 fasttext的基本使用 java 、python为例子 今天早上在地铁上看到知乎上看到有人使用fasttext进行文本分类,到公司试了下情况在GitHub上找了下,最开始是c++版本的实现,不过有Java、Python版本的实现了,正好 ...
分类:
编程语言 时间:
2017-07-13 22:50:11
阅读次数:
353
前面文章已经介绍了朴素贝叶斯算法的原理,这里基于NavieBayes算法对newsgroup文本进行分类測试。 文中代码參考:http://blog.csdn.net/jiangliqing1234/article/details/39642757 主要内容例如以下: 1、newsgroup数据集介 ...
分类:
其他好文 时间:
2017-07-09 10:35:18
阅读次数:
197
本文主要包括以下内容: 1)模型训练数据生成(demo) 2 ) 模型训练(spark+java),数据存储在hdfs上 3)预测数据生成(demo) 4)使用生成的模型进行文本分类。 一、训练数据生成 spark mllib模型训练的输入数据格式通常有两种,一种叫做 LIBSVM 格式,样式如下: ...
分类:
编程语言 时间:
2017-06-22 10:02:50
阅读次数:
559
Tensorflor实现文本分类 下面我们使用CNN做文本分类 cnn实现文本分类的原理 下图展示了如何使用cnn进行句子分类。输入是一个句子,为了使其可以进行卷积,首先需要将其转化为向量表示,通常使用word2vec实现。d=5表示每个词转化为5维的向量,矩阵的形状是[sentence_lengt ...
分类:
其他好文 时间:
2017-06-21 18:16:44
阅读次数:
747
1. 输入文本预处理, 通过jieba分词, 空格" "拼接文本串. 每行一个样本, 最后一个单词为双下划线表明label, __label__'xxx' . eg: 2. pip install fasttext, 利用fasttext 的python 包进行分类. 简单高效, 结果也不差. go ...
分类:
其他好文 时间:
2017-06-17 20:44:27
阅读次数:
430
《机器学习实战》系列博客是博主阅读《机器学习实战》这本书的笔记,包括对当中算法的理解和算法的Python代码实现 另外博主这里有机器学习实战这本书的全部算法源码和算法所用到的源文件,有须要的留言 附:之所以成为朴素贝叶斯是由于其如果了各个特征之间是独立的 关于朴素贝叶斯分类算法的理解请參考:http ...
分类:
编程语言 时间:
2017-06-13 14:15:35
阅读次数:
149
前言: 本系列是在作者学习《机器学习系统设计》([美] WilliRichert)过程中的思考与实践,全书通过Python从数据处理。到特征project,再到模型选择,把机器学习解决这个问题的过程一一呈现。书中设计的源码和数据集已上传到我的资源:http://download.csdn.net/d ...
分类:
其他好文 时间:
2017-06-10 19:32:43
阅读次数:
286