NBSVM 朴素贝叶斯(Naive Bayers))和支持向量机(SVM)是文本分类常用的基础模型。在不同的数据集、不同的特征和不同的参数下,两者的效果有所差异。一般来说NB在短文本上的表现要优于SVM,而SVM在长文本上的表现更佳。 NBSVM来自论文<Baselines and Bigrams ...
分类:
编程语言 时间:
2018-05-27 21:37:51
阅读次数:
1714
文本分类任务中可以利用CNN来提取句子中类似 n-gram 的关键信息。 TextCNN的详细过程原理图见下: keras 代码: 说明如下: 输入层 如图所示,,假设句子有 n 个词,vector的维数为 k ,那么这个矩阵就是 n×k 的。 这个矩阵的类型可以是静态的(static),也可以是动 ...
分类:
Web程序 时间:
2018-05-26 16:44:54
阅读次数:
331
前言: 经历过文本的特征提取,使用LibSvm工具包进行了测试,Svm算法的效果还是很好的。于是开始逐一的去了解SVM的原理。 SVM 是在建立在结构风险最小化和VC维理论的基础上。所以这篇只介绍关于SVM的理论基础。 目录: 文本分类学习(一)开篇 文本分类学习(二)文本表示 文本分类学习(三)特 ...
分类:
其他好文 时间:
2018-05-09 19:37:14
阅读次数:
242
from numpy import zeros,array from math import log def loadDataSet(): #词条切分后的文档集合,列表每一行代表一个email postingList=[['your','mobile','number','is','award','... ...
分类:
其他好文 时间:
2018-05-08 20:09:17
阅读次数:
217
基于 word2vec 和 CNN 的文本分类 :综述 & 实践 https://zhuanlan.zhihu.com/p/29076736 文本分类的算法 一、决策树(Decision Trees) 二、人工神经网络 准确度高 并行分布处理能力强,分布存储及学习能力强,鲁棒性好 联想记忆 神经网络 ...
分类:
其他好文 时间:
2018-04-08 22:40:25
阅读次数:
221
tensorflow实现基于LSTM的文本分类方法 作者:u010223750 引言 学习一段时间的tensor flow之后,想找个项目试试手,然后想起了之前在看Theano教程中的一个文本分类的实例,这个星期就用tensorflow实现了一下,感觉和之前使用的theano还是有很大的区别,有必要 ...
分类:
其他好文 时间:
2018-04-07 16:10:29
阅读次数:
338
《统计自然语言处理》 一些基础理论概念,涉及统计自然语言处理的基本概念、理论方法和新研究进展,内容包括形式语言与自动机及其在自然语言处理中的应用、语言模型、隐马尔可夫模型、语料库技术、汉语自动分词与词性标注、句法分析、词义消歧、篇章分析、统计机器翻译、语音翻译、文本分类、信息检索与问答系统、自动文摘 ...
分类:
其他好文 时间:
2018-04-06 19:33:58
阅读次数:
150
NLPIR能够全方位多角度满足应用者对大数据文本的处理需求,包括大数据完整的技术链条:网络抓取、正文提取、中英文分词、词性标注、实体抽取、词频统计、关键词提取、语义信息抽取、文本分类、情感分析、语义深度扩展、繁简编码转换、自动注音、文本聚类等。 ...
分类:
其他好文 时间:
2018-04-03 17:17:07
阅读次数:
164
上一篇中,主要说的就是词袋模型。回顾一下,在进行文本分类之前,我们需要把待分类文本先用词袋模型进行文本表示。首先是将训练集中的所有单词经过去停用词之后组合成一个词袋,或者叫做字典,实际上一个维度很大的向量。这样每个文本在分词之后,就可以根据我们之前得到的词袋,构造成一个向量,词袋中有多少个词,那这个 ...
分类:
其他好文 时间:
2018-04-03 14:24:41
阅读次数:
457
Kim Y’s Paper 模型结构及原理 模型的结构如下: 输入层 如图所示,输入层是句子中的词语对应的word vector依次(从上到下)排列的矩阵,假设句子有 n 个词,vector的维数为 k ,那么这个矩阵就是 n×k 的。 这个矩阵的类型可以是静态的(static),也可以是动态的(n ...
分类:
其他好文 时间:
2018-03-03 23:25:29
阅读次数:
362