在做文本分类聚类的任务时,常常需要从文本中提取特征,提取出对学习有价值的分类,而不是把所有的词都用上,那样会造成维度灾难。因此一些词对分类的作用不大,比如“的、是、在、了”等停用词。这里介绍三种常用的特征选择方法: 无监督方法: TF IDF 监督方法: 卡方 信息增益 互信息 一、TF IDF 一 ...
分类:
其他好文 时间:
2019-08-04 13:32:31
阅读次数:
119
''' 自然语言处理(NLP) 词袋模型:一句话的语义很大程度取决于某个单词出现的次数,所以可以把句子中所有可能出现的单词作为特征名, 每一个句子为一个样本,单词在句子中出现的次数为特征值构建数学模型,称为词袋模型。 例如: 1 The ... ...
分类:
编程语言 时间:
2019-07-24 09:27:35
阅读次数:
191
一、简介 https://cloud.tencent.com/developer/article/1058777 1、LDA是一种主题模型 作用:可以将每篇文档的主题以概率分布的形式给出【给定一篇文档,推测其主题分布】。 从而通过分析一些文档抽取出它们的主题(分布)出来后,便可以根据主题(分布)进行 ...
分类:
其他好文 时间:
2019-07-08 12:01:06
阅读次数:
175
CNN用于文本分类本就是一个不完美的解决方案,因为CNN要求输入都是一定长度的,而对于文本分类问题,文本序列是不定长的,RNN可以完美解决序列不定长问题, 因为RNN不要求输入是一定长度的。那么对于CNN用于解决文本分类问题而言,可以判断文本的长度范围,例如如果大多数文本长度在100以下,极少数在1 ...
分类:
其他好文 时间:
2019-06-19 16:26:11
阅读次数:
125
1、决策树概念 决策树是基于树的结构来进行决策的,这与人类的认知方法类似,例如:今天会下雨么?针对此问题我们首先会进行一系列的判断或者决策;今天阴天么,如果阴天,大概率 会下雨;如果晴天,大概率不下雨。如图1。 图1 2、文本分类 所谓文本分类,就是基于文本的特征将其划分到具体的类别当中,与决策树类 ...
分类:
其他好文 时间:
2019-06-15 20:15:18
阅读次数:
152
一、KNN分类算法 K最近邻(K-Nearest Neighbor,KNN)算法,是著名的模式识别统计学方法,在机器学习分类算法中占有相当大的地位。它是一个理论上比较成熟的方法。既是最简单的机器学习算法之一,也是基于实例的学习方法中最基本的,又是最好的文本分类算法之一。 通常,在分类任务中可使用“投 ...
分类:
其他好文 时间:
2019-06-10 10:41:21
阅读次数:
148
项目代码见 Github: 1.算法介绍 2.代码所用数据 详情参见http://qwone.com/~jason/20Newsgroups/ 文件结构 ├─doc_classification.py ├─stopwords.txt ├─vocabulary.txt ├─train.data ├─t ...
分类:
编程语言 时间:
2019-06-01 21:47:03
阅读次数:
142
以上代码从https://github.com/roomylee/rcnn-text-classification/blob/master/rcnn.py 拷贝过来的。 rcnn的模型来源于论文Recurrent Convolutional Neural Networks for Text Clas ...
分类:
其他好文 时间:
2019-05-24 19:35:43
阅读次数:
373
模型: FastText TextCNN TextRNN RCNN 分层注意网络(Hierarchical Attention Network) 具有注意的seq2seq模型(seq2seq with attention) Transformer("Attend Is All You Need") ...
分类:
其他好文 时间:
2019-05-14 13:05:21
阅读次数:
162
迁移学习是谷歌、Salesforce、IBM和微软Azure提供的多种自动机器学习管理服务的基础。由谷歌提出的BERT模型以及由Sebastian Ruder和Jeremy Howard共同提出的ULMFIT(通用语言模型微调文本分类)模型都重点突出了迁移学习,可见迁移学习是目前NLP(自然语言处理... ...
分类:
Web程序 时间:
2019-05-09 15:14:27
阅读次数:
255