-1. TF-IDF的误区TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现 ...
分类:
其他好文 时间:
2017-09-27 13:32:39
阅读次数:
192
这周学习了机器学习算法与编程实践第二章——中文文本分类的部分内容。该章以文本挖掘为大背景,以文本分类算法为中心,详细介绍了中文文本分类项目的相关知识点。 一、文本挖掘与文本分类的概念 被普遍认可的文本挖掘的定义如下:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用 ...
分类:
编程语言 时间:
2017-09-24 23:35:56
阅读次数:
278
上次爬取的爸爸、妈妈、老师和自己的作文,利用sklearn.neighbors.KNeighborsClassifier进行分类。 数据散点图如下所示: ??? knn分类结果的混淆矩阵图如下所示: ...
分类:
编程语言 时间:
2017-09-01 09:52:15
阅读次数:
322
作者:西瓜军团链接:https://www.zhihu.com/question/58863937/answer/166306236来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 一、传统文本分类方法 文本分类问题算是自然语言处理领域中一个非常经典的问题了,相关研究最 ...
分类:
其他好文 时间:
2017-08-16 13:18:18
阅读次数:
253
https://zhuanlan.zhihu.com/p/25928551 近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的相关的思路、做法和部分实践的经验。 业务问题描述: 淘宝商品的一 ...
分类:
其他好文 时间:
2017-08-16 13:16:42
阅读次数:
332
简介 文本分类任务根据给定一条文本的内容,判断该文本所属的类别,是自然语言处理领域的一项重要的基础任务。具体的,本任务是对文本quey进行分类,任务流程如下: 运行 训练: sh +x train.sh 预测: python infer.py 输入/输出 输入样本: label text(分词后) ...
分类:
其他好文 时间:
2017-08-06 20:46:37
阅读次数:
516
Q1. 为什么搜索引擎要用到文本分类? 搜索引擎要处理海量文本,人工分类不现实,机器的自动分类对提高文本的分类效率至少起到了一个基准的效果。另外,文本分类跟搜索引擎系统可以进行信息互通,文本分类的输入是文本,输出可以是标签或者是否从属于某个分类。 Q2.文本分类基础算法 文本分类基础算法与机器学习、 ...
分类:
其他好文 时间:
2017-08-02 17:00:50
阅读次数:
124
1. Naive Bayes算法 朴素贝叶斯算法算是生成模型中一个最经典的分类算法之一了,常用的有Bernoulli和Multinomial两种。在文本分类上经常会用到这两种方法。在词袋模型中,对于一篇文档$d$中出现的词$w_0,w_1,...,w_n$, 这篇文章被分类为$c$的概率为$$p(c ...
分类:
编程语言 时间:
2017-07-26 23:33:33
阅读次数:
399
贝叶斯学习方法中有用性非常高的一种为朴素贝叶斯学习期,常被称为朴素贝叶斯分类器。在某些领域中与神经网络和决策树学习相当。尽管朴素贝叶斯分类器忽略单词间的依赖关系。即如果全部单词是条件独立的,但朴素贝叶斯分类在实际应用中有非常出色的表现。 朴素贝叶斯文本分类算法伪代码: 朴素贝叶斯文本分类算法流程: ...
分类:
其他好文 时间:
2017-07-23 13:29:59
阅读次数:
199
作者:寒小阳 && 龙心尘 时间:2016年1月。 出处:http://blog.csdn.net/longxinchen_ml/article/details/50597149 http://blog.csdn.net/han_xiaoyang/article/details/50616559 声 ...
分类:
其他好文 时间:
2017-07-19 21:42:58
阅读次数:
233