https://blog.csdn.net/li8zi8fa/article/details/76176597 朴素贝叶斯是经典的机器学习算法之一,也是为数不多的基于概率论的分类算法。朴素贝叶斯原理简单,也很容易实现,多用于文本分类,比如垃圾邮件过滤。该算法虽然简单,但是由于笔者不常用,总是看过即忘 ...
分类:
其他好文 时间:
2018-12-07 16:47:27
阅读次数:
204
实现本文的文本数据可以在THUCTC下载也可以自己手动爬虫生成, 本文主要参考:https://blog.csdn.net/hao5335156/article/details/82716923 nb表示朴素贝叶斯 rf表示随机森林 lg表示逻辑回归 初学者(我)通过本程序的学习可以巩固python ...
分类:
编程语言 时间:
2018-12-03 17:16:58
阅读次数:
276
1.新闻的特征向量 TF-IDF(词频的权重度量):TF1xIDF1 TF2xIDF2 TF3xIDF3.。。。。其中TF是词在文章中出现的频率,IDF是权重。给虚词赋予比较低的权重。 针对一篇文章,然后对词汇表的每个词给予一个TF-IDF值,这样就得到文章的特征向量,文章中没有出现 的词就是0。 ...
分类:
其他好文 时间:
2018-11-25 16:23:26
阅读次数:
203
摘要: 本文讲的是用深度学习解决自然语言处理中的7大问题,文本分类、语言建模、机器翻译等,自然语言处理领域正在从统计学方法转向神经网络方法。在自然语言中,仍然存在许多具有挑战性的问题。但是,深度学习方法在某些特定的语言问题上取得了state-of-the-art的结果。 本文讲的是用深度学习解决自然 ...
分类:
编程语言 时间:
2018-11-19 11:02:11
阅读次数:
343
奇异值分解 作为PCA的经典应用之一,是在文本分类中,这样的方法有一个专有的名字,叫潜在语义索引(LSI , laten semantic indexing )。这部分需要注意的是,在文本分类中,不需要先进行归一化处理(PCA 要求归一化处理),因为这里考虑了词语出现的次数。鉴于课件空缺,这里从网上 ...
分类:
其他好文 时间:
2018-11-04 19:36:08
阅读次数:
229
朴素贝叶斯算法 文本分类模型 在结束生成算法模型之前,我们将一种专门用于文本分类的算法。对于分类问题,朴素贝叶斯算法通常效果很好,而对于文本分类而言,则有更好的模型。 对于文本分类,之前提到的朴素贝叶斯算法又称之为多元伯努力事件模型(multi-variate Bernoulli event mod... ...
分类:
编程语言 时间:
2018-11-04 17:00:07
阅读次数:
284
昨天配置了tensorflow的gpu版本,今天开始简单的使用一下 主要是看了一下tensorflow的tutorial 里面的 IMDB 电影评论二分类这个教程 教程里面主要包括了一下几个内容:下载IMDB数据集,显示数据(将数组转换回评论文本),准备数据,建立模型(隐层设置,优化器和损失函数的配 ...
分类:
数据库 时间:
2018-11-04 01:41:18
阅读次数:
369
Hanlp HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 功能:中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要 文本分类 拼音简繁 Hanl ...
分类:
编程语言 时间:
2018-11-04 01:40:20
阅读次数:
279
为文本分类实验爬取数据集,要求一百万,分类>10类。 参考链接:http://litianyi.cc/technology/2015/12/01/text-classification-1/ 文档:https://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/ ...
分类:
其他好文 时间:
2018-11-03 23:12:55
阅读次数:
156