码迷,mamicode.com
首页 >  
搜索关键字:文本分类    ( 340个结果
5.1、文本分类
1、朴素贝叶斯 NB 三大概率 1、条件概率 Ω是全集,A、B是其中的事件(子集),p是事件发生的概率,则:p(A | B) = p(AB) / p(B),事件B发生,A发生的概率 2、全概率公式 3、贝叶斯公式 文本分类系统核心公式 ...
分类:其他好文   时间:2018-10-21 21:45:47    阅读次数:136
基于协同训练的半监督文本分类算法
本文主要讲述基于协同训练的半监督算法做文本分类,用三个差异性比较大的分类器对未标注数据进行标注,它们可以进行交叉验证,大大提升了对未标注数据标记的置信度(简单理解就是三个分类器同时对一个未标注数据标记一样的标签,那么这个标签就可信了),从而提高分类器标注的准确率 ...
分类:编程语言   时间:2018-10-20 13:37:08    阅读次数:213
深度学习用于文本分类的论文及代码集锦
深度学习用于文本分类的论文及代码集锦 原创: FrankLearningMachine 机器学习blog 4天前 [1] Convolutional Neural Networks for Sentence Classification Yoon Kim New York University EM ...
分类:其他好文   时间:2018-10-19 21:50:39    阅读次数:532
机器学习(三) 贝叶斯文本分类问题
导入sklearn.feature_extraction.text.TfidfVectorizer用于转换字符串 from sklearn.feature_extraction.text import TfidfVectorizer # 创建对象 tf = TfidfVectorizer() # 训... ...
分类:其他好文   时间:2018-10-17 14:39:09    阅读次数:114
中文文本分类大概的步骤
文本分类问题:给定文档p(可能含有标题t),将文档分类为n个类别中的一个或多个 文本分类应用:常见的有垃圾邮件识别,情感分析 文本分类方向:主要有二分类,多分类,多标签分类 文本分类方法:传统机器学习方法(贝叶斯,svm等),深度学习方法(fastText,TextCNN等) 文本分类的处理大致分为 ...
分类:其他好文   时间:2018-10-12 13:47:17    阅读次数:578
Seq2Seq sequence-to-sequence模型 简介
Sequence-to-sequence (seq2seq) 模型。 该模型可用于: 自然语言翻译 聊天机器人,自动问答机器人 微博自动回复 文本分类 生成文档摘要 本文参考了:https://blog.csdn.net/gzmfxy/article/details/78691048 ...
分类:其他好文   时间:2018-10-02 22:17:58    阅读次数:187
贝叶斯原理
贝叶斯原理 贝叶斯学派很古老,但是从诞生到一百年前一直不是主流。主流是频率学派。频率学派的权威皮尔逊和费歇尔都对贝叶斯学派不屑一顾,但是贝叶斯学派硬是凭借在现代特定领域的出色应用表现为自己赢得了半壁江山。 贝叶斯学派的思想可以概括为 先验概率+数据=后验概率 。也就是说我们在实际问题中需要得到的后验 ...
分类:其他好文   时间:2018-10-01 17:59:08    阅读次数:118
NLPCC2013中文微博细粒度情感识别(一)
既然是找到了不错的工作,自然不敢怠慢,作为入职前的准备自己找了个任务干,再熟悉一下语义识别&文本分类的整个过程。 数据使用的是NLPCC2013的第二个任务,中文微博细粒度情感识别,现在在官网已经不太好找到合适的数据了,我用的是从CSDN上面下载的,tb花了几块钱解决。打开一看好家伙,还是xml格式 ...
分类:其他好文   时间:2018-09-27 14:18:34    阅读次数:1537
基于半监督学习算法的文本分类(自训练)
本文主要讲述的是基于自训练的半监督学习算法做文本分类,自训练算法是半监督学习中比较常见的方法之一,但是自训练方法有一个很大的问题,在迭代过程中,如果初始训练样本集中已标注样本的数量过少,则可能会出现错误标注,并通过迭代使错误逐渐被放大,最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训... ...
分类:编程语言   时间:2018-09-23 16:27:25    阅读次数:367
word2vec 构建中文词向量
词向量作为文本的基本结构——词的模型,以其优越的性能,受到自然语言处理领域研究人员的青睐。良好的词向量可以达到语义相近的词在词向量空间里聚集在一起,这对后续的文本分类,文本聚类等等操作提供了便利,本文将详细介绍如何使用word2vec构建中文词向量。 一、中文语料库 本文采用的是搜狗实验室的搜狗新闻 ...
分类:其他好文   时间:2018-09-23 16:22:44    阅读次数:338
340条   上一页 1 ... 12 13 14 15 16 ... 34 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!