码迷,mamicode.com
首页 >  
搜索关键字:文本分类    ( 340个结果
文本分类
#-*- coding:utf-8 -*- import re import requests class Spider: #页面初始化 def __init__(self): self.url = 'http://gz.meituan.com/category/meishi?mtt=1.index ...
分类:其他好文   时间:2017-04-12 12:23:17    阅读次数:228
机器学习的大局观:使用神经网络和TensorFlow来对文本分类
机器学习的大局观:使用神经网络和TensorFlow来对文本分类 https://medium.freecodecamp.com/big-picture-machine-learning-classi...
分类:其他好文   时间:2017-04-10 17:46:05    阅读次数:371
文本数据特征选取的四种方法
目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。 1 基于频率的过滤方法 基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果 ...
分类:其他好文   时间:2017-03-17 23:15:39    阅读次数:245
Tgrocery学习及使用
能够学习到短文本分类模型——Tgrocery,十分感谢@GavinBuildSomething把源码及测试数据分享,在此我也作为一名学习者将自己的学习过程记录下来,希望对其他人有所帮助。 1.学习Tgrocery 这是作者在github上的项目链接包括源码及测试——https://github.co ...
分类:其他好文   时间:2017-02-17 20:03:06    阅读次数:3441
NLP概述
1,词法分析 待续 2,文本分类 文本表示: 重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。 还有其他模型:机器学习模型,分布式模型等等。 特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出 ...
分类:其他好文   时间:2017-01-03 07:50:11    阅读次数:202
郑捷《机器学习算法原理与编程实践》学习笔记(第二章 中文文本分类(二)—朴素贝叶斯算法)
(上接第二章) 2.3 分类算法:朴素贝叶斯 2.3.1 贝叶斯公式推导(略) 分类的流程: 第一阶段:训练数据生成训练样本集:TF-IDF 第二阶段:对每个类别计算p(yi)。 第三个阶段:对每个特征属性计算所有划分的条件概率 第四个阶段:对每个类别计算P(x|yi)P(yi)。 第五个阶段:以P ...
分类:编程语言   时间:2016-12-29 19:24:43    阅读次数:242
LDA(latent dirichlet allocation)的应用
http://www.52ml.net/1917.html 主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文 ...
分类:其他好文   时间:2016-12-22 14:55:29    阅读次数:186
weka 初练之 文本分类
0.注意weka的中文编码RunWeka.ini 》fileEncoding=utf-81.首先对分词后的 无新词发现的分词文件,转换成arff文件 命令java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data ...
分类:其他好文   时间:2016-12-11 21:08:37    阅读次数:201
将.dat文件导入数据库
*最近在搞文本分类,就是把一批文章分成[军事]、[娱乐]、[政治]等等。 但是这个先需要一些样本进行训练,感觉文本分类和"按图索骥"差不多,训练的文章样本就是"图",真正分类的就是“骥”。 去搜狗实验室找到了一些样本进行下载,先下载了一些迷你版的样本数据,看着还不错,就下载吧,压缩包就不到700M, ...
分类:数据库   时间:2016-11-21 22:32:53    阅读次数:295
基于朴素贝叶斯分类器的文本分类
实验要求题目要求 1、用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型; 2、用输出的模型对测试集文档进行分类测试。测试过程可基于单机Java程序,也可以是MapReduce程序...
分类:其他好文   时间:2016-11-18 18:55:08    阅读次数:274
340条   上一页 1 ... 21 22 23 24 25 ... 34 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!