#-*- coding:utf-8 -*- import re import requests class Spider: #页面初始化 def __init__(self): self.url = 'http://gz.meituan.com/category/meishi?mtt=1.index ...
分类:
其他好文 时间:
2017-04-12 12:23:17
阅读次数:
228
机器学习的大局观:使用神经网络和TensorFlow来对文本分类 https://medium.freecodecamp.com/big-picture-machine-learning-classi...
分类:
其他好文 时间:
2017-04-10 17:46:05
阅读次数:
371
目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。 1 基于频率的过滤方法 基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果 ...
分类:
其他好文 时间:
2017-03-17 23:15:39
阅读次数:
245
能够学习到短文本分类模型——Tgrocery,十分感谢@GavinBuildSomething把源码及测试数据分享,在此我也作为一名学习者将自己的学习过程记录下来,希望对其他人有所帮助。 1.学习Tgrocery 这是作者在github上的项目链接包括源码及测试——https://github.co ...
分类:
其他好文 时间:
2017-02-17 20:03:06
阅读次数:
3441
1,词法分析 待续 2,文本分类 文本表示: 重点是贝叶斯模型:二项表示法和多项表示法。(向量维度为词库大小,一个是01,一个是频次)。模型重点在于化后验为先验。 还有其他模型:机器学习模型,分布式模型等等。 特征选择:重要的是TF-IDF。它的意思是一个词在单个文本中出现的次数越多,在其他文本中出 ...
分类:
其他好文 时间:
2017-01-03 07:50:11
阅读次数:
202
(上接第二章) 2.3 分类算法:朴素贝叶斯 2.3.1 贝叶斯公式推导(略) 分类的流程: 第一阶段:训练数据生成训练样本集:TF-IDF 第二阶段:对每个类别计算p(yi)。 第三个阶段:对每个特征属性计算所有划分的条件概率 第四个阶段:对每个类别计算P(x|yi)P(yi)。 第五个阶段:以P ...
分类:
编程语言 时间:
2016-12-29 19:24:43
阅读次数:
242
http://www.52ml.net/1917.html 主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文 ...
分类:
其他好文 时间:
2016-12-22 14:55:29
阅读次数:
186
0.注意weka的中文编码RunWeka.ini 》fileEncoding=utf-81.首先对分词后的 无新词发现的分词文件,转换成arff文件 命令java weka.core.converters.TextDirectoryLoader -dir D:\weibo\catagory\data ...
分类:
其他好文 时间:
2016-12-11 21:08:37
阅读次数:
201
*最近在搞文本分类,就是把一批文章分成[军事]、[娱乐]、[政治]等等。 但是这个先需要一些样本进行训练,感觉文本分类和"按图索骥"差不多,训练的文章样本就是"图",真正分类的就是“骥”。 去搜狗实验室找到了一些样本进行下载,先下载了一些迷你版的样本数据,看着还不错,就下载吧,压缩包就不到700M, ...
分类:
数据库 时间:
2016-11-21 22:32:53
阅读次数:
295
实验要求题目要求
1、用MapReduce算法实现贝叶斯分类器的训练过程,并输出训练模型;
2、用输出的模型对测试集文档进行分类测试。测试过程可基于单机Java程序,也可以是MapReduce程序...
分类:
其他好文 时间:
2016-11-18 18:55:08
阅读次数:
274