文本分类现已比较成熟,各类开源工具不少,现推荐几个比较常用简单的工具:1、scikit-learn:http://scikit-learn.org/stable/index.html python编写调用,里面有各种分类算法svm、随机森林、贝叶斯等,和特征提取,如字、ngram等,几行代码便可以构...
分类:
其他好文 时间:
2014-08-18 17:52:42
阅读次数:
193
在学习和使用scikit-learn过程中,官方文档中推荐了两个IDE(CanopyandAnaconda),我分别在win7和mac下安装后,发现Canopy是可以用的。Anaconda没搞明白怎么用。win7下使用canopy也有一些小波折,不过最终可以用,我觉得还挺方便。我当然下载的是Expr...
分类:
编程语言 时间:
2014-08-13 07:58:45
阅读次数:
1261
Installing scikit-learnhttp://scikit-learn.org/stable/install.htmlInstalling scikit-learnThere are different ways to get scikit-learn installed:Instal...
分类:
其他好文 时间:
2014-08-08 17:19:57
阅读次数:
407
打开https://pip.pypa.io/en/latest/installing.html#python-os-support下载pip-get.py进入python,执行pip-get.py安装完pip,setuptool工具。进入.python/scripts目录,执行pip install...
分类:
编程语言 时间:
2014-07-27 10:47:52
阅读次数:
254
Scikit-learn官网:http://scikit-learn.org/stable/index.htmlDatasets标准的数据集格式为一组多维特征向量组成的集合。数据集的标准形状(shape)为二维数组(samples, features),其中samples表示数据集大小,featur...
分类:
编程语言 时间:
2014-07-16 19:09:46
阅读次数:
263
python的scikit-learn包下有计算tf-idf的api,研究了下做个笔记
1 安装scikit-learn包
sudo pip install scikit-learn
2 中文分词采用的jieba分词,安装jieba分词包
sudo pip install jieba
3 关于jieba分词的使用非常简单,参考这里,关键的语句就是(这里简单试水,不追求效...
分类:
编程语言 时间:
2014-06-16 14:40:05
阅读次数:
437
所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索引擎,专门为用户提供团购、优惠券的检索;同时存在一个通用的搜索引擎,比如百度,通用搜索引擎希望能...
分类:
其他好文 时间:
2014-05-25 23:18:41
阅读次数:
468