爬虫:scrapy,beautifulsoup自然语言处理:nltk,Pattern(Google,Twitter,andWikipediaAPIs,awebcrawler,aHTMLDOMparser),结巴分词科学计算:NumPy,SciPy,matplotlib机器学习、数据挖掘:scikit-learn,pandas,MDP(neuralnetworks),PyBrain(neuralnetworks),Theano(GPU,deeplearn..
分类:
编程语言 时间:
2015-02-07 19:02:28
阅读次数:
185
最近在研究scikit-learn的开源包,总是遇到scikit-learn包找不到的问题,按照以下步骤问题就解决了,具体步骤如下:
1、 安装python,一般为2.7,网址:https://www.python.org/downloads/
2、 Python安装distribute:打开windows的cmd,切换到distribute-0.6.36目录. 输入:python set...
利用scikit-learn进行机器学习简介
Sectioncontents:
在这部分,我们引入利用scikit-learn进行机器学习的常用单词,并给出一些简单的学习例子。
机器学习:问题设置
一般而言,一个学习问题处理一组包含n个样本的数据集,然后预测未知数据的属性。如果每个样本不止有一个数据,例如多维条目(又叫做多维数据),这种情况被称为拥有多组属性或特...
分类:
其他好文 时间:
2015-02-04 16:33:51
阅读次数:
148
一、标准化,均值去除和按方差比例缩放 数据集的标准化:当个体特征太过或明显不遵从高斯正态分布时,标准化表现的效果较差。实际操作中,经常忽略特征数据的分布形状,移除每个特征均值,划分离散特征的标准差,从而等级化,进而实现数据中心化。 scale 1 >>> from sklearn import .....
分类:
其他好文 时间:
2015-02-02 19:49:43
阅读次数:
345
目前,网上已有成千上万个Python包,但几乎没有人能够全部知道它们。单单PyPi上就有超过47000个包列表。现在,越来越多的数据科学家 开始使用Python,虽然他们从pandas,scikit-learn,numpy中获得了不少好处,但...
分类:
编程语言 时间:
2015-01-30 06:46:27
阅读次数:
259
开源机器学习工具scikit-learn入门。...
分类:
其他好文 时间:
2015-01-14 16:57:33
阅读次数:
162
http://www.52ml.net/15539.html2014年05月25日? 字号小中大所谓学习问题,是指观察由n个样本组成的集合,并根据这些数据来预测未知数据的性质。学习任务(一个二分类问题):区分一个普通的互联网检索Query是否具有某个垂直领域的意图。假设现在有一个O2O领域的垂直搜索...
分类:
其他好文 时间:
2015-01-07 20:39:12
阅读次数:
205
http://blog.csdn.net/abcjennifer/article/details/23615947文本挖掘的paper没找到统一的benchmark,只好自己跑程序,走过路过的前辈如果知道20newsgroups或者其它好用的公共数据集的分类(最好要所有类分类结果,全部或取部分特征无...
分类:
其他好文 时间:
2015-01-06 21:27:47
阅读次数:
221
reference :http://my.oschina.net/u/175377/blog/84420目录[-]Scikit Learn: 在python中机器学习载入示例数据一个改变数据集大小的示例:数码数据集(digits datasets)学习和预测分类K最近邻(KNN)分类器训练集和测试集...
分类:
其他好文 时间:
2015-01-03 17:05:35
阅读次数:
694
reference:http://www.cnblogs.com/chaosimple/p/4153167.html一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,...
分类:
其他好文 时间:
2015-01-03 14:36:44
阅读次数:
241