首先搭建基本环境,假设已经有Python运行环境。然后需要装上一些通用的基本库,如numpy, scipy用以数值计算,pandas用以数据分析,matplotlib/Bokeh/Seaborn用来数据可视化。再按需装上数据获取的库,如Tushare(http://pythonhosted.org/tushare/),Quandl(https://www.quandl.com/)等。网上还有很多可供分析的免费数据集(http://www.kdnuggets.com/datasets/index.html)。...
分类:
编程语言 时间:
2015-05-17 22:00:37
阅读次数:
495
1.4 SciPySciPy(http://scipy.org/) 是建立在NumPy基础上,用于数值运算的开源工具包。SciPy提供很多高效的操作,可以实现数值积分、优化、统计、信号处理,以及对我们来说最重要的图像处理功能。接下来,本节会介绍SciPy中大量有用的模块。SciPy是个开源工具包,可...
分类:
编程语言 时间:
2015-05-17 18:07:55
阅读次数:
336
# 使用好任何机器学习算法的前提是选好Features
from numpy import *
import operator
from os import listdir
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]
diffMat = tile(inX, (dat...
分类:
编程语言 时间:
2015-05-10 09:56:10
阅读次数:
202
案例:从疝气病症预测病马的死亡率
准备数据时,数据中的缺失值是个非常棘手的问题。因为有时候数据相当昂贵,扔掉和重新获取都是不可取的,所以必须采用一些方法来解决这个问题。
在预处理阶段需要做两件事:第一,所有的缺失值必须用一个实数值来替换,因为我们使用的NumPy数据类型不允许包含缺失值。这里选择实数0来替换所有缺失值,恰好能适用于Logistic回归。第二,如果...
分类:
编程语言 时间:
2015-05-08 09:41:46
阅读次数:
187
http://blog.csdn.net/pipisorry/article/details/39087583
在介绍工具之前先对理论基础进行必要的回顾是很必要的。没有理论的基础,讲再多的应用都是空中楼阁。本文主要设涉及线性代数和矩阵论的基本内容。先回顾这部分理论基础,然后给出MATLAB,继而给出Python的处理。个人感觉,因为Python是面向对象的,操纵起来会更接近人的正常思维;...
分类:
编程语言 时间:
2015-05-07 18:55:34
阅读次数:
246
Python 2.7环境下安装numpy和scipy
numpy :http://sourceforge.net/projects/numpy/files/NumPy/1.8.1/ 下载exe文件 numpy-1.8.2-win32-superpack-python2.7
scipy:http://sourceforge.net/projects/sci...
分类:
编程语言 时间:
2015-05-06 21:20:06
阅读次数:
400
unique()保留数组中不同的值,返回两个参数。
>>> a=np.random.randint(0,5,8)
>>> a
array([2, 3, 3, 0, 1, 4, 2, 4])
>>> np.unique(a)
array([0, 1, 2, 3, 4])
>>> c,s=np.unique(b,return_index=True)
>...
分类:
其他好文 时间:
2015-05-05 12:39:36
阅读次数:
122
参考自:http://my.oschina.net/bery/blog/203595 http://www.open-open.com/lib/view/open1355324385492.html1.安装NumPy: http://www.lfd.uci.edu/~gohlke/pyt...
分类:
编程语言 时间:
2015-05-01 18:42:59
阅读次数:
178