一、标准化(Z-Score),或者去除均值和方差缩放公式为:(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性(按列进行)减去其均值,并处以其方差。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,方差为1。实现时,有两种不同的方式:使用sklearn.preproc...
分类:
其他好文 时间:
2015-06-01 13:11:52
阅读次数:
153
一开始没有安装完全,sudo apt-get install python-numpy python-scipy python-matplotlib python-sklearn python-skimage python-h5py python-protobuf python-leveldb py...
分类:
编程语言 时间:
2015-05-20 21:55:11
阅读次数:
217
服务器环境:
centos7.0
python2.7.5
pip-6.1.1
引文:由于之前配集群的时候比较仓促,很多东西都是简化版。python的库都没有安装,今天实验室一同学要用服务器跑程序,代码使用python写的,结果配python的环境又耗费了大半天,没有午休,眼睛还困困的,满满的都是泪啊~
1pip的安装
1.1 下载pip
python很多的模板库都可以使用pip来安装...
分类:
编程语言 时间:
2015-05-18 22:57:05
阅读次数:
175
人脸识别是一项实用的技术。但是这种技术总是感觉非常神秘,在sklearn中看到了人脸识别的example,代码网址如下:
http://scikit-learn.org/0.13/auto_examples/applications/face_recognition.html#example-applications-face-recognition-py
首先介绍一些PCA和SVM的功能...
分类:
编程语言 时间:
2015-05-16 12:03:24
阅读次数:
732
鸢尾花数据是一个简易有趣的数据集。这个数据集来源于科学家在一岛上找到一种花的三种不同亚类别,分别叫做setosa,versicolor,virginica。但是这三个种类并不是很好分辩,所以他们又从花萼长度,花萼宽度,花瓣长度,花瓣宽度这四个角度测量不同的种类用于定量分析。基于这四个特征,这些数据成了一个多重变量分析的数据集。下面,我们就利用sklearn试着从不同的角度去分析一下这个数据集。
...
分类:
编程语言 时间:
2015-04-30 22:00:05
阅读次数:
1003
这是一个手写数字的识别实验,是一个sklearn在现实中使用的案例。原例网址里有相应的说明和代码。
首先实验的数据量为1797,保存在sklearn的dataset里。我们可以直接从中获取。每一个数据是有image,target两部分组成。Image是一个尺寸为8*8图像,target是图像的类别,在我们看来类别就是手写的数字0-9.
代码一开始,将数据载入。
# Standard ...
分类:
编程语言 时间:
2015-04-28 14:13:48
阅读次数:
716
Python scikit-learn 学习笔记—环境篇
近来闲来无事,也面临毕业季。这段时间除了做毕业设计,和同学再多吃几顿饭玩玩游戏之外。剩下的时间浪费着实可惜。想着以后研究生还要读三年,不如现在多看看书或者别的资料。正逢最近参加阿里巴巴大数据比赛,趁机学了一阵Python 数据挖掘包scikit learn,估计以后说不定会用到,所以先行记录下来,分享给大家。
先说...
分类:
编程语言 时间:
2015-04-28 11:50:03
阅读次数:
145
LinearRegressionfits a linear model with coefficientsto minimize the residual sum of squares between the observed responses in the dataset, and the re...
分类:
其他好文 时间:
2015-04-25 10:40:58
阅读次数:
212
preface:最近《生物信息学》多次谈到AUC,ROC这两个指标,正在做的project,要求画ROC曲线,sklearn里面有相应的函数,故学习学习。
AUC:
ROC:
具体使用参考sklearn:
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.roc_curve.html
http://sciki...
分类:
编程语言 时间:
2015-04-17 18:21:40
阅读次数:
2029
数据预处理假设6通道EEG(4通道EEG+2通道EOG),生成ndarray或矩阵S,row为time point,col为通道。对S进行标准化:S /= S.std(axis=0)ICA分析模块导入:from sklearn.decomposition import FastICA构建ICA对象,...
分类:
其他好文 时间:
2015-03-19 20:16:43
阅读次数:
342