refrence :http://cloga.info/python/2014/02/07/classify_use_Sklearn/加载数据集这里我使用pandas来加载数据集,数据集采用kaggle的titanic的数据集,下载train.csv。import pandas as pddf = ...
分类:
其他好文 时间:
2015-01-03 15:50:22
阅读次数:
483
reference :http://www.cnblogs.com/chaosimple/p/4153158.html关于缺失值(missing value)的处理在sklearn的preprocessing包中包含了对数据集中缺失值的处理,主要是应用Imputer类进行处理。首先需要说明的是,nu...
分类:
其他好文 时间:
2015-01-03 14:31:39
阅读次数:
221
文本特征提取
词袋(Bag of Words)表征
文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说:
标记(tokenizing)文本以及为每一...
分类:
其他好文 时间:
2014-12-16 11:46:54
阅读次数:
203
1 首先需要安装Cython,网上下载后进行本地安装 python setup.py install
2 下载Sklearn包,https://pypi.python.org/pypi/scikit-learn/0.14.1 ,进行本地安装(使用pip或easy_install总是出错,如can not import murmurhash3_32,最终本地安装成功)
3 安装后...
分类:
编程语言 时间:
2014-11-14 22:49:04
阅读次数:
294
1关于 sklearn.datasets
from sklearn.datasets import load_iris
import numpy as np
data = load_iris()
data 的属性如下:
数据存储在.data项中
每个观察对象的种类存储在数据集的.target属性中
数据的特征的种类存储在数据集的.feature_na...
分类:
编程语言 时间:
2014-08-21 17:17:14
阅读次数:
223
python 分词计算文档TF-IDF值并排序...
分类:
编程语言 时间:
2014-08-09 11:38:07
阅读次数:
617