作者:Edwin Jarvis 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。 特征选择主要有两个功能: 减少特征数量、降维,使模型泛化能力更强,减少过拟合 增强对特征和特征值
分类:
其他好文 时间:
2016-02-11 00:29:01
阅读次数:
474
引入一个机器能够依据照片来辨别鲜花的品种吗?在机器学习角度,这事实上是一个分类问题。即机器依据不同品种鲜花的数据进行学习。使其能够对未标记的測试图片数据进行分类。 这一小节。我们还是从scikit-learn出发,理解主要的分类原则,多动手实践。Iris数据集Iris flower数...
分类:
编程语言 时间:
2016-01-24 14:10:04
阅读次数:
826
??
内容概要¶
如何使用K折交叉验证来搜索最优调节参数如何让搜索参数的流程更加高效如何一次性的搜索多个调节参数在进行真正的预测之前,如何对调节参数进行处理如何削减该过程的计算代价
1. K折交叉验证回顾¶
交叉验证的过程
选择K的值(一般是10),将数据集分成K等份使用其中的K-1份数据作为训练数据,另外一份数据作为测试数据,进行模型的训练使用一种度量测度来衡量...
分类:
其他好文 时间:
2016-01-22 18:16:39
阅读次数:
315
scikit-learn 是机器学习领域非常热门的一个开源库,基于Python 语言写成。可以免费使用。
网址: http://scikit-learn.org/stable/index.html上面有很多的教程,编程实例。而且还做了很好的总结,下面这张图基本概括了传统机器学习领域的大多数理论与相关算法。我们可以看到,机器学习分为四大块,分别是 classification (分类), clust...
分类:
其他好文 时间:
2016-01-19 14:33:36
阅读次数:
141
感知机具体说明:见《统计学习方法第二章》。实现(scikit-learn):数据集 1 import numpy as np 2 import matplotlib.pyplot as plt 3 from sklearn.linear_model import perceptron 4 5 # ....
分类:
系统相关 时间:
2016-01-03 14:52:14
阅读次数:
239
原文:http://www.cnblogs.com/cyttina/archive/2013/06/08/3127345.htmlubuntu的看官方的文档就好了。http://scikit-learn.org/stable/install.html我使用的是centOS,python为2.7.3关...
分类:
系统相关 时间:
2015-12-17 12:58:34
阅读次数:
318
User Guide 第三部分Model selection and evaluation1Cross-validation: evaluating estimator performance在同一数据集上学习预测函数的参数然后进行测试是一个方法上的错误:这种模型会得到一个很好的分数,让分类器重复看...
分类:
其他好文 时间:
2015-12-11 22:29:32
阅读次数:
270
第二章:User Guide Supervised learning1 一般的线性模型下面的一些方法是用来处理输入变量和目标值之间具有线性关系的回归问题。以数学上的观念来看,如果是预测值,那么在这个公式中,我们抽象出向量作为coef_,而作为intercept_如果想使用一般的线性模型来处理分类问题...
分类:
其他好文 时间:
2015-12-10 21:55:15
阅读次数:
198
特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能,更能帮助我们理解数据的特点、底层结构,这对进一步改善模型、算法都有着重要作用。特征选择主要有两个功能:减少特征数量、降维,使模型泛化能力更强,减少过拟合增强对特征和特征值之间的理解拿到数据集,一个特征选择方法...
分类:
其他好文 时间:
2015-12-10 13:09:43
阅读次数:
187
原文:http://blog.csdn.net/zouxy09/article/details/48903179一、概述 机器学习算法在近几年大数据点燃的热火熏陶下已经变得被人所“熟知”,就算不懂得其中各算法理论,叫你喊上一两个著名算法的名字,你也能昂首挺胸脱口而出。当然了,算法之林虽大,但能者.....
分类:
编程语言 时间:
2015-12-07 18:40:05
阅读次数:
303