简介: scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包。採用Python语言编写。主要涵盖分类、 回归和聚类等算法,比如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档 都非常不错,对于机器学习开发人员来 ...
分类:
其他好文 时间:
2017-03-08 22:33:30
阅读次数:
576
Spark机器学习Pipelines中的主要概念MLlib提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn。·DataFrame:通过SparkSQL组件里的DataFram..
分类:
其他好文 时间:
2017-03-08 01:27:33
阅读次数:
326
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。 1. scikit-learn随机森林类库概述 在scikit ...
分类:
其他好文 时间:
2017-03-07 00:15:08
阅读次数:
423
1. 一个简单的SVM实例: 2. 稍微复杂一点的线性可分SVM 结果如下: Missing parentheses in call to 'print'——python语法错误 这个消息的意思是你正在试图用python3.x来运行一个只用于python2.x版本的python脚本。 print"H ...
分类:
其他好文 时间:
2017-03-06 14:12:33
阅读次数:
574
scikit-learn库实现了一系列的数据挖掘,提供通用的编程接口、标准化的测试和调参工具主要包含:估计器:用于聚类、回归、分类分析转化器:用于数据的预处理和数据抓换流水线:组合数据挖掘的流程,便于再次使用估计器:为了实现大量的分类算法,该库把相关功能封装成所谓的估计器,主要包括两个函数: fit... ...
分类:
其他好文 时间:
2017-03-03 22:44:26
阅读次数:
418
Time:2017/02/24 21:50 at UTSZ Environment: pyCharm, python2.7 一般来讲,学习是指利用一些已知的样例数据来预测未知数据的属性。 1. 我们可以将学习问题分为如下的类别: 2. 机器学习的常用步骤(python): 3. 训练模型的保存和重新 ...
分类:
其他好文 时间:
2017-02-24 22:51:03
阅读次数:
322
又查查了回归分析的基本概念,这里记录一下,年纪大了容易忘lol 线性回归模型Linear Regression Models: 例如数据有n个观察结果(yi,xi)i从1到n,yi是这个观察的响应标量值(a scalar response),xi是一组含p个预言值(predictor)的向量 在线性 ...
分类:
其他好文 时间:
2017-02-15 10:47:48
阅读次数:
158
转自 http://scikit-learn.org/stable/tutorial/basic/tutorial.html#machine-learning-the-problem-setting In general, a learning problem considers a set of ...
分类:
系统相关 时间:
2017-01-28 20:29:02
阅读次数:
415
一、更新python版本 1. 查看python版本 [root@localhost ipython-5.1.0]# python -V Python 2.6.6 2. 下载python-2.7.3 https://www.python.org/download/releases/2.7.3/ Py ...
分类:
其他好文 时间:
2017-01-19 21:42:44
阅读次数:
270
常用Python机器学习包 Numpy:用于科学计算的包 Pandas:提供高性能,易于使用的数据结构和数据分析工具 Scipy:用于数学,科学工程的软件 StatsModels:用于探索数据、估计统计模型、统计检验 Scikit-learn:提供经典的机器学习算法用于数据挖掘和数据分析 matpl ...
分类:
编程语言 时间:
2017-01-14 13:39:40
阅读次数:
237