1、综述 scikit-learn的线性回归模型都是通过最小化成本函数来计算参数的,通过矩阵乘法和求逆运算来计算参数。当变量很多的时候计算量会非常大,因此我们改用梯度下降法,批量梯度下降法每次迭代都用所有样本,快速收敛但性能不高,随机梯度下降法每次用一个样本调整参数,逐渐逼近,效率高,本节我们来利用 ...
分类:
其他好文 时间:
2017-03-13 13:15:21
阅读次数:
401
撰写日期:2017-03-12 多元真实情况未必是线性的,有时需要增加指数项,也就是多项式回归,现实世界的曲线关系都是通过增加多项式实现的,本节介绍用scikit-learn解决多项式回归问题。 1、住房价格成本 样本 面积(平方米) 价格(万元) 2、绘图 1 import sys 2 reloa ...
分类:
其他好文 时间:
2017-03-12 10:49:21
阅读次数:
136
一般情况下,一个因变量是和多个自变量有关的,比如一个商品的价格和原料价格、加工方法、上市时间、品牌价值等有关,也就是多元线性,本节介绍如何用scikit-learn解决多元线性回归问题。 1、多元线性回归模型 方程:Y=Xβ 求解多元线性回归问题就是求解β: 因为X不一定是方阵,所以不能直接β=X- ...
分类:
其他好文 时间:
2017-03-12 10:47:25
阅读次数:
205
1、概念 一元线性回归是最简单的一种模型,但应用广泛,比如简单地预测商品价格、成本评估等,都可以用一元线性模型,本节主要讲解scikit-learn一元线性回归的使用以及作图说明。 y=f(x)叫做一元函数,回归的意思就是根据已知数据复原某些值,线性回归(regression)就是用线性的模型做回归 ...
分类:
其他好文 时间:
2017-03-11 23:35:33
阅读次数:
253
简介: scikit-learn是一个基于NumPy、SciPy、Matplotlib的开源机器学习工具包。採用Python语言编写。主要涵盖分类、 回归和聚类等算法,比如knn、SVM、逻辑回归、朴素贝叶斯、随机森林、k-means等等诸多算法,官网上代码和文档 都非常不错,对于机器学习开发人员来 ...
分类:
其他好文 时间:
2017-03-08 22:33:30
阅读次数:
576
Spark机器学习Pipelines中的主要概念MLlib提供的API可以通过Pipelines将多个复杂的机器学习算法结合成单个pipeline或者单个工作流。这个概念和scikit-learn里的概念类似,根据官方的说法是,此抽象概念的设计灵感来自于scikit-learn。·DataFrame:通过SparkSQL组件里的DataFram..
分类:
其他好文 时间:
2017-03-08 01:27:33
阅读次数:
326
在Bagging与随机森林算法原理小结中,我们对随机森林(Random Forest, 以下简称RF)的原理做了总结。本文就从实践的角度对RF做一个总结。重点讲述scikit-learn中RF的调参注意事项,以及和GBDT调参的异同点。 1. scikit-learn随机森林类库概述 在scikit ...
分类:
其他好文 时间:
2017-03-07 00:15:08
阅读次数:
423
1. 一个简单的SVM实例: 2. 稍微复杂一点的线性可分SVM 结果如下: Missing parentheses in call to 'print'——python语法错误 这个消息的意思是你正在试图用python3.x来运行一个只用于python2.x版本的python脚本。 print"H ...
分类:
其他好文 时间:
2017-03-06 14:12:33
阅读次数:
574
scikit-learn库实现了一系列的数据挖掘,提供通用的编程接口、标准化的测试和调参工具主要包含:估计器:用于聚类、回归、分类分析转化器:用于数据的预处理和数据抓换流水线:组合数据挖掘的流程,便于再次使用估计器:为了实现大量的分类算法,该库把相关功能封装成所谓的估计器,主要包括两个函数: fit... ...
分类:
其他好文 时间:
2017-03-03 22:44:26
阅读次数:
418
Time:2017/02/24 21:50 at UTSZ Environment: pyCharm, python2.7 一般来讲,学习是指利用一些已知的样例数据来预测未知数据的属性。 1. 我们可以将学习问题分为如下的类别: 2. 机器学习的常用步骤(python): 3. 训练模型的保存和重新 ...
分类:
其他好文 时间:
2017-02-24 22:51:03
阅读次数:
322