比方说,用100k条数据,有两个思路 1. 用这100k条数据做k-fold交叉验证,来调模型参数 2. 先随机划分出70k条数据做训练集用来根据交叉验证调参数,调好之后再用剩下的30k条数据做测试集 【答】 虽然这两个都没有错对之分,但是在数据量允许的情况下,更建议第2个思路。 对于思路1,如果用 ...
分类:
其他好文 时间:
2018-01-29 17:39:24
阅读次数:
153
Spark中的CrossValidation Spark中采用是k折交叉验证 (k-fold cross validation)。举个例子,例如10折交叉验证(10-fold cross validation),将数据集分成10份,轮流将其中9份做训练1份做验证,10次的结果的均值作为对算法精度的估 ...
分类:
其他好文 时间:
2018-01-18 17:12:27
阅读次数:
206
十、应用机器学习的建议(Advice for Applying Machine Learning) 10.1 决定下一步做什么 10.2 评估一个假设 10.3 模型选择和交叉验证集 10.4 诊断偏差和方差 10.5 正则化和偏差/方差 10.6 学习曲线 10.7 决定下一步做什么 十一、机器学 ...
分类:
其他好文 时间:
2018-01-17 00:59:47
阅读次数:
238
绘制学习曲线非常有用,比如你想检查你的学习算法,运行是否正常。或者你希望改进算法的表现或效果。那么学习曲线就是一种很好的工具。学习曲线可以判断某一个学习算法,是偏差、方差问题,或是二者皆有。 为了绘制一条学习曲线,通常先绘制出训练集数据的平均误差平方和(Jtrain),或者交叉验证集数据的平均误差平 ...
分类:
移动开发 时间:
2018-01-14 18:36:52
阅读次数:
282
三段论 Why What How 为什么用交叉验证法? 什么是交叉验证法? 主要有哪些方法? Python代码实例(sklearn) 一、为什么用交叉验证? The Goal is always to Generalize(泛化) Test Set 对于未知未来世界的假设,构建模型时绝对不可以动,否 ...
分类:
其他好文 时间:
2018-01-13 12:44:52
阅读次数:
413
一、确定目标 业务需求 数据 特征工程 (占70%,主要包括数据的清洗,提取,转换) 二、训练模型 定义模型 定义损失函数 (偏差的大小) 优化算法 三、模型评估 交叉验证 效果评估 ...
分类:
其他好文 时间:
2018-01-06 11:54:20
阅读次数:
110
首先,为什么要交叉验证:目的有两个: 1.选择合适的模型 2.选择合适的参数 1.对于一个问题,可以用模型m1,m2,不知道哪个的准确率高,可以交叉验证一下,从而选择用哪个 2.对于一个模型,参数的选择会影响结果,所以用交叉验证选择最合适的参数 然后,常用的交叉验证的方式是k折交叉验证(k-fold ...
分类:
其他好文 时间:
2017-12-26 17:56:00
阅读次数:
203
过拟合 过拟合相当于一个人只会读书,却不知如何利用知识进行变通。 相当于他把考试题目背得滚瓜烂熟,但一旦环境稍微有些变化,就死得很惨。 从图形上看,类似下图的最右图: 从数学公式上来看,这个曲线应该是阶数太高的函数,因为一般任意的曲线都能由高阶函数来拟合,它拟合得太好了,因此丧失了泛化的能力。 用L ...
分类:
其他好文 时间:
2017-12-25 13:41:50
阅读次数:
401
交叉验证(Cross validation),有时亦称循环估计, 是一种统计学上将数据样本切割成较小子集的实用方法。于是可以先在一个子集上做分析, 而其它子集则用来做后续对此分析的确认及验证。 一开始的子集被称为训练集。而其它的子集则被称为验证集或测试集。交叉验证是一种评估统计分析、机器学习算法对独 ...
分类:
其他好文 时间:
2017-12-22 12:27:10
阅读次数:
140
集成开发环境:Pycharm python版本:2.7(anaconda库) 用到的库:科学计算库numpy,数据分析包pandas,画图包matplotlib,机器学习库sklearn 大体步骤分为三步: 1.数据分析 2.交叉验证 3.预测并输出结果 导入库函数 第一步:数据分析 1.1通过画图 ...
分类:
其他好文 时间:
2017-12-15 18:15:54
阅读次数:
235