目录第一部分 入门第2章 创建数据集第3章 图形初阶第4章 基本数据管理第5章 高级数据管理 第二部分 基本方法第6章 基本图形第7章 基本统计分析 第三部分 中级方法第8章 回归第9章 方差分析第10章 功效分析第11章 中级绘图第12章 重抽样与自助法 第四部分 高级方法第13章 广义线性模型第 ...
分类:
编程语言 时间:
2018-07-22 00:10:06
阅读次数:
237
本文内容来自周志阳《机器学习》 问题: 对于一个只包含$m$个样例的数据集$D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m,y_m)$,如何适当处理,从$D$中产生训练集$S$和测试集$T$? 下面介绍三种常见的做法: + 留出法 + 交叉验证法 + 自助法 留出法(hold ...
分类:
其他好文 时间:
2018-04-13 22:30:34
阅读次数:
1872
2.1经验误差与过拟合 2.2评估方法 2.2.1留出法 2.2.2交叉验证法 2.2.3自助法 2.2.4调参与最终模型 2.3性能度量 2.3.1错误率与精度 2.3.2查准率、查全率与F1 2.3.3ROC与AUC 2.3.4代价敏感错误与代价曲线 2.4比较检验 2.4.1假设检验 2.4. ...
分类:
其他好文 时间:
2018-03-12 00:02:41
阅读次数:
193
经验误差 泛化误差 过拟合 评估方法 留出法 采用分层采样的方式留出验证集 交叉验证法 将数据集均分k份,留出一份作为交叉验证集,重复k次取均值 自助法 随机可重复采样m次,所得集合作为训练集,余下数据作为验证集 在数据集较小时,自助法比较可靠 在数据集较大时,留出法和交叉验证法更常用一些 调参与最 ...
分类:
其他好文 时间:
2017-09-19 11:01:12
阅读次数:
134
自助法介绍: 非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法,也称为自助法。其核心思想和基本步骤如下:(1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计算给定的统计量T。 (3)重复上述B次(一般大于1000),得到N个统计量 ...
分类:
其他好文 时间:
2017-05-09 00:55:01
阅读次数:
138
Bootstrap(自助法),Bagging,Boosting(提升): 通俗易懂:http://www.jianshu.com/p/708dff71df3a Bootstrap:就是一个在自身样本重采样的方法来估计真实分布的问题 集成学习(ensemble learning):结合后能得到更合理的 ...
分类:
其他好文 时间:
2017-03-26 17:59:41
阅读次数:
139
1 booststraping:意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。 其核心思想和基本步骤如下: (1)采用重抽样技术从原始样本中抽取一定数量(自己给定)的样本,此过程允许重复抽样。 (2)根据抽出的样本计 ...
分类:
其他好文 时间:
2016-11-11 07:19:50
阅读次数:
2389
Bootstraping: 名字来自成语“pull up by your own bootstraps”,意思是依靠你自己的资源,称为自助法,它是一种有放回的抽样方法,它是非参数统计中一种重要的估计统计量方差进而进行区间估计的统计方法。其核心思想和基本步骤如下: (1) 采用重抽样技术从原始样本中抽 ...
分类:
其他好文 时间:
2016-08-17 17:54:50
阅读次数:
193
可以转载,禁止修改。转载请注明作者和原文链接。 先用人话来描述一下这个问题:有两个收益不固定的投资项目,如何将一笔固定的金额分开投资,才能使总投资风险最小? 再用数学语言来描述一下这个问题,对于两个收益分别为X和Y的金融资产,X、Y为随机变量,把比例为α的金额投到X上,把剩下比例为1-α的金额投到Y ...
分类:
其他好文 时间:
2016-07-14 02:29:17
阅读次数:
303
简单地看了一些入门的资料。 随机森林似乎和CART有些联系。 随机森林的算法步骤: 1. 利用自助法(Bootstrap)从原始训练集中生成k个自助样本集,每个自助样本集是每棵分类树的全部训练数据。自助法(Bootstrap):从原始的样本容量为N的训练集合中随机抽取N个样本生成新的训练集,抽样的方 ...
分类:
其他好文 时间:
2016-04-20 00:41:21
阅读次数:
146