第4章 分类:基本概念、决策树与模型评估 分类任务就是确定对象属于哪个预定义的目标类。分类问题是一个普遍存在的问题,有许多不同的应用。例如:根据电子邮件的标题和内容检查出垃圾邮件,根据核磁共振扫描的结果区分肿瘤是恶性的还是良性的,根据星系的形状对它们进行分析。 本章介绍分类的基本概念,讨论诸如模型的 ...
分类:
其他好文 时间:
2016-09-17 21:58:46
阅读次数:
1353
2.1 经验误差与过拟合 基本概念: 错误率:分类错误数/总样本数 训练误差/经验误差:学习器在训练集上所产生的误差 泛化误差:学习器在测试集上产生的误差 2.2 评估方法 在实际应用中会有多种不同的算法进行选择,对于不同的问题,我们该选择用哪种学习算法和参数配置,是机器学习中的模型选择。无法直接获 ...
分类:
其他好文 时间:
2016-09-15 15:06:30
阅读次数:
212
简介 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了。scikit-learn简称sklearn,支持包括分类、回归、降维和聚类四大机器学习算法。还包含了特征提取、数据处理和模型评估三大模块。 sklearn是Scipy的扩展,建立在NumPy和matplotl ...
分类:
其他好文 时间:
2016-08-11 00:56:07
阅读次数:
367
摘要:写本文的初衷源于基于HMM模型序列标注的一个实验,实验完成之后,迫切想知道采用的序列标注模型的好坏,有哪些指标可以度量。于是,就产生了对这一专题进度学习总结,这样也便于其他人参考,节约大家的时间。本文依旧旨在简明扼要梳理出模型评估核心指标,重点达到实用。本文布局如下:第一章采用统计学习角度介绍... ...
分类:
其他好文 时间:
2016-07-19 20:28:08
阅读次数:
535
第2章 模型评估与选择 2.1 经验误差与过拟合 学习器在训练集上的误差称为“训练误差”或“经验误差”,在新样本上的误差称为“泛化误差”;过拟合一般是由于学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了,而欠拟合则通常是由学习能力低下而造成的。欠拟合比较容易克服,例如在决策树学习中扩 ...
分类:
其他好文 时间:
2016-07-19 09:11:33
阅读次数:
622
1.训练误差:学习器在训练集上的误差,也称“经验误差” 2.泛化误差:学习器在新样本上的误差 显然,我们的目标是得到在新样本上表现更好的学习器,即泛化误差要小 3.过拟合:学习器把训练样本学的太好了,导致泛化性能下降(学过头了。。。让我联想到有些人死读书,读死书,僵化,不懂得变通和举一反三) 原因: ...
分类:
其他好文 时间:
2016-06-30 12:32:55
阅读次数:
183
机器学习教程一-不懂这些线性代数知识别说你是搞机器学习的(2016-04-01)机器学习教程二-安装octave绘制3D函数图像(2016-04-30)机器学习教程三-用scikit-learn求解一元线性回归问题(2016-05-30)机器学习教程四-用scikit-learn求解多元线性回归问题(2016-05-30)机器学习教程五-用..
分类:
其他好文 时间:
2016-06-24 22:23:51
阅读次数:
215
实现回归模型
为了用python实现高效的数值计算,我们通常会使用函数库,比如NumPy,会把类似矩阵乘法这样的复杂运算使用其他外部语言实现。不幸的是,从外部计算切换回Python的每一个操作,仍然是一个很大的开销。如果你用GPU来进行外部计算,这样的开销会更大。用分布式的计算方式,也会花费更多的资源用来传输数据。
TensorFlow也把复杂的计算放在python之外完成,但是为了避...
分类:
其他好文 时间:
2016-05-06 15:34:14
阅读次数:
380
http://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%BA%E6%A8%A1LDA主题模型评估方法--Perplexityhttp://www.52nlp.cn/lda-math-lda-%E6%96%87%E6%9C%AC%E5%BB%...
分类:
其他好文 时间:
2016-01-22 21:38:15
阅读次数:
1776
1、业界数据挖掘方法论2、在工作中,我们进行数据挖掘实施指导方法:应用建模的八步法:业务理解、指标设计、数据提取、数据探索、算法选择、模型评估、模型发布、模型优化步骤一:业务理解 常见的误区:很多人以为不需要事先确定问题和目标,只要对数据使用数据挖掘技术,然后再对分析挖掘后的结果进行寻找和解释,自然...
分类:
其他好文 时间:
2015-10-12 14:25:11
阅读次数:
231