其他问题 1. 模型选择、欠拟合和过拟合 1.1 训练误差和泛化误差 1.2 模型选择 1.2.1 验证数据集 1.2.2 $K$ 折交叉验证 由于验证数据集不参与模型训练,当训练数据不够用时,预留大量的验证数据显得太奢侈。一种改善的方法是$K$折交叉验证($K$ fold cross valida ...
分类:
其他好文 时间:
2020-02-06 23:24:59
阅读次数:
101
sklearn.model_selection.train_test_split随机划分训练集和测试集 一般形式: train_test_split是交叉验证中常用的函数,功能是从样本中随机的按比例选取train data和testdata,形式为: X_train,X_test, y_train, ...
分类:
其他好文 时间:
2020-02-01 12:49:55
阅读次数:
148
前面一节咱们已经介绍了决策树的原理已经在sklearn中的应用。那么这里还有两个数据处理和sklearn应用中的小知识点咱们还没有讲,但是在实践中却会经常要用到的,那就是交叉验证cross_validation和Pipeline。cross_validation是保证了咱们的模型不受数据分布的影响, ...
分类:
其他好文 时间:
2020-01-26 22:21:38
阅读次数:
96
任务流程: 1.读取图片文件 2.用knn识别图片文件并用k折交叉验证调参 3.用PCA对文件降维,用knn识别文件 4.抽取图片特征然后交给knn训练 一、文件的读取、可视化、以及采样 数据的初始化及其读取: from load_data import load_CIFAR10 import nu ...
分类:
其他好文 时间:
2020-01-19 00:03:13
阅读次数:
108
本篇博客代码来自于《动手学深度学习》pytorch版,也是代码较多,解释较少的一篇。不过好多方法在我以前的博客都有提,所以这次没提。还有一个原因是,这篇博客的代码,只要好好看看肯定能看懂(前提是python语法大概了解),这是我不加很多解释的重要原因。 K折交叉验证实现 def get_k_fold ...
分类:
其他好文 时间:
2020-01-08 22:56:36
阅读次数:
439
自动交叉使用法 load_builtin()方法将提供下载movielens 100k数据集 cross_validate() 函数根据cv参数运行交叉验证程序,并计算一些accuracy措施。我们在这里使用经典的3倍交叉验证。 过程有点漫长~~~~~~~~~~~~,耐心等待 未更新完~ ...
分类:
其他好文 时间:
2020-01-07 20:10:33
阅读次数:
367
下面要说的基本都是《动手学深度学习》这本花书上的内容,图也采用的书上的 首先说的是训练误差(模型在训练数据集上表现出的误差)和泛化误差(模型在任意一个测试数据集样本上表现出的误差的期望) 模型选择 验证数据集(validation data set),又叫验证集(validation set),指用 ...
分类:
其他好文 时间:
2020-01-06 11:13:27
阅读次数:
446
使用朴素贝叶斯解决一些现实生活中 的问题时,需要先从文本内容得到字符串列表,然后生成词向量。 准备数据:切分文本 测试算法:使用朴素贝叶斯进行交叉验证 文件解析及完整的垃圾邮件测试函数 ...
分类:
编程语言 时间:
2019-12-15 10:56:42
阅读次数:
112
<! TOC "kaggle竞赛" "获取和读取数据集" "数据预处理" "找出所有数值型的特征,然后标准化" "处理离散值特征" "转化为DNArray后续训练" "训练模型" "k折交叉验证" "预测样本,并提交结果" <! /TOC kaggle竞赛 本节将动手操作实践一个kaggle比赛,房 ...
分类:
其他好文 时间:
2019-12-14 11:45:48
阅读次数:
202
大纲: 算法分类有监督学习与无监督学习分类问题与回归问题生成模型与判别模型强化学习评价指标准确率与回归误差ROC曲线交叉验证模型选择过拟合与欠拟合偏差与方差正则化 半监督学习归类到有监督学习中去。 有监督学习大部分问题都是分类问题,有监督中的分类问题分为生成式模型和判别模型。 分类问题常用的评价指标 ...
分类:
其他好文 时间:
2019-11-30 18:55:39
阅读次数:
98