Tensorflow+CNN下的mnist数据集手写数字识别 MNIST数据集包含55000个训练样本,10000个测试样本,还有5000个交叉验证数据样本。 输入:加载的每个手写数字图像是28 x 28像素大小的灰度图像。为了简化起见,将28x28的像素点展开为一维数据(shape=784)。 输 ...
分类:
其他好文 时间:
2019-03-02 18:50:23
阅读次数:
248
数据集拆分 交叉验证 网格搜索 通常情况下,有很多参数是需要手动指定的(如k-近邻算法中的K值), 这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组 合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建 立模型。 精确率(Precision)与召回率(Recall) ...
分类:
其他好文 时间:
2019-01-29 18:31:07
阅读次数:
231
1.为了描述SVM,需要从logistic回归开始进行学习,通过改变一些小的动作来进行支持向量机操作。在logistic回归中我们熟悉了这个假设函数以及右边的sigmoid函数 (1)如果我们有一个样本,其中y=1,这样的一个样本来自训练集或者测试集或者交叉验证集,我们希望h(x)能尽可能的接近1。 ...
分类:
其他好文 时间:
2019-01-29 18:22:36
阅读次数:
185
1:对于分类数据来说,它们的target可能分配是不均匀的,比如在医疗数据当中得癌症的人比不得癌症的人少很多,这个时候,使用的数据划分方法有 StratifiedKFold ,StratifiedShuffleSplit 2:对于分组数据来说,它的划分方法是不一样的,主要的方法有 GroupKFol ...
分类:
其他好文 时间:
2019-01-17 15:10:50
阅读次数:
196
1.GridSeach(RandomRegressor(), param_grid, cv=3) GridSearch第一个参数是算法本身, 第二个参数是传入的参数组合, cv表示的是交叉验证的次数 GridSearch 对给定的参数进行两两的组合搜索,比如参数为[1, 2, 3], [1, 2, ...
分类:
其他好文 时间:
2019-01-17 10:53:39
阅读次数:
1914
1.数据集的划分: 训练集(train), 交叉验证集(dev):用来选取最好的模型,选择最好的算法(需要验证的可能是很多个算法) 测试集(test):用来评估 有时候不需要无偏估计的时候,就只需要训练集和验证集 确保dev ,train来自同一个分布 划分:70%train dev 30%test ...
分类:
其他好文 时间:
2019-01-15 14:10:30
阅读次数:
239
python机器学习基础,以Python语言介绍。主要内容包括:机器学习的基本概念及其应用;实践中最常用的机器学习算法以及这些算法的优缺点;在机器学习中待处理数据的呈现方式的重要性,以及应重点关注数据的哪些方面;模型评估和调参的高级方法,交叉验证和网格搜索;管道的概念;如何应用到文本数据上,文本特有的处理方法。机器学习实战,切入日常工作任务,摒弃学术化语言,利用高效的可复用Python代码来阐释如
分类:
编程语言 时间:
2018-12-22 12:39:42
阅读次数:
171
K-近邻算法的直观理解就是:给定一个训练集合,对于新的实例,在训练集合中找到k个与该实例最近的邻居,然后根据“少数服从多数”原则判断该实例归属于哪一类,又称“随大流” K-近邻算法的三大要素:K值得选取,邻居距离度量,分类决策的制定。 (1)K值选取:通常采用交叉验证选取最优的K值(自己了解) (2 ...
分类:
编程语言 时间:
2018-12-19 19:36:26
阅读次数:
240
第四周:深层神经网络(Deep Neural Networks) 1、深层神经网络(Deep L-layer neural network) 在打算使用深层神经网络之前,先去尝试逻辑回归,尝试一层然后两层隐含层,把隐含层的数量看做是另一个可以自由选择大小的超参数,然后再保留交叉验证数据上评估,或者用 ...
分类:
其他好文 时间:
2018-12-17 02:15:27
阅读次数:
220
K层交叉检验就是把原始的数据随机分成K个部分。在这K个部分中,选择一个作为测试数据,剩下的K-1个 作为训练数据。 交叉检验的过程实际上是把实验重复做K次,每次实验都从K个部分中选择一个不同的部分 作为测试数据(保证K个部分的数据都分别做过测试数据),剩下的K-1个当作训练数据进行实验,最后把 得到 ...
分类:
其他好文 时间:
2018-12-12 20:33:37
阅读次数:
221