1. Dropout简介 1.1 Dropout出现的原因 在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。在训练神经网络的时候经常会遇到过拟合的问题,过拟合具体表现在:模型在训练数据上损失函数较小,预测准确率较高;但是在测试数据上损失函数比较大,预测 ...
分类:
其他好文 时间:
2018-09-27 19:46:08
阅读次数:
196
解决训练任务,包括两部分内容: 第一部分:针对给定的训练样本计算输出。这与query()函数所做的工作没什么区别。 第二部分:将计算所得到的输出与期望的目标值做对比,使用差值来指导网络权重的更新。 其中,第一部分的代码如下所示: 这部分与query()中的区别在于多了一个期望值,因为我们需要期望值来 ...
分类:
其他好文 时间:
2018-09-23 22:24:16
阅读次数:
230
本文主要讲述的是基于自训练的半监督学习算法做文本分类,自训练算法是半监督学习中比较常见的方法之一,但是自训练方法有一个很大的问题,在迭代过程中,如果初始训练样本集中已标注样本的数量过少,则可能会出现错误标注,并通过迭代使错误逐渐被放大,最终导致错误累积。所以我们采用对未标注样本重复标记策略来优化自训... ...
分类:
编程语言 时间:
2018-09-23 16:27:25
阅读次数:
367
约定符号: m = 训练样本数 x = 输入变量(特征) y = 输出变量(目标变量) (x,y) = 表示一个样本 $\left ( x^{(i)},y^{(i)} \right )$ = 第i个样本 ...
分类:
其他好文 时间:
2018-09-21 18:26:51
阅读次数:
132
一句话总结kNN算法 核心:模板匹配,将样本分到离它最相似的样本所属的类。 kNN算法本质上使用了模板匹配的思想。要确定一个样本的类别,可以计算它与所有训练样本的距离,然后找出和该样本最接近的k个样本,统计这些样本的类别进行投票,票数最多的那个类就是分类结果。下图是kNN算法的示意图: 在上图中有红 ...
分类:
编程语言 时间:
2018-09-19 12:25:22
阅读次数:
127
一、简介 支持向量机(support vector machines)是一种二分类模型,它的目的是寻找一个超平面来对样本进行分割,分割的原则是间隔最大化,最终转化为一个凸二次规划问题来求解。由简至繁的模型包括: (1)当训练样本线性可分时,通过硬间隔最大化,学习一个线性可分支持向量机; (2)当训练 ...
分类:
其他好文 时间:
2018-09-16 15:57:37
阅读次数:
237
1. 什么是过拟合问题 所谓过拟合问题指的是使用训练样本进行训练时100%正确分类或规划,当使用测试样本时则不能正确分类和规划 2. 代码实战(模拟过拟合问题) 注意:当使用gramma=0.0001时没有过拟合问题; 当使用gramma=0.001时出现了过拟合问题 ...
分类:
其他好文 时间:
2018-09-09 20:03:30
阅读次数:
359
使用captcha.image.Image 生成随机验证码,随机生成的验证码为0到9的数字,验证码有4位数字组成,这是一个自己生成验证码,自己不断训练的模型 使用三层卷积层,三层池化层,二层全连接层来进行组合 第一步:定义生成随机验证码图片 第二步: 生成训练样本 第三步: 定义CNN,这里的CNN ...
分类:
编程语言 时间:
2018-09-03 13:51:04
阅读次数:
258
奇异点、异常点检查 定义: 1)、novelty detection:当训练数据中没有离群点,我们的目标是用训练好的模型去检测另外新发现的样本; 2)、outlier detection:当训练数据中包含离群点,模型训练时要匹配训练数据的中心样本,忽视训练样本中的其它异常点; sklearn提供了一 ...
分类:
其他好文 时间:
2018-08-30 20:10:28
阅读次数:
198
乳腺癌检测问题 1.使用数据:sklearn自带乳腺癌数据集 1.可以看出使用二阶段像是并使用L1范数作为正则项的模型为最优模型; 2.可以看出,训练样本评分和交叉验证样本评分之间的间隙还比较大,即方差比较大,可以采集更多的数据,以便于对模型进行优化。 ...
分类:
其他好文 时间:
2018-08-21 21:13:47
阅读次数:
413