一、正则化基础 正则化等价于结构风险最小化,就是在经验风险后面加上了表示模型复杂度的正则化项或惩罚项。 正则化的作用是 选择经验风险和模型复杂度都较小的模型,减低模型复杂度,防止过拟合,提高泛化能力。 一般来说,高复杂度的模型容易过拟合,因为它需要学习更多的特征参数,而往往训练样本的数量不足以让其充 ...
分类:
其他好文 时间:
2018-06-19 20:08:11
阅读次数:
175
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。 监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是 ...
分类:
其他好文 时间:
2018-06-09 16:44:07
阅读次数:
179
1.1、Logistics Regression算法实践 有了上篇博客的理论准备后,接下来,我们用以及完成的函数,构建Logistics Regression分类器。我们利用线性可分的数据作为训练样本来训练。在构建模型的过程中,主要有两个步骤:(1)利用训练样本训练模型,(2)利用训练好的模型对新样 ...
分类:
编程语言 时间:
2018-05-28 15:03:09
阅读次数:
117
算法简介 KNN算法原理是:存在一个样本数据集合(训练样本集),并且样本集合中每个数据都已知该数据的分类。当输入没有标签的新数据时,我们将新数据的特征与已知样本集合进行逐个比较,提取K个最相近的数据的标签,标签最多的即为新数据的标签,完成分类计算。此处我们根据欧式距离进行抽象计算。 ...
分类:
编程语言 时间:
2018-05-27 19:37:53
阅读次数:
203
(1)感知器模型 感知器模型包含多个输入节点:X0-Xn,权重矩阵W0-Wn(其中X0和W0代表的偏置因子,一般X0=1,图中X0处应该是Xn)一个输出节点O,激活函数是sign函数。 (2)感知器学习规则 输入训练样本X和初始权重向量W,将其进行向量的点乘,然后将点乘求和的结果作用于激活函数sig ...
分类:
编程语言 时间:
2018-05-27 19:37:22
阅读次数:
322
先看数据: 特征如下: Time Number of seconds elapsed between each transaction (over two days) numeric V1 No description provided numeric V2 No description provi ...
分类:
其他好文 时间:
2018-05-25 14:01:19
阅读次数:
4119
工作原理: 分类算法。 输入未标记的新样本时,用算法提取训练样本集中和待分类的样本最近邻的K个分类标签(比如样本只有两个特征,在二维坐标系中用点来表示一个样本,选择和新样本点距离最近的K个点)。选取这k个分类标签中出现次数最多的分类,作为新数据的分类。 ...
分类:
编程语言 时间:
2018-05-18 17:12:50
阅读次数:
145
BP神经网络是一种按照误差逆向传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络。BP神经网络误差反向传播神经网络:置各权和阈值的初始化给定P个训练样本Xp(p=1,2,...,p)和对应的理想输出Dp(p=1,2,...p)信息前向传递:计算网络各层的输出4.误差反向传播5.修改权和阈值6.重复2~5步,直至P个样本都训练一边7.判断是否满足精度要求。若满足,则停止训练,否则重复第2步。
分类:
编程语言 时间:
2018-05-17 23:19:41
阅读次数:
234
k-近邻算法采用测量不同特征值之间的距离方法(上面写的公式)进行分类。 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 原理:1.存在一个训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数据与所属分类的对应关系。 2.输入没有标签的新数据后,将新 ...
分类:
其他好文 时间:
2018-05-14 23:05:15
阅读次数:
409
思路:通过改变训练样本权重,学习多个分类器,并将这些分类器进行线性组合,提高分类器性能。大多数提升方法都是改变训练数据的概率分布(数据的权值) 强可学习:存在一个多项式的学习算法能够学习他,并且正确率很高 弱可学习:存在一个多项式学习算法学习,正确率比随机猜测要好一些 具体问题: (1)在每一轮如何 ...
分类:
编程语言 时间:
2018-05-12 14:22:07
阅读次数:
177