KNN:k近邻算法-在训练样本中找到与待测样本距离相近的N个样本,并用这N个样本中所属概率最大的类别作为待测样本的类别。 算法步骤: 1、对训练中的样本数据的不同属性进行归一化处理。 2、计算待测样本到训练样本集中的距离。(欧拉距离或曼哈顿距离); 3、找到N个距离最小的样本属于不同类别的概率。 4 ...
分类:
其他好文 时间:
2018-11-12 15:50:43
阅读次数:
112
(1) 无监督和有监督算法的区别? 有监督学习: 对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。 无监督学习: 对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所 ...
分类:
其他好文 时间:
2018-11-09 12:12:22
阅读次数:
220
最优间隔分类器 最优间隔分类器 对于一个给定的数据集,目前有一个很现实的需求就是要找到一个合适的决策边界,使得样本中的最小间隔(几何间隔)最大,而且这样的分类器能够使得分割的训练样本集之间的间隔(gap)最大。现在,我们假设训练集合线性可分,即可以找一条超平面把正样本和负样本分割开来。那么我们如何找... ...
分类:
其他好文 时间:
2018-11-04 17:04:28
阅读次数:
241
1. 防止过拟合的方法有哪些? 过拟合(overfitting)是指在模型参数拟合过程中的问题,由于训练数据包含抽样误差,训练时,复杂的模型将抽样误差也考虑在内,将抽样误差也进行了很好的拟合。 产生过拟合问题的原因大体有两个:训练样本太少或者模型太复杂。 防止过拟合问题的方法: (1)增加训练数据。 ...
分类:
其他好文 时间:
2018-11-03 23:15:09
阅读次数:
349
1、决策树简介 1.1 决策树概述 决策树算法是一种基于树形结构的分类算法,它能从给定的无序的训练样本中,提炼出树型的分类模型,树形中包含判断模块和终止模块。它是一种典型的分类算法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数 ...
分类:
其他好文 时间:
2018-10-22 20:45:27
阅读次数:
189
本节构建一个网络,将路透社新闻划分为46个互斥的主题,也就是46分类 案例2:新闻分类(多分类问题) 1. 加载数据集 将数据限定在10000个最常见出现的单词,8982个训练样本和2264个测试样本 8982 2246 2. 将索引解码为新闻文本 3. 编码数据 4. 模型定义 5. 编译模型 对 ...
分类:
编程语言 时间:
2018-10-20 23:49:47
阅读次数:
314
机器学习的常用方法:主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。 监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是 ...
分类:
其他好文 时间:
2018-10-14 13:54:48
阅读次数:
130
1.Covariate Shift 当训练集的样本分布和测试集的样本分布不一致的时候,训练集训练得到的模型 不好繁华至测试集,这就是Covariate Shift问题。 需要根据目标样本的分支和训练样本的分布 的比例( P(x)/Q(x) ) 对训练样本做一个矫正。参考1 2 参考文献: 1.htt ...
分类:
其他好文 时间:
2018-10-14 02:02:10
阅读次数:
173
概念 决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习 优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据 步骤 导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_d ...
分类:
编程语言 时间:
2018-10-06 00:03:25
阅读次数:
288
1. k-近邻算法采用测量不同特征值之间的距离方法进行分类 优点:精度高、对异常值不敏感、无数据输入假定 缺点:计算复杂度高、空间复杂度高 适用数据类型:数值型和标称行 存在一个样本数据集合,称作为训练样本集。并且样本集中每个数据都存在标签(每一数据与所属分类的对应关系)。输入没有标签的新数据后,将 ...
分类:
编程语言 时间:
2018-10-01 23:10:56
阅读次数:
197