一、监督学习 supervised learning 已有训练样本和分类器,通过训练样本来得到分类器的最佳模型,再利用这个模型来处理新样本。 (1)分类 (2)回归 (3)结构学习 structured learning (4)深度学习 常见算法: 反向传播算法 BP算法 二、半监督学习 semi- ...
分类:
其他好文 时间:
2017-11-29 21:58:14
阅读次数:
178
该算法由facebook在2016年开源,典型应用场景是“带监督的文本分类问题”。 模型 模型的优化目标如下: 其中,$<x_n,y_n>$是一条训练样本,$y_n$是训练目标,$x_n$是normalized bag of features。矩阵参数A是基于word的look-up table,也 ...
分类:
编程语言 时间:
2017-11-27 14:18:25
阅读次数:
179
1损失函数和代价函数的区别: 损失函数(Loss function):指单个训练样本进行预测的结果与实际结果的误差。 代价函数(Cost function):整个训练集,所有样本误差总和(所有损失函数总和)的平均值。(这一步体现在propagate()函数中的第32行) ...
分类:
其他好文 时间:
2017-11-24 22:45:32
阅读次数:
221
Output: The error rate is: 0.1 背景:为什么要做平滑处理? 零概率问题,就是在计算实例的概率时,如果某个量x,在观察样本库(训练集)中没有出现过,会导致整个实例的概率结果是0。在文本分类的问题中,当一个词语没有在训练样本中出现,该词语调概率为0,使用连乘计算文本出现概率 ...
分类:
编程语言 时间:
2017-11-19 17:25:21
阅读次数:
162
K近邻算法采用测量不同特征值之间的距离方法进行分类 K近邻算法特点: 优点:精度高、对异常值不敏感、无数据输入假定。 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型。 K近邻算法原理: 存在一个样本数据集合,也称作训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一数 ...
分类:
编程语言 时间:
2017-11-07 23:56:41
阅读次数:
298
1. 二分类问题 样本: ,训练样本包含 个; 其中 ,表示样本 包含 个特征; ,目标值属于0、1分类; 训练数据: 输入神经网络时样本数据的形状: 目标数据的形状: 2. logistic Regression 逻辑回归中,预测值: 其表示为1的概率,取值范围在 之间。 引入Sigmoid函数, ...
分类:
其他好文 时间:
2017-11-04 00:26:29
阅读次数:
347
概述 该算法采用测量不同特征值之间的距离方法进行分类。 优点:精度高,对异常值不敏感,无数据输入假定。 缺点:计算复杂度高,每次测试样本中的一个数据都要和训练样本所有数据进行距离计算,所以耗费的时间长,效率不高。空间复杂都高,需要存储大量数据,占用大量存储空间 使用数据范围:数值型,标称型(标称型数 ...
分类:
编程语言 时间:
2017-10-31 14:11:09
阅读次数:
188
提升(boosting) 方法是一种常用的统计学习方法,应用广泛且有效.在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能.本章首先介绍提升方法的思路和代表性的提升算法AdaBoost; 然后通过训练误差分析探讨AdaBoost 为什么能够提高学习精度 ...
分类:
其他好文 时间:
2017-10-29 22:02:51
阅读次数:
188
判别分析(discriminant analysis)是一种分类技术。它通过一个已知类别的“训练样本”来建立判别准则,并通过预测变量来为未知类别的数据进行分类。判别分析的方法大体上有三类,即Fisher判别、Bayes判别和距离判别。 Fisher判别思想是投影降维,使多维问题简化为一维问题来处理。 ...
分类:
编程语言 时间:
2017-10-28 11:13:35
阅读次数:
206
1. 在保留交叉验证(hand-out cross validation)中,随机将训练样本集分成训练集(training set)和交叉验证集(cross validation set),比如分别占70%,30%。然后使用模型在训练集上学习得到假设。最后使用交叉验证集对假设进行验证,看预测的是否准 ...
分类:
其他好文 时间:
2017-10-27 19:53:40
阅读次数:
163