k-近邻算法(kNN):测量不同特征值之间的距离方法进行分类。 kNN的工作原理:存在一个样本数据集合(训练样本集),并且样本集中每个数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类标签。一般来说,只选择样本数据...
分类:
其他好文 时间:
2014-12-30 16:48:27
阅读次数:
209
前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现。 (说明:从本文开始,将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数,以用于分类。)算法原理 首先要提到的概念是回归。 对于回归这个概念,在以后的文章会有系...
分类:
编程语言 时间:
2014-12-30 13:29:14
阅读次数:
615
分类:将实例数据划分到合适的分类中。目标变量是离散型。回归:预测数值型数据。目标变量是连续型的数值。监督学习:必须知道预测什么,即目标变量的分类信息。目标变量是机器学习算法的预测结果。开发机器学习应用程序的步骤:1)收集数据;2)准备输入数据;3)分析输入数据;4)训练算法;5)测试算法;6)使用算...
分类:
其他好文 时间:
2014-12-28 20:46:50
阅读次数:
109
zaish上一节讲了线性回归中L2范数的应用,这里继续logistic回归L2范数的应用。 先说一下问题:有一堆二维数据点,这些点的标记有的是1,有的是0.我们的任务就是制作一个分界面区分出来这些点。如图(标记是1的样本用+表示,0的用红点表示): 这其实是一个二分类问题,然后我们就想到了logis...
分类:
其他好文 时间:
2014-12-27 15:07:33
阅读次数:
293
在本节中,我们介绍Softmax回归模型,该模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签可以取两个以上的值。 Softmax回归模型对于诸如MNIST手写数字分类等问题是很有用的,该问题的目的是辨识10个不同的单个数字。Softmax回归是有监督的,不过后面也会介绍它与...
分类:
其他好文 时间:
2014-12-18 16:54:12
阅读次数:
290
第一节中说了,logistic 回归和线性回归的区别是:线性回归是根据样本X各个维度的Xi的线性叠加(线性叠加的权重系数wi就是模型的参数)来得到预测值的Y,然后最小化所有的样本预测值Y与真实值y'的误差来求得模型参数。我们看到这里的模型的值Y是样本X各个维度的Xi的线性叠加,是线性的。 Y=WX ...
分类:
其他好文 时间:
2014-12-17 18:11:42
阅读次数:
8732
logistic回归一般用于二分类问题,比如判断一封邮件是否为垃圾邮件,判断照片中的人是男是女,预测一场比赛输还是赢......当然也可以用于多分类问题,比如k类别,就进行k次logistic回归。logistic回归算法之所以称作“logistic”,是因为它运用了logistic函数,即sigmoid函数。
logistic回归算法一般用于二分类问题(当然也可以多类别,后面会讲)。
logistic回归的算法思想:
重点在于怎么根据训练数据求得最佳拟合参数Θ?这可以用最优化算法来求解,比如常用的梯度上升...
分类:
编程语言 时间:
2014-12-10 14:18:25
阅读次数:
502
Logistic回归可以也可以用于多分类的,但是二分类的更为常用也更容易解释。所以实际中最常用的就是二分类的Logistic回归。LR分类器适用数据类型:数值型和标称型数据。其优点是计算代价不高,易于理解和实现;其缺点是容易欠拟合,分类精度可能不高。本文描述LR分类器原理并通过Python实现了该算法。...
分类:
编程语言 时间:
2014-12-09 14:05:48
阅读次数:
399
惰性学习法:简单的存储数据,一直等待,直到给定一个测试元组时才进行泛化,根据对存储的元组的相似性进行分类。kNN(k近邻)分类方法于20世纪50年代提出,由于计算密集型算法,因此到60年代之后随着计算能力增强后才逐步应用。
kNN基于类比学习,将给定的测试元组表示为n维空间中的一个点,n代表属性数目。然后使用某种距离度量方式来寻找与给定测试元组最近的k个训练元组,对这个k个训练元组的类别进行统计...
分类:
其他好文 时间:
2014-12-08 17:47:16
阅读次数:
262
之前写过一篇blog叫做机器学习实战笔记之非均衡分类问题:http://blog.csdn.net/lu597203933/article/details/38666699其中对Precision和Recall及ROC都有所讲解,其中区别在于Precision,Recall, F-score,
MAP主要用于信息检索,而ROC曲线及其度量指标AUC主要用于分类和识别,ROC的详细介绍见上面的b...
分类:
其他好文 时间:
2014-12-08 14:01:53
阅读次数:
448