机器学习算法 原理、实践与实战 —— 分类、标注与回归1. 分类问题分类问题是监督学习的一个核心问题。在监督学习中,当输出变量$Y$取有限个离散值时,预测问题便成为分类问题。监督学习从数据中学习一个分类决策函数或分类模型,称为分类器(classifier)。分类器对新的输入进行输出的预测,这个过程称...
分类:
其他好文 时间:
2014-10-31 13:36:09
阅读次数:
1179
机器学习算法原理、实现与实践——监督学习机器学习包括监督学习、非监督学习、半监督学习及强化学习,这里先讨论监督学习。 监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。1 基本概念1.1 输入空间、特征空间与输出空间输入与输出所有可能取值的集合分别称为输入空间...
分类:
其他好文 时间:
2014-10-31 09:57:32
阅读次数:
461
机器学习算法原理、实现与实践——机器学习的三要素1 模型在监督学习中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是这些线性函数构成的函数的集合。假设空间用$\mathcal{F}$表示。假...
分类:
其他好文 时间:
2014-10-31 09:57:04
阅读次数:
4030
给定训练集,想把这些样本分成不同的子集,即聚类,,但是这是个无标签数据集,也就是说我们再聚类的时候不能利用标签信息,所以这是一个无监督学习问题。k-means聚类算法的流程如下:1. 随机初始化聚类中心2. a. 对与每一个聚类中心,计算所有样本到该聚类中心的距离,然后选出距离该聚类中心最近的几个样...
分类:
编程语言 时间:
2014-10-28 20:02:27
阅读次数:
251
转自 JerryLead 的博客 K-means也是聚类算法中最简单的一种了,但是里面包含的思想却是不一般。最早我使用并实现这个算法是在学习韩爷爷那本数据挖掘的书中,那本书比较注重应用。看了Andrew Ng的这个讲义后才有些明白K-means后面包含的EM思想。 聚类属于无监督学习,以往的回归、....
分类:
编程语言 时间:
2014-10-19 19:51:22
阅读次数:
228
对于一个监督学习模型来说,过小的特征集合使得模型过于简单,过大的特征集合使得模型过于复杂。对于特征集过小的情况,称之为欠拟合(underfitting);对于特征集过大的情况,称之为过拟合(overfitting)解决此类学习问题的方法:1)特征选择算法:一类自动化算法,在这类回归问题中选择用到的特...
分类:
其他好文 时间:
2014-10-19 18:20:05
阅读次数:
332
有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性低。无监督学习:对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。这里,所有的标记(分类)是未知的。因此,训练样本的...
分类:
其他好文 时间:
2014-10-17 23:11:22
阅读次数:
187
0 引言机器学习(machine learning)是人工智能的核心研究领域,是智能信息处理的重要途径。监督学习(supervised learning)是机器学习中研究最多、应用最广泛的一种学习途径。在传统的监督学习中,学习系统通过对大量的有标记训练样本(labeled examples)进行学习...
分类:
其他好文 时间:
2014-10-17 23:08:53
阅读次数:
502
机器学习有着丰富的理论,分为有监督学习和无监督学习,有监督学习包括分类和回归,无监督学习包括聚类等。各种机器学习算法的基本思想都不难理解(这里的基本思想我的理解是各个算法的模型建立),而难点在于对于模型的求解,这里边有着优美的理论还有一些技巧,如SVM,EM,CA..
分类:
编程语言 时间:
2014-10-17 05:25:44
阅读次数:
619
Sparse Autoencoder稀疏自编码器实验报告1.Sparse Autoencoder稀疏自编码器实验描述 自编码神经网络是一种无监督学习算法,它使用了反向传播算法,并让目标值等于输入值,比如 。自编码神经网络尝试学习一个 的函数。换句话说,它尝试逼近一个恒等函数,从而使得输出 接近于.....
分类:
Web程序 时间:
2014-10-17 00:19:13
阅读次数:
583