码迷,mamicode.com
首页 >  
搜索关键字:样本    ( 4292个结果
PCA & whitening
PCA:PCA的具有2个功能,一是维数约简(可以加快算法的训练速度,减小内存消耗等),一是数据的可视化。PCA并不是线性回归,因为线性回归是保证得到的函数是y值方面误差最小,而PCA是保证得到的函数到所降的维度上的误差最小。另外线性回归是通过x值来预测y值,而PCA中是将所有的x样本都同等对待。在使...
分类:其他好文   时间:2014-09-14 16:32:07    阅读次数:192
梯度下降<1>
最小值:梯度下降;最大值:梯度上升(1)批量梯度下降---最小化所有训练样本的损失函数,使得最终求解的是全局的最优解,即求解的参数是使得风险函数最小。(2)随机梯度下降---最小化每条样本的损失函数,虽然不是每次迭代得到的损失函数都向着全局最优方向, 但是大的整体的方向是向全局最优解的,最终的结果往...
分类:其他好文   时间:2014-09-14 15:12:47    阅读次数:295
模仿博客园,前端设计
样本沪江博客table 几个重要属性cellspacing="0" 属性规定单元格之间的空间。cellpadding="5" 属性规定单元边沿与其内容之间的空白border="1" 线的粗细保留里面的格式
分类:其他好文   时间:2014-09-14 01:20:16    阅读次数:225
每日一个机器学习算法——k近邻分类
K近邻很简单。简而言之,对于未知类的样本,按照某种计算距离找出它在训练集中的k个最近邻,如果k个近邻中多数样本属于哪个类别,就将它判决为那一个类别。由于采用k投票机制,所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较...
分类:其他好文   时间:2014-09-13 20:04:05    阅读次数:241
Regularization —— linear regression
本节主要是练习regularization项的使用原则。因为在机器学习的一些模型中,如果模型的参数太多,而训练样本又太少的话,这样训练出来的模型很容易产生过拟合现象。因此在模型的损失函数中,需要对模型的参数进行“惩罚”,这样的话这些参数就不会太大,而越小的参数说明模型越简单,越简单的模型则越不容易产...
分类:其他好文   时间:2014-09-12 16:54:53    阅读次数:206
加州理工学院公开课:机器学习与数据挖掘_VC 维(第七课)
课程简介: 本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂...
分类:其他好文   时间:2014-09-11 23:57:02    阅读次数:573
机器学习(4)之Logistic回归
机器学习(4)之Logistic回归1. 算法推导 与之前学过的梯度下降等不同,Logistic回归是一类分类问题,而前者是回归问题。回归问题中,尝试预测的变量y是连续的变量,而在分类问题中,y是一组离散的,比如y只能取{0,1}。 假设一组样本为这样如图所示,如果需要用线性回归来拟合这些样本...
分类:其他好文   时间:2014-09-11 23:45:12    阅读次数:348
二元线性回归
http://openclassroom.stanford.edu/MainFolder/DocumentPage.php?course=DeepLearning&doc=exercises/ex2/ex2.html本题给出的是50个数据样本点,其中x为这50个小朋友到的年龄,年龄为2岁到8岁,年龄...
分类:其他好文   时间:2014-09-11 17:12:22    阅读次数:334
概率密度估计简介
1、概率密度函数 在分类器设计过程中(尤其是贝叶斯分类器),需要在类的先验概率和类条件概率密度均已知的情况下,按照一定的决策规则确定判别函数和决策面。但是,在实际应用中,类条件概率密度通常是未知的。那么,当先验概率和类条件概率密度都未知或者其中之一未知的情况下,该如何来进行类别判断呢?其实,只要我们能收集到一定数量的样本,根据统计学的知识,可以从样本集来推断总体概率分布。这种估计方法,通常称之为...
分类:其他好文   时间:2014-09-10 14:13:20    阅读次数:294
机器学习实战笔记8(kmeans)
前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。 1:kmeans算法        Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:其他好文   时间:2014-09-09 16:17:19    阅读次数:234
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!