前面的7次笔记介绍的都是分类问题,本次开始介绍聚类问题。分类和聚类的区别在于前者属于监督学习算法,已知样本的标签;后者属于无监督的学习,不知道样本的标签。下面我们来讲解最常用的kmeans算法。
1:kmeans算法
Kmeans中文称为k-均值,步骤为:(1)它事先选定k个聚类中心,(2)然后看每个样本点距离那个聚类中心最近,则该样本就属于该聚类中心。(3)求每个聚类中心的样本...
分类:
其他好文 时间:
2014-09-09 16:17:19
阅读次数:
234
虚拟变量 ( Dummy Variables) 又称虚设变量、名义变量或哑变量,用以反映质的属性的一个人工变量,是量化了的自变量,通常取值为0或1。引入哑变量可使线形回归模型变得更复杂,但对问题描述更简明,一个方程能达到俩个方程的作用,而且接近现实。...
分类:
其他好文 时间:
2014-09-04 01:43:57
阅读次数:
547
当影响Y值的因素不唯一时,我们可以使用多元线性回归模型:...
分类:
其他好文 时间:
2014-09-02 01:35:34
阅读次数:
189
最近在学习《机器学习实战》这本书,在学习的过程中不免要自己去实践,写些练习。这写练习的第一步就需要收集数据,所以为了写好自己的练习程序,我得先学会收集一些网络数据。了解到用python抓取网页数据的一些方法后,我就根据别人的demo,自己实践了一下,学着从百度彩票网站上抓取双色球的历史数据。以下.....
分类:
编程语言 时间:
2014-08-31 17:04:01
阅读次数:
664
1:简单概念描述
Adaboost是一种弱学习算法到强学习算法,这里的弱和强学习算法,指的当然都是分类器,首先我们需要简单介绍几个概念。
1:弱学习器:在二分情况下弱分类器的错误率会高于50%。其实任意的分类器都可以做为弱分类器,比如之前介绍的KNN、决策树、Naïve Bayes、logiostic回归和SVM都可以。这里我们采用的弱分类器是单层决策树,它是一个单节点的决策树。...
分类:
其他好文 时间:
2014-08-18 22:07:03
阅读次数:
334
通常情况下,我们直接使用分类结果的错误率就可以做为该分类器的评判标准了,但是当在分类器训练时正例数目和反例数目不相等时,这种评价标准就会出现问题。这种现象也称为非均衡分类问题。此时有以下几个衡量标准。
(1) 正确率和召回率
如下图所示:其中准确率指预测的真实正例占所有真实正例的比例,等于TP/(TP+FP),而召回率指预测的真实正例占所有真实正例的比例,等于T...
分类:
其他好文 时间:
2014-08-18 22:04:13
阅读次数:
392
鉴于July大哥的SVM三层境界(http://blog.csdn.net/v_july_v/article/details/7624837)已经写得非常好了,这里我就不详细描述,只是阐述简单的几个概念。如果看SVM三层境界有困惑,我也愿意与大家交流,共同进步。
简单概念描述:
(1) 支持向量机(SVM, support vectormachine)就是通过最大化支持向量到分类超平...
分类:
其他好文 时间:
2014-08-12 22:11:04
阅读次数:
247
1:简单概念描述
假设现在有一些数据点,我们用一条直线对这些点进行拟合(改线称为最佳拟合直线),这个拟合过程就称为回归。训练分类器就是为了寻找最佳拟合参数,使用的是最优化算法。
基于sigmoid函数分类:logistic回归想要的函数能够接受所有的输入然后预测出类别。这个函数就是sigmoid函数,它也像一个阶跃函数。其公式如下:
其中: z = w0x0+w1x1+….+wnxn,w...
分类:
其他好文 时间:
2014-08-10 13:04:00
阅读次数:
308
机器学习新手,接触的是《机器学习实战》这本书,感觉书中描述简单易懂,但对于python语言不熟悉的我,也有很大的空间。今天学习的是k-近邻算法。 1. 简述机器学习 在日常生活中,人们很难直接从原始数据本身获得所需信息。而机器学习就是把生活中无序的数据转换成有用的信息。例如,对于垃圾邮件的检...
分类:
编程语言 时间:
2014-07-22 23:37:57
阅读次数:
366