引言朴素贝叶斯由贝叶斯定理延伸而来的简单而强大的概率模型,它根据每个特征的概率确定一个对象属于某一类别的概率。该方法基于一个假设,所有特征需要相互独立,即任一特征的值和其他特征的值没有关联关系。
虽然这种条件独立的假设在许多应用领域未必能很好满足,甚至是不成立的。但这种简化的贝叶斯分类器在许多实际应用中还是得到了较好的分类精度。训练模型的过程可以看作是对相关条件概率的计算,它可以用统计对应某一类别...
分类:
其他好文 时间:
2015-05-03 23:43:54
阅读次数:
298
引言这一小节介绍一下支持向量回归,我们在之前介绍的核逻辑回归使用表示定理(Representer Theorem),将逻辑回归编程Kernel的形式,这一节我们沿着这个思路出发,看看如何将回归问题和Kernel的形式结合起来。Kernel Ridge Regression上次介绍的表示定理告诉我们,如果我们要处理的是有L2的正则项的线性模型,其最优解是数据zn的线性组合。我们可以将这样的线性模型变成...
分类:
其他好文 时间:
2015-05-03 23:41:49
阅读次数:
415
引言对于一些开始搞机器学习算法有害怕下手的小朋友,该如何快速入门,这让人挺挣扎的。
在从事数据科学的人中,最常用的工具就是R和Python了,每个工具都有其利弊,但是Python在各方面都相对胜出一些,这是因为scikit-learn库实现了很多机器学习算法。加载数据(Data Loading)我们假设输入时一个特征矩阵或者csv文件。
首先,数据应该被载入内存中。
scikit-learn的...
分类:
其他好文 时间:
2015-04-19 11:37:16
阅读次数:
241
引入一个机器可以根据照片来辨别鲜花的品种吗?在机器学习角度,这其实是一个分类问题,即机器根据不同品种鲜花的数据进行学习,使其可以对未标记的测试图片数据进行分类。
这一小节,我们还是从scikit-learn出发,理解基本的分类原则,多动手实践。Iris数据集Iris flower数据集是1936年由Sir Ronald Fisher引入的经典多维数据集,可以作为判别分析(discriminant...
分类:
编程语言 时间:
2015-03-12 17:09:08
阅读次数:
197
概要本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下:
读入数据并清洗数据
探索理解输入数据的特点
分析如何为学习算法呈现数据
选择正确的模型和学习算法
评估程序表现的准确性
读入数据 Reading the data当读入数据时,你将面临处理无效或丢失数据的问题,好的处理方式相比于精确的科学来说,更像是一种艺术。因为这部分处理适当可以适用于更多...
分类:
编程语言 时间:
2015-03-12 17:08:02
阅读次数:
247
本文是用Python编程语言来进行机器学习小实验的第一篇。主要内容如下:
读入数据并清洗数据
探索理解输入数据的特点
分析如何为学习算法呈现数据
选择正确的模型和学习算法
评估程序表现的准确性...
分类:
编程语言 时间:
2014-12-17 09:49:44
阅读次数:
223