第1章 机器学习基础1)学习分类监督学习——是因为这类算法必须知道预测什么,即目标变量的分类信息。无监督学习——数据没有类别信息,也不会给定目标值。2)开发机器学习应用程序的步骤 收集数据——制作网络爬虫从网站上抽取数据、从RSS反馈或者API中得到信息、设备发送过来的实测数据(风速、血糖等)、公....
分类:
其他好文 时间:
2015-01-05 14:38:09
阅读次数:
170
前言 本文将介绍机器学习分类算法中的Logistic回归分类算法并给出伪代码,Python代码实现。 (说明:从本文开始,将接触到最优化算法相关的学习。旨在将这些最优化的算法用于训练出一个非线性的函数,以用于分类。)算法原理 首先要提到的概念是回归。 对于回归这个概念,在以后的文章会有系...
分类:
编程语言 时间:
2014-12-30 13:29:14
阅读次数:
615
前言 本文介绍机器学习分类算法中的朴素贝叶斯分类算法并给出伪代码,Python代码实现。词向量 朴素贝叶斯分类算法常常用于文档的分类,而且实践证明效果是挺不错的。 在说明原理之前,先介绍一个叫词向量的概念。 --- 它一般是一个布尔类型的集合,该集合中每个元素都表示其对应的单词是否在文档中出现...
分类:
编程语言 时间:
2014-12-25 23:21:32
阅读次数:
383
前言 本文介绍机器学习分类算法中的K-近邻算法并给出伪代码,Python代码实现。算法原理 首先获取训练集中与目标对象距离最近的k个对象,然后再获取这k个对象的分类标签,求出其中出现频数最大的标签。 这个标签就是分类的结果。伪代码 对训练集中的每个点做以下操作: 1. 计算已知类别数据...
分类:
编程语言 时间:
2014-12-18 11:39:03
阅读次数:
203
前面和大家分享的分类算法属于有监督学习的分类算法,今天继续和小伙伴们分享无监督学习分类算法---聚类算法。聚类算法也因此更具有大数据挖掘的味道
聚类算法本质上是基于几何距离远近为标准的算法,最适合数据是球形的问题,首先罗列下常用的距离:
绝对值距离(又称棋盘距离或城市街区距离)
Euclide距离(欧几里德距离,通用距离)
Minkowski 距离(闵可夫斯基距离),欧...
分类:
编程语言 时间:
2014-12-10 18:12:05
阅读次数:
280
Weka算法Classifier-meta-AdditiveRegression源码分析...
分类:
编程语言 时间:
2014-10-26 23:01:18
阅读次数:
353
机器学习有着丰富的理论,分为有监督学习和无监督学习,有监督学习包括分类和回归,无监督学习包括聚类等。各种机器学习算法的基本思想都不难理解(这里的基本思想我的理解是各个算法的模型建立),而难点在于对于模型的求解,这里边有着优美的理论还有一些技巧,如SVM,EM,CA..
分类:
编程语言 时间:
2014-10-17 05:25:44
阅读次数:
619
Weka算法Classifier-trees-REPTree源码分析(二)...
分类:
其他好文 时间:
2014-09-22 01:22:31
阅读次数:
489
2.1.1 文档分析及编码转换: 文档处理第一步,是将文件或web服务器上的一系列二进制字节序列转换为字符序列。 在实际中,首先要判断出文档的编码方式(机器学习分类、启发式等方法),确定文档的类型(word?zip?)然后将字节序列转换成字符序列。 2.1.2 文档单位(document unit)...
分类:
其他好文 时间:
2014-09-15 21:04:59
阅读次数:
250