通用机器学习MLlib in Apache Spark—Spark中的分布式机器学习程序库Mahout—分布式的机器学习库Stanford Classifier—斯坦福大学的分类器Weka—Weka是数据挖掘方面的机器学习算法集。ORYX—提供一个简单的大规模实时机器学习/预测分析基础架构。数据分析...
分类:
其他好文 时间:
2015-05-15 19:20:34
阅读次数:
241
1.1 KMeans聚类算法
1.1.1 基础理论
KMeans算法的基本思想是初始随机给定K个簇中心,按照最邻近原则把待分类样本点分到各个簇。然后按平均法重新计算各个簇的质心,从而确定新的簇心。一直迭代,直到簇心的移动距离小于某个给定的值。
K-Means聚类算法主要分为三个步骤:
(1)第一步是为待聚类的点寻找聚类中心;
(2)第二步是计算每个点到聚类中心的距离,将每个点聚类到离该点...
分类:
编程语言 时间:
2015-05-12 23:10:11
阅读次数:
402
1、Spark MLlib Statistics统计
Spark Mllib
统计模块代码结构如下:
1.1
列统计汇总
计算每列最大值、最小值、平均值、方差值、L1范数、L2范数。
//读取数据,转换成RDD[Vector]类型
val
data_path =
"/home/jb-huangmeiling/sample_stat.txt"
...
分类:
其他好文 时间:
2015-05-11 16:10:07
阅读次数:
132
1.1 FPGrowth算法
1.1.1 基本概念
关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响,分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
关联规则的相关术语如下:
(1)项与项集
这是一个集合的概念,在一篮子商品中的一件消费品即为一项(Ite...
分类:
编程语言 时间:
2015-05-09 17:35:41
阅读次数:
201
1.1 SVM支持向量机算法
支持向量机理论知识参照以下文档:
支持向量机SVM(一)
http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982639.html
支持向量机SVM(二)
http://www.cnblogs.com/jerrylead/archive/2011/03/13/1982684.html
支持向量机(三)...
分类:
编程语言 时间:
2015-05-08 18:11:56
阅读次数:
396
1.1 逻辑回归算法
1.1.1 基础理论
logistic回归本质上是线性回归,只是在特征到结果的映射中加入了一层函数映射,即先把特征线性求和,然后使用函数g(z)将最为假设函数来预测。g(z)可以将连续值映射到0和1上。
它与线性回归的不同点在于:为了将线性回归输出的很大范围的数,例如从负无穷到正无穷,压缩到0和1之间,这样的输出值表达为“可能性”才能说服广大民众。当然了,把大值压缩到这...
分类:
编程语言 时间:
2015-05-07 18:55:51
阅读次数:
391
1、Spark MLlib
Linear Regression线性回归算法
1.1 线性回归算法
1.1.1 基础理论
在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。
回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条...
分类:
编程语言 时间:
2015-05-06 23:07:57
阅读次数:
669
1.4 BLAS (BLAS routines for MLlib's vectors and matrices.)
BLAS(Basic Linear Algebra Subprograms,基础线性代数程序集)是一个应用程序接口(API)标准,用以规范发布基础线性代数操作的数值库(如矢量或矩阵乘法)。
BLAS按照功能被分为三个级别:
Level 1:矢量-矢量运算
Leve...
分类:
其他好文 时间:
2015-05-05 19:41:28
阅读次数:
469
前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中...
分类:
其他好文 时间:
2015-05-03 14:37:06
阅读次数:
317
1.1朴素贝叶斯公式
贝叶斯定理:
其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。
朴素贝叶斯分类的正式定义如下:
1、设为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合。
3、计算。
4、如果,则 。
那么现在的关键就是如何计算第3步中的各个条件概率:
...
分类:
其他好文 时间:
2015-04-29 13:41:27
阅读次数:
302