本期内容: 1 Spark Streaming另类在线实验 2 瞬间理解Spark Streaming本质 在流处理时代,SparkStreaming有着强大吸引力,而且发展前景广阔,加之Spark的生态系统,Streaming可以方便调用其他的诸如SQL,MLlib等强大框架,它必将一统天下。这里 ...
分类:
其他好文 时间:
2016-05-02 07:01:51
阅读次数:
239
转自 1、本地向量MLlib的本地向量主要分为两种,DenseVector和SparseVector,顾名思义,前者是用来保存稠密向量,后者是用来保存稀疏向量,其创建方式主要有一下三种(三种方式均创建了向量(1.0, 0.0, 2.0): 对于稠密向量:很直观,你要创建什么,就加入什么,其函数声明为 ...
分类:
其他好文 时间:
2016-04-23 10:17:48
阅读次数:
285
1、 P220对该段文字的解决:得到最大bin 数量后,求最大split 数量。对于无序特征,split = bin 数目/2;对于有序特征,split = bin 数目–1。 其中有读者问到:对于无序特征,split = bin 数目/2这个的由来,解释如下: 1)首先计算numBins: // 当前的特征数量小于m值,则认为无序 if (numCate...
分类:
其他好文 时间:
2016-04-22 19:26:13
阅读次数:
104
Apache Spark MLlib是Apache Spark体系中重要的一块拼图:提供了机器学习的模块。只是,眼下对此网上介绍的文章不是非常多。拿KMeans来说,网上有些文章提供了一些演示样例程序,而这些程序基本和Apache Spark 官网上的程序片断类似:在得到训练模型后,差点儿都没有展示 ...
分类:
Web程序 时间:
2016-03-29 21:21:23
阅读次数:
172
批量梯度下降的逻辑回归可以参考这篇文章:http://blog.csdn.net/pakko/article/details/37878837 看了一些Scala语法后,打算看看MlLib的机器学习算法的并行化,那就是逻辑回归,找到package org.apache.spark.mllib.cla
分类:
其他好文 时间:
2016-03-05 23:33:26
阅读次数:
321
一、Spark框架预览 主要有Core、GraphX、MLlib、Spark Streaming、Spark SQL等几部分。 GraphX是进行图计算与图挖掘,其中主流的图计算框架现在有:Pregal、HAMA、Giraph(这几部分采用超步即同步的方式),而GraphLab与Spark Grap
分类:
其他好文 时间:
2016-03-04 09:17:57
阅读次数:
391
Spark MLlib Deep Learning Deep Belief Network (深度学习-深度信念网络)2.3 http://blog.csdn.net/sunbow0 第二章Deep Belief Network (深度信念网络) 3实例 3.1 測试数据 依照上例数据,或者新建图片
分类:
Web程序 时间:
2016-02-29 18:17:18
阅读次数:
239
最近在研究机器学习,使用的工具是spark,本文是针对spar最新的源码Spark1.6.0的MLlib中的logistic regression, linear regression进行源码分析,其理论部分参考:http://www.cnblogs.com/ljy2013/p/5129610.ht...
分类:
其他好文 时间:
2016-01-16 11:58:51
阅读次数:
662
话不多说。直接上代码咯。欢迎交流。/** * Created by whuscalaman on 1/7/16. */import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.classifica.....
分类:
其他好文 时间:
2016-01-09 17:04:14
阅读次数:
216
1、前言: Naive Bayes(朴素贝叶斯)是一个简单的多类分类算法,该算法的前提是假设各特征之间是相互独立的。Naive Bayes 训练主要是为每一个特征,在给定的标签的条件下,计算每个特征在该标签的条件下的条件概率。最后用这个训练后的条件概率去预测。 由于我使用的Spark的版本是1......
分类:
其他好文 时间:
2016-01-05 15:34:01
阅读次数:
206