二、Spark2.x 介绍 2.1 Spark2.x 与 Spark1.x 关系 Spark2.x 引入了很多优秀特性,性能上有较大提升,API 更易用。在“编程统一”方面非常惊艳,实现了离线计算和流计算 API 的统一,实现了 Spark sql 和 Hive Sql 操作 API 的统一。Spa... ...
分类:
其他好文 时间:
2017-06-08 14:58:05
阅读次数:
551
在LDA模型原理篇我们总结了LDA主题模型的原理,这里我们就从应用的角度来使用scikit-learn来学习LDA主题模型。除了scikit-learn, 还有spark MLlib和gensim库也有LDA主题模型的类库,使用的原理基本类似,本文关注于scikit-learn中LDA主题模型的使用 ...
分类:
其他好文 时间:
2017-05-26 15:55:42
阅读次数:
1445
1.Example使用SparkMLlib中决策树分类器API,训练出一个决策树模型,使用Python开发。"""
DecisionTreeClassificationExample.
"""from__future__importprint_functionfrompysparkimportSparkContextfrompyspark.mllib.treeimportDecisionTree,DecisionTreeModelfrompyspark.ml..
分类:
其他好文 时间:
2017-05-19 14:31:48
阅读次数:
329
概述 Word2vec是一款由谷歌发布开源的自然语言处理算法,其目的是把words转换成vectors,从而可以用数学的方法来分析words之间的关系。Spark其该算法进行了封装,并在mllib中实现。 整体流程是spark离线训练模型,可以是1小时1训练也可以1天1训练,根据具体业务来判断,sp ...
分类:
其他好文 时间:
2017-05-16 23:07:29
阅读次数:
218
mllib是老的api,里面的模型都是基于RDD的,模型使用的时候api也是有变化的(model这里是naiveBayes), (1:在模型训练的时候是naiveBayes.run(data: RDD[LabeledPoint])来训练的,run之后的返回值是一个NaiveBayesModel对象, ...
分类:
其他好文 时间:
2017-05-16 14:51:50
阅读次数:
321
这篇文章参考《Spark快速大数据分析》,归纳spark技术核心的rdd及MLlib以及其中几个重要库的使用。 初始化操作 spark shell: bin/pyspark 每个spark应用都由一个驱动器程序(driver program)来发起集群上的各种并行操作,驱动器程序包含应用的main函 ...
分类:
其他好文 时间:
2017-05-16 12:55:05
阅读次数:
197
Spark中常见的三种分类模型:线性模型、决策树和朴素贝叶斯模型。 线性模型,简单而且相对容易扩展到非常大的数据集;线性模型又可以分成:1.逻辑回归;2.线性支持向量机 决策树是一个强大的非线性技术,训练过程计算量大并且较难扩展(幸运的是,MLlib会替我们考虑扩展性的问题),但是在很多情况下性能很 ...
分类:
其他好文 时间:
2017-05-01 21:03:14
阅读次数:
171
本篇博客主要讲述如何利用spark的mliib构建机器学习模型并预测新的数据,具体的流程如下图所示:
加载数据对于数据的加载或保存,mllib提供了MLUtils包,其作用是Helper metho...
分类:
编程语言 时间:
2017-04-24 19:48:03
阅读次数:
1884
自然语言处理 ScalaNLP—机器学习和数值计算库的套装 Breeze —Scala用的数值处理库 Chalk—自然语言处理库。 FACTORIE—可部署的概率建模工具包。用Scala实现的软件库。为用户提供简洁的语言来创建关系因素图。评估參数并进行判断。 数据分析/数据可视化 MLlib in ...
分类:
其他好文 时间:
2017-04-24 09:58:22
阅读次数:
171