1.过滤操作 只是判断某个tuple是否保留 无需跨网络,无需跨分区 不会改变tuple的结构,只是改变tuple的数量 2.需求 过滤掉不是订单的tuple。 其中订单中包含“IBEIfeng.gif”。 3.主驱动类 先过滤 后打印 4.过滤类 5.效果 ...
分类:
其他好文 时间:
2018-06-09 23:13:38
阅读次数:
180
``` scala import spark.sql import org.apache.spark.sql.types._ import org.apache.spark.mllib.recommendation.ALS import org.apache.spark.mllib.recommen... ...
分类:
其他好文 时间:
2018-05-14 22:06:22
阅读次数:
316
from pyspark import SparkContext from pyspark import SparkConf from pyspark.mllib.regression import LabeledPoint from pyspark.mllib.tree import Gradie ...
分类:
其他好文 时间:
2018-04-17 19:53:15
阅读次数:
265
不多说,直接上干货! 这是来自FineBI官网提供的帮助文档 目录: 1、描述 2、操作 3、注意事项 1、描述 1、描述 Spark是一种通用的大数据快速处理引擎。Spark使用Spark RDD、 Spark SQL、 Spark Streaming、 MLlib、 GraphX成功解决了大数据 ...
分类:
其他好文 时间:
2018-03-22 21:25:30
阅读次数:
528
参考资料 【1】 Spark MLlib 机器学习实践 【2】 统计学习方法 1、Logistic分布 设X是连续随机变量,X服从Logistic分布是指X具有下列分布函数和密度函数 ,。其中u为位置参数,γ为形状参数。如下图: 分布函数以(u,1/2)为中心对称,满足:,其中形状参数γ越小,中心部 ...
分类:
编程语言 时间:
2018-03-03 14:13:53
阅读次数:
201
参考资料 【1】《Spark MLlib 机器学习实践》 【2】http://blog.csdn.net/u011239443/article/details/51752904 【3】线性代数-同济大学 【4】基于矩阵分解的协同过滤算法 https://wenku.baidu.com/view/61 ...
分类:
编程语言 时间:
2018-03-03 12:23:33
阅读次数:
243
参考资料: 【1】 Spark MLlib 机器学习实践 【2】 机器学习之梯度下降 http://www.cnblogs.com/rcfeng/p/3958926.html 【3】 统计学习方法 1、回归分析概念 在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最 ...
分类:
其他好文 时间:
2018-03-03 12:19:09
阅读次数:
168
机器学习是一门人工智能的科学,能通过经验自动改进的计算机算法的研究。机器学习是一个多学科交叉的领域,会涉及到计算机、信息学、数学、统计学、神经科学等。机器学习是大数据的核心技术,本质都是基于经验的算法处理。机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。在数据的基础上,通过算法构建出模型并对模型进行评估。评估的性能如果达到要求,就用该模型来测试其他的数据;如果达不到要求,就要调整算
分类:
其他好文 时间:
2018-02-28 10:35:04
阅读次数:
224
3、Spark MLlib Deep Learning Convolution Neural Network(深度学习-卷积神经网络)3.3 http://blog.csdn.net/sunbow0 第三章Convolution Neural Network (卷积神经网络) 3实例 3.1 測试数 ...
分类:
Web程序 时间:
2018-02-01 10:47:18
阅读次数:
231
kmeans Scala程序 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.clustering.{KMeans, KMeansModel} import org.apache.spar ...
分类:
编程语言 时间:
2017-12-22 00:36:40
阅读次数:
231