row_number,rank,dense_rank,percent_rank ...
分类:
其他好文 时间:
2016-11-25 20:34:07
阅读次数:
1231
摘要: 1.pipeline 模式 1.1相关概念 1.2代码示例 2.特征提取,转换以及特征选择 2.1特征提取 2.2特征转换 2.3特征选择 3.模型选择与参数选择 3.1 交叉验证 3.2 训练集-测试集 切... ...
分类:
其他好文 时间:
2016-11-25 20:15:22
阅读次数:
426
mean均值,variance方差,stddev标准差,corr(Pearson相关系数),skewness偏度,kurtosis峰度 ...
分类:
其他好文 时间:
2016-11-25 20:00:48
阅读次数:
153
一、概述 spark2.0做出的改变大家可以参考官网以及其他资料,这里不再赘述由于spark1.x的sqlContext在spark2.0中被整合到sparkSession,故而利用spark-shell客户端操作会有些许不同,具体如下文所述二、spark额外配置 1.正常配置不再赘述,这里如果需要读取MySQL数据,则需要在..
分类:
数据库 时间:
2016-11-22 15:13:40
阅读次数:
655
一、Scala安装 下载目录http://www.scala-lang.org/download/ 修改/etc/profile。 然后测试 二、安装Spark 官网下载地址:http://spark.apache.org/downloads.html 需要下载预编译版本 我当时直接从花圈的地方复制 ...
分类:
其他好文 时间:
2016-11-17 08:00:54
阅读次数:
422
IntelliIDEA开发Spark工程关联Spark源码!一、关联什么?一般关联zip、jar等,但是Spark的源码是tgz格式的,没法关联,没关系,下载tgz的,解压缩成目录。二、怎么关联?第1步先选中工程。选择Projectstructure。选择Spark2.0的目录。回到工程,ctrl+鼠标单击。进入scala文件。..
分类:
其他好文 时间:
2016-11-15 20:58:12
阅读次数:
366
Spark全面精讲(基于Spark2版本+含Spark调优+超多案例)
分类:
编程语言 时间:
2016-10-27 15:27:42
阅读次数:
569