码迷,mamicode.com
首页 >  
搜索关键字:Spark2    ( 181个结果
CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装
1 VM网络配置... 3 2 CentOS配置... 5 2.1 下载地址... 5 2.2 激活网卡... 5 2.3 SecureCRT. 5 2.4 修改主机名... 6 2.5 yum代理上网... 7 2.6 ... ...
分类:其他好文   时间:2017-01-24 22:52:06    阅读次数:1019
CentOS7+Hadoop2.7.2(HA高可用+Federation联邦)+Hive1.2.1+Spark2.1.0 完全分布式集群安装
VM网络配置... 3 CentOS配置... 5 下载地址... 5 激活网卡... 5 SecureCRT. 5 修改主机名... 6 yum代理上网... 7 安装ifconfig. 8 wget安装与代理... 8 安装VMware Tools. 8 其他... 9 问题... 9 设置..... ...
分类:其他好文   时间:2017-01-24 13:43:42    阅读次数:1580
如何用Jupyter Notebook打开Spark
电脑已经装了anaconda python,然后下载了spark2.1.0。因为版本太新,所以网上和书上的一些内容已经不再适用。比如关于如何使用IPython和Jupyter,教程给出的方法是用如下语句打开Spark即可进入IPython或者IPython Notebook: 然鹅运行以上语句后我得 ...
分类:其他好文   时间:2017-01-05 00:50:19    阅读次数:826
Spark2 Model selection and tuning 模型选择与调优
ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipeline,而不必单独调整Pipeline中的每 ...
分类:其他好文   时间:2016-12-22 11:10:49    阅读次数:394
学习Spark2.0中的Structured Streaming(一)
转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ ...
分类:其他好文   时间:2016-12-15 17:34:56    阅读次数:423
Ubuntu14.04或16.04下安装JDK1.8+Scala+Hadoop2.7.3+Spark2.0.2
为了将Hadoop和Spark的安装简单化,今日写下此帖。 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录。 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行, ...
分类:系统相关   时间:2016-12-11 12:33:58    阅读次数:306
Spark2 生存分析Survival regression
在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF ...
分类:其他好文   时间:2016-12-09 19:21:46    阅读次数:391
Spark2 DataFrameStatFunctions探索性数据统计分析
data数据源,请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions 相关系数 ...
分类:其他好文   时间:2016-12-02 14:31:56    阅读次数:406
Spark2 DataSet 创建新行之flatMap
...
分类:其他好文   时间:2016-11-28 20:42:17    阅读次数:250
sparkR原理
sparkR在spark2.0里面,RDD后端代码位于org.apache.spark.rdd中,R语言相关的位于org.apache.spark.api.r中。 从入口开始,./bin/sparkR里面只有四句话,调用的是这个 spark-submit里面是个一句话的shell脚本 好了,入口是o ...
分类:其他好文   时间:2016-11-28 15:45:54    阅读次数:245
181条   上一页 1 ... 14 15 16 17 18 19 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!