1 VM网络配置... 3 2 CentOS配置... 5 2.1 下载地址... 5 2.2 激活网卡... 5 2.3 SecureCRT. 5 2.4 修改主机名... 6 2.5 yum代理上网... 7 2.6 ... ...
分类:
其他好文 时间:
2017-01-24 22:52:06
阅读次数:
1019
VM网络配置... 3 CentOS配置... 5 下载地址... 5 激活网卡... 5 SecureCRT. 5 修改主机名... 6 yum代理上网... 7 安装ifconfig. 8 wget安装与代理... 8 安装VMware Tools. 8 其他... 9 问题... 9 设置..... ...
分类:
其他好文 时间:
2017-01-24 13:43:42
阅读次数:
1580
电脑已经装了anaconda python,然后下载了spark2.1.0。因为版本太新,所以网上和书上的一些内容已经不再适用。比如关于如何使用IPython和Jupyter,教程给出的方法是用如下语句打开Spark即可进入IPython或者IPython Notebook: 然鹅运行以上语句后我得 ...
分类:
其他好文 时间:
2017-01-05 00:50:19
阅读次数:
826
ML中的一个重要任务是模型选择,或使用数据为给定任务找到最佳的模型或参数。 这也称为调优。 可以对诸如Logistic回归的单独Estimators进行调整,或者对包括多个算法,特征和其他步骤的整个Pipeline进行调整。 用户可以一次调整整个Pipeline,而不必单独调整Pipeline中的每 ...
分类:
其他好文 时间:
2016-12-22 11:10:49
阅读次数:
394
转载自:http://lxw1234.com/archives/2016/10/772.htm Spark2.0新增了Structured Streaming,它是基于SparkSQL构建的可扩展和容错的流式数据处理引擎,使得实时流式数据计算可以和离线计算采用相同的处理方式(DataFrame&SQ ...
分类:
其他好文 时间:
2016-12-15 17:34:56
阅读次数:
423
为了将Hadoop和Spark的安装简单化,今日写下此帖。 首先,要看手头有多少机器,要安装伪分布式的Hadoop+Spark还是完全分布式的,这里分别记录。 1. 伪分布式安装 伪分布式的Hadoop是将NameNode,SecondaryNameNode,DataNode等都放在一台机器上执行, ...
分类:
系统相关 时间:
2016-12-11 12:33:58
阅读次数:
306
在spark.ml中,实现了加速失效时间(AFT)模型,这是一个用于检查数据的参数生存回归模型。 它描述了生存时间对数的模型,因此它通常被称为生存分析的对数线性模型。 不同于为相同目的设计的比例风险模型,AFT模型更容易并行化,因为每个实例独立地贡献于目标函数。 当在具有常量非零列的数据集上匹配AF ...
分类:
其他好文 时间:
2016-12-09 19:21:46
阅读次数:
391
data数据源,请参考我的博客http://www.cnblogs.com/wwxbi/p/6063613.html import org.apache.Spark.sql.DataFrameStatFunctions 相关系数 ...
分类:
其他好文 时间:
2016-12-02 14:31:56
阅读次数:
406
sparkR在spark2.0里面,RDD后端代码位于org.apache.spark.rdd中,R语言相关的位于org.apache.spark.api.r中。 从入口开始,./bin/sparkR里面只有四句话,调用的是这个 spark-submit里面是个一句话的shell脚本 好了,入口是o ...
分类:
其他好文 时间:
2016-11-28 15:45:54
阅读次数:
245