本人情况: 首次接触大数据工具spark,只会python,sql; 不会java。 本机情况: win10新电脑,里面基本啥都没有,连java都没有 需求: 尝试单机安装spark,学习这个大数据工具,特来记录安装全过程。 第一步:安装JDK 1. 下载安装JDK JDK为java开发工具包(ja ...
分类:
其他好文 时间:
2020-02-28 22:20:00
阅读次数:
71
1,栈溢出问题,主要原因:每个RDD会存储他的祖先,以便发生错误的时候,能够利用这种关系再次生成。算法类的spark程序,因为会迭代很多次,这种关系会变得很巨大,引发栈溢出问题 * 设置检查点 val sc = new SparkContext(conf) sc.setCheckpointDir(" ...
分类:
编程语言 时间:
2020-02-28 18:55:18
阅读次数:
60
一、对多次使用的RDD进行持久化 如何选择一种最合适的持久化策略? 默认情况下,性能最高的当然是MEMORY_ONLY,但前提是你的内存必须足够足够大, 可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作,就避 免了这部分的性能开销;对这个RDD的后续算子操作,都是基于纯内存中 ...
分类:
其他好文 时间:
2020-02-28 14:18:23
阅读次数:
60
Application任务执行流程: 在Spark Application提交后,Driver会根据action算子划分成一个个的job,然后对每一 个job划分成一个个的stage,stage内部实际上是由一系列并行计算的task组成的,然后 以TaskSet的形式提交给你TaskSchedule ...
分类:
其他好文 时间:
2020-02-28 13:56:43
阅读次数:
49
在Spark中,RDD(弹性分布式数据集)存在依赖关系,宽依赖和窄依赖。 宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。 窄依赖 窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用,即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于 ...
分类:
其他好文 时间:
2020-02-28 11:44:48
阅读次数:
46
响应式网站概念 弹性网格布局 弹性图片 媒体查询 响应式网站优点 减少工作量 节省时间 网站代码只需要一份 多出来的只是js脚本和css样式 每个设备都能得到正确的设计 搜索优化 响应式网站缺点 加在更多的样式和脚本 设计比较难精准的定位和控制 老版本浏览器兼容性不好 需要掌握技术 浏览器兼容 IE ...
分类:
Web程序 时间:
2020-02-27 19:02:58
阅读次数:
89
Scala面向对象 前言: Scala语言是面向对象的。 ? Java是面向对象的编程语言,由于历史原因,Java中还存在着非面向对象的内容:基本类型(int,float..) ,null,静态方法等。 ? Scala语言来自于Java,所以天生就是面向对象的语言,而且Scala是纯粹的面向对象的语 ...
分类:
其他好文 时间:
2020-02-27 09:13:00
阅读次数:
78
什么是Spark? Spark官网:http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态 ...
分类:
其他好文 时间:
2020-02-26 18:30:53
阅读次数:
52
scalable:可扩展的 end to end :端到端 state of the art:先进 sparsity:稀疏性 sketch:草图 spam:垃圾邮件 malicious attackers:恶意攻击者 defacto:事实上 ...
分类:
其他好文 时间:
2020-02-25 21:49:18
阅读次数:
74
spark为什么比mapreduce快 mapreduce的数据处理过程是:把数据从磁盘读到内存,在内存中完成计算,再写回磁盘。下一个mr程序要继续对这批数据进行处理,又要重复这一过程。有多少个mr程序,就有多少次读磁盘和写磁盘的过程,效率低下。 spark的数据处理过程是:把数据读到内存之后,在多 ...
分类:
其他好文 时间:
2020-02-25 13:05:09
阅读次数:
66