搜索关键字：scala spark，搜索到10387个结果！码迷,mamicode.com！

spark安装小白教程

本人情况：首次接触大数据工具spark，只会python，sql; 不会java。本机情况： win10新电脑，里面基本啥都没有，连java都没有需求：尝试单机安装spark，学习这个大数据工具，特来记录安装全过程。第一步：安装JDK 1. 下载安装JDK JDK为java开发工具包（ja ...

分类：其他好文时间：2020-02-28 22:20:00 阅读次数：71

simrank算法综合

1，栈溢出问题，主要原因：每个RDD会存储他的祖先，以便发生错误的时候，能够利用这种关系再次生成。算法类的spark程序，因为会迭代很多次，这种关系会变得很巨大，引发栈溢出问题 * 设置检查点 val sc = new SparkContext(conf) sc.setCheckpointDir(" ...

分类：编程语言时间：2020-02-28 18:55:18 阅读次数：60

Spark调优（一）

一、对多次使用的RDD进行持久化如何选择一种最合适的持久化策略？默认情况下，性能最高的当然是MEMORY_ONLY，但前提是你的内存必须足够足够大，可以绰绰有余地存放下整个RDD的所有数据。因为不进行序列化与反序列化操作，就避免了这部分的性能开销;对这个RDD的后续算子操作，都是基于纯内存中 ...

分类：其他好文时间：2020-02-28 14:18:23 阅读次数：60

Spark调优（二）数据本地化

Application任务执行流程: 在Spark Application提交后，Driver会根据action算子划分成一个个的job，然后对每一个job划分成一个个的stage，stage内部实际上是由一系列并行计算的task组成的，然后以TaskSet的形式提交给你TaskSchedule ...

分类：其他好文时间：2020-02-28 13:56:43 阅读次数：49

Spark宽依赖、窄依赖

在Spark中，RDD（弹性分布式数据集）存在依赖关系，宽依赖和窄依赖。宽依赖和窄依赖的区别是RDD之间是否存在shuffle操作。窄依赖窄依赖指父RDD的每一个分区最多被一个子RDD的分区所用，即一个父RDD对应一个子RDD或多个父RDD对应一个子RDD map,filter,union属于 ...

分类：其他好文时间：2020-02-28 11:44:48 阅读次数：46

响应式网站01

响应式网站概念弹性网格布局弹性图片媒体查询响应式网站优点减少工作量节省时间网站代码只需要一份多出来的只是js脚本和css样式每个设备都能得到正确的设计搜索优化响应式网站缺点加在更多的样式和脚本设计比较难精准的定位和控制老版本浏览器兼容性不好需要掌握技术浏览器兼容 IE ...

分类：Web程序时间：2020-02-27 19:02:58 阅读次数：89

Scala面向对象

Scala面向对象前言： Scala语言是面向对象的。 ? Java是面向对象的编程语言，由于历史原因，Java中还存在着非面向对象的内容:基本类型(int,float..) ，null，静态方法等。 ? Scala语言来自于Java，所以天生就是面向对象的语言，而且Scala是纯粹的面向对象的语 ...

分类：其他好文时间：2020-02-27 09:13:00 阅读次数：78

什么是spark？

什么是Spark？ Spark官网：http://spark.apache.org Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态 ...

分类：其他好文时间：2020-02-26 18:30:53 阅读次数：52

术语词汇

scalable：可扩展的 end to end :端到端 state of the art:先进 sparsity:稀疏性 sketch：草图 spam：垃圾邮件 malicious attackers：恶意攻击者 defacto：事实上 ...

分类：其他好文时间：2020-02-25 21:49:18 阅读次数：74

spark计算模型

spark为什么比mapreduce快 mapreduce的数据处理过程是：把数据从磁盘读到内存，在内存中完成计算，再写回磁盘。下一个mr程序要继续对这批数据进行处理，又要重复这一过程。有多少个mr程序，就有多少次读磁盘和写磁盘的过程，效率低下。 spark的数据处理过程是：把数据读到内存之后，在多 ...

分类：其他好文时间：2020-02-25 13:05:09 阅读次数：66

共10387条上一页 1 ... 70 71 72 73 74 ... 1039 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)