Partner的问题 Solution 在Cloud for Customer的Service Control Center里能看到C4C升级时间: Java应用程序入口: 输入一个文本文件,这个Java应用会利用Spark的大数据处理功能,迅速统计出这个文本文件里每个单词出现的次数,按从高到低排序 ...
分类:
移动开发 时间:
2020-03-01 14:07:27
阅读次数:
92
我的个人博客:https://www.luozhiyun.com/ 为什么需要Spark? MapReduce的缺陷 第一,MapReduce模型的抽象层次低,大量的底层逻辑都需要开发者手工完成。 第二,只提供Map和Reduce两个操作。 举个例子,两个数据集的Join是很基本而且常用的功能,但是 ...
分类:
其他好文 时间:
2020-03-01 12:46:39
阅读次数:
87
Scala的概念: Scala是一个面向对象和面向函数式的多范式编程语言,基于JVM,运行于Java虚拟机,兼容现有Java程序。 在Scala编程中,“每个值都是对象,每个符号都是方法操作”。 在面向函数中,函数是一个对象。他跟字符串、数值具有同等地位,也就是说函数可以赋值给一个变量,可以作为方法 ...
分类:
其他好文 时间:
2020-02-29 22:37:51
阅读次数:
53
1、什么是Spark Spark是一种统一、快速、通用、可扩展的分布式大数据分析引擎。分布式体现在Spark一般情况是以集群模式存在,架构为Master/Slaver(主从结构)。大数据分析引擎体现在Spark能够分析数据,但是没有存储。一般线上的spark数据来源 (HDFS, Hive、Kafk ...
分类:
其他好文 时间:
2020-02-29 20:51:19
阅读次数:
74
静态数据:比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测, 这种需要实时的监控和处理(分析). 流数据的特性 推送的方式: 实时查询的结果 流计算应用 ...
分类:
其他好文 时间:
2020-02-29 20:39:25
阅读次数:
96
Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快, 容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 ...
分类:
其他好文 时间:
2020-02-29 17:28:30
阅读次数:
94
【摘要】 external-shuffle-service是Spark里面一个重要的特性,有了它后,executor可以在不同的stage阶段动态改变数量,大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看,在k8s上要实现这个external-shuffle-serv ...
分类:
其他好文 时间:
2020-02-29 16:18:30
阅读次数:
112
错误代码: 完整错误信息为: Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...
分类:
编程语言 时间:
2020-02-29 13:14:45
阅读次数:
81
1、spark基础,什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个 子项目的集合,其 ...
分类:
其他好文 时间:
2020-02-29 11:38:28
阅读次数:
70
Hadoop初学思维导图 1,Hadoop ··· Hadoop: Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统,是Hadoop生态圈的分布式数据存储基石;MapReduce是计算组件,会被Spark取代。 ··· Hadoop生态圈: Hadoop生态圈是一系列用 ...
分类:
其他好文 时间:
2020-02-29 00:17:31
阅读次数:
101