搜索关键字：scala spark，搜索到10387个结果！码迷,mamicode.com！

Jerry's spark demo application

Partner的问题 Solution 在Cloud for Customer的Service Control Center里能看到C4C升级时间： Java应用程序入口：输入一个文本文件，这个Java应用会利用Spark的大数据处理功能，迅速统计出这个文本文件里每个单词出现的次数，按从高到低排序 ...

分类：移动开发时间：2020-03-01 14:07:27 阅读次数：92

Spark基础全解析

我的个人博客：https://www.luozhiyun.com/ 为什么需要Spark？ MapReduce的缺陷第一，MapReduce模型的抽象层次低，大量的底层逻辑都需要开发者手工完成。第二，只提供Map和Reduce两个操作。举个例子，两个数据集的Join是很基本而且常用的功能，但是 ...

分类：其他好文时间：2020-03-01 12:46:39 阅读次数：87

关于Scala的知识点（一）

Scala的概念： Scala是一个面向对象和面向函数式的多范式编程语言，基于JVM，运行于Java虚拟机，兼容现有Java程序。在Scala编程中，“每个值都是对象，每个符号都是方法操作”。在面向函数中，函数是一个对象。他跟字符串、数值具有同等地位，也就是说函数可以赋值给一个变量，可以作为方法 ...

分类：其他好文时间：2020-02-29 22:37:51 阅读次数：53

Spark

1、什么是Spark Spark是一种统一、快速、通用、可扩展的分布式大数据分析引擎。分布式体现在Spark一般情况是以集群模式存在，架构为Master/Slaver(主从结构)。大数据分析引擎体现在Spark能够分析数据，但是没有存储。一般线上的spark数据来源（HDFS, Hive、Kafk ...

分类：其他好文时间：2020-02-29 20:51:19 阅读次数：74

大数据08 流计算(高速毫秒级)

静态数据：比如数据仓库中的数据, 类似三峡水库中的水. (数据挖掘, OLAP 分析工具) 流数据: 网络监控, 传感检测, 大量的, 流式的数据(不断的产生, 源源不断的到达). 比如 PM2.5 的检测，这种需要实时的监控和处理(分析). 流数据的特性推送的方式: 实时查询的结果流计算应用 ...

分类：其他好文时间：2020-02-29 20:39:25 阅读次数：96

大数据07 Spark

Spark 是基于内存的计算, 低延迟. Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流) Spark 特点: 处理快，容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样 Spark生态系 ...

分类：其他好文时间：2020-02-29 17:28:30 阅读次数：94

【华为云技术分享】快速理解spark-on-k8s中的external-shuffle-service

【摘要】 external-shuffle-service是Spark里面一个重要的特性，有了它后，executor可以在不同的stage阶段动态改变数量，大大提升集群资源利用率。但是这个特性当前在k8s上并不能很好的运行。让我们来看看，在k8s上要实现这个external-shuffle-serv ...

分类：其他好文时间：2020-02-29 16:18:30 阅读次数：112

pyspark错误记录1: Py4JJavaError

错误代码：完整错误信息为： Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe. : org.apache.hadoop.mapred.Inva ...

分类：编程语言时间：2020-02-29 13:14:45 阅读次数：81

spark

1、spark基础，什么是spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache顶级项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其 ...

分类：其他好文时间：2020-02-29 11:38:28 阅读次数：70

1，Hadoop知识储备

Hadoop初学思维导图 1，Hadoop ··· Hadoop： Hadoop的核心由HDFS和MapReduce组成。HDFS是分布式文件系统，是Hadoop生态圈的分布式数据存储基石；MapReduce是计算组件，会被Spark取代。 ··· Hadoop生态圈： Hadoop生态圈是一系列用 ...

分类：其他好文时间：2020-02-29 00:17:31 阅读次数：101

共10387条上一页 1 ... 69 70 71 72 73 ... 1039 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)