搜索关键字：spark broadcast，搜索到8013个结果！码迷,mamicode.com！

数据湖方案：Hudi、Delta、Iceberg深度对比

目前市面上流行的三大开源数据湖方案分别为：delta、Apache Iceberg和Apache Hudi。其中，由于Apache Spark在商业化上取得巨大成功，所以由其背后商业公司Databricks推出的delta也显得格外亮眼。 Apache Hudi是由Uber的工程师为满足其内部数据 ...

分类：其他好文时间：2020-06-05 14:44:10 阅读次数：362

Spark读取json数据出现混乱的情况

今天晚上，我们老师给我们布置了一个任务，用spark读取一些json数据，然后做一些数据分析的任务我以为重头戏是数据分析的部分，没想到自己被读取json数据拦了1个多小时，写篇博客记录下 orz 常规的读取数据： val userInfo = spark.read.format("json"). ...

分类：Web程序时间：2020-06-04 21:21:41 阅读次数：129

Spark读取Hbase中的数据

大家可能都知道很熟悉Spark的两种常见的数据读取方式（存放到RDD中）：（1）、调用parallelize函数直接从集合中获取数据，并存入RDD中；Java版本如下： JavaRDD<Integer> myRDD = sc.parallelize(Arrays.asList(1,2,3)); Sc ...

分类：其他好文时间：2020-06-04 10:38:09 阅读次数：76

Spark使用踩坑完全(并不)指南

1.java编译报错错误 Error: A JNI error has occurred, please check your installation and try again 👆下面还有其他报错但我没有截到，但问题的原因都是这个👆 这个错误一般情况是由于java 版本与javac 版本 ...

分类：其他好文时间：2020-06-04 01:04:18 阅读次数：78

[DB] Spark--Spark Core

生态 Spark Core：最重要，其中最重要的是RDD（弹性分布式数据集） Spark SQL Spark Streaming Spark MLLib：机器学习算法 Spark Graphx：图计算特点针对大规模数据处理的快速通用引擎基于内存计算速度快，易用，兼容性强体系架构主节点：C ...

分类：数据库时间：2020-06-03 20:48:29 阅读次数：89

spark的编译

1.下载spark源码包2.下载scala3.下载maven4.防止maven内溢出: export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=512m" 5.在spark目录下，有pom文件的那里执行：执行maven安装 ./build/mvn ...

分类：其他好文时间：2020-06-01 01:15:14 阅读次数：74

第2天Python实战Spark大数据分析及调度-RDD编程

Spark提供的主要抽象是resilient distributed dataset（RDD）弹性分布式数据集，它是跨集群节点划分的元素的集合，可以并行操作。通过从Hadoop文件系统（或任何其他Hadoop支持的文件系统）中的文件或驱动程序中现有的Scala集合开始并进行转换来创建RDD。用户还 ...

分类：编程语言时间：2020-05-31 16:03:22 阅读次数：92

Apache Spark

Apache Spark Apache Spark是一个开源集群运算框架，最初是由加州大学柏克莱分校AMPLab所开发。相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中，Spark使用了存储器内运算技术，能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行 ...

分类：Web程序时间：2020-05-31 00:41:36 阅读次数：95

Spark之RDD编程

Spark对数据的核心抽象——弹性分布式数据集（Resilient Distributed Dataset），简称RDD。RDD其实就是分布式的元素集合。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用RDD操作进行求值。而在这背后，Spark会自动将RDD中的数据分发到集群 ...

分类：其他好文时间：2020-05-30 22:18:13 阅读次数：105

spark基础入门

第1章 Spark 概述 1.1 什么是 Spark 官网：http://spark.apache.org Spark 的产生背景 Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化 ...

分类：其他好文时间：2020-05-30 22:09:09 阅读次数：75

共8013条上一页 1 ... 31 32 33 34 35 ... 802 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)