企业介绍: 中国电信上海理想信息产业(集团)有限公司,成立于1999年,注册资本7000万元,是上海市投资规模较大的信息技术企业之一。母公司员工500多人,其中80%以上员工具有大学本科以上学历,从事软件开发人员超过50%,是一个典型的“知识密集型”企业。 通过整合公司内各事业部多年大型项目实施的整 ...
分类:
其他好文 时间:
2020-06-14 01:27:26
阅读次数:
98
首先,先安装jdk.我安装的是jdk14.下载界面如下所示: 接下来配置path,java_home两个环境变量即可。 接下来安装scala 我安装的scala是2.13.2版本。 接下来安装hadoop ...
分类:
其他好文 时间:
2020-06-13 23:05:23
阅读次数:
66
第一步 在pom.xml中添加 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.3</version> </de ...
分类:
其他好文 时间:
2020-06-13 12:39:49
阅读次数:
172
本文始发于个人公众号:TechFlow,原创不易,求个关注 上次给大家推荐了免费的spark集群之后,就有很多小伙伴来问我有没有好的云GPU平台推荐。我一直没给大家推荐,主要原因是我常年使用Mac,对GPU配置了解不深,不过云GPU平台我倒是用过几个,今天就和大家来简单聊聊。 Colab 首先来介绍 ...
分类:
其他好文 时间:
2020-06-12 20:36:39
阅读次数:
165
5. 实战Structured Streaming 5.1. Static版本 先读一份static 数据: val static = spark.read.json("s3://tang-spark/data/activity-data/") static.printSchema root |-- ...
分类:
其他好文 时间:
2020-06-12 12:48:53
阅读次数:
137
ApacheSpark是行业中流行和广泛使用的大数据工具之一。ApacheSpark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apacheflink。ApacheSpark简介ApacheSpark是为快速计算而设计的开源,闪电般快速的集群计算框架。ApacheSpark扩展了MapReduce模型,以有效地将其用于多种计算,包括流处理和交互式查询。ApacheSpark的主要功能
分类:
Web程序 时间:
2020-06-12 09:14:25
阅读次数:
61
高级算子 mapPartitionWithIndex:对RDD中每个分区(有下标)进行操作,通过自己定义的一个函数来处理 def mapPartitionsWithIndex[U](f: (Int, Iterator[T]) ? Iterator[U]) f 是函数参数,接收两个参数 Int:分区号 ...
分类:
数据库 时间:
2020-06-12 00:32:18
阅读次数:
96
Apache Spark是行业中流行和广泛使用的大数据工具之一。Apache Spark已成为业界的热门话题,并且如今非常流行。但工业正在转移朝向apache flink。 Apache Spark简介 Apache Spark是为快速计算而设计的开源,闪电般快速的集群计算框架。Apache Spa ...
分类:
Web程序 时间:
2020-06-11 19:59:25
阅读次数:
79
本地scala version为2.11.8,spark为2.4.0版本 于是修改dr-elephant/build.sbt scalaVersion := "2.11.8" 修改dr-elephant/compile.conf hadoop_version=2.8.4 spark_version= ...
分类:
其他好文 时间:
2020-06-11 13:42:28
阅读次数:
100
一、团队介绍 团队名称:精神小伙成双队 团队成员:冯静妃(博客地址:https://www.cnblogs.com/fengjingfei/) 李佳伟(博客地址:https://www.cnblogs.com/lijiawei1-2-3/) 赵树琪(博客地址:https://www.cnblogs. ...
分类:
其他好文 时间:
2020-06-11 01:16:34
阅读次数:
192