第一种方式: private def singleDataSaveMysql(sql: String) = { val dataFrame2: DataFrame = ss.sql(sql) val resultRDD = df2rdd(dataFrame2) val value: RDD[Map[ ...
分类:
数据库 时间:
2020-04-28 17:18:05
阅读次数:
50
本文将分两部分来介绍如何在IntelliJ IDEA中运行Java/Scala/Spark程序: 基本概念介绍 在IntelliJ IDEA中创建和运行java/scala/spark程序 基本概念介绍 IntelliJ IDEA 本文使用版本为: ideaIC 2020.1 IDEA 全称 Int ...
分类:
编程语言 时间:
2020-04-28 14:59:06
阅读次数:
59
Spark小实例——求文件中的最大值和最小值(IDEA实现)
分类:
其他好文 时间:
2020-04-27 22:38:23
阅读次数:
162
Hive是什么? 个人理解是把存储在hdfs上的数据映射位一张数据库表,提供类sql(HQL)语句的查询,方便数据的分析,查询。另外一点就是自动的把HQL转化为MapRudecu、Tez、Spark执行。 Hive的架构 用户接口:可以是hive shell,jdbc(java 访问hive),we ...
分类:
其他好文 时间:
2020-04-27 15:21:33
阅读次数:
59
网络的功能和优点: 数据和应用程序 资源 网络存储 备份设备 网络的特征: 速度 成本 安全性 可用性 可扩展性 可靠性 拓扑 开放系统互联OSI: 三种通讯模式: unicast broadcast multicast 冲突域和广播域: 冲突域:两个网络设备同时发送数据,如果发生了冲突,则两个设备 ...
分类:
其他好文 时间:
2020-04-27 09:56:02
阅读次数:
56
网络分层 三种通讯模式 unicast单播 broadcast广播 multicast组播 冲突域:两个网络设备同时发送数据,如果发生了冲突,则两个设备处于同一个冲突域,反之,则各自处于不 同的冲突域广播域:一个网络设备发送广播,另一个设备收到了,则两个设备处于同一个广播域,反之,则各自处于不 同的 ...
分类:
其他好文 时间:
2020-04-27 09:36:11
阅读次数:
62
//清理格式不匹配的数据 //此代码可以实现自动滤除掉无法转化为double类型的数据 import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.j ...
分类:
其他好文 时间:
2020-04-26 21:00:10
阅读次数:
120
本文始发于个人公众号: TechFlow ,原创不易,求个关注 今天是spark专题的第四篇文章,我们一起来看下Pair RDD。 定义 在之前的文章当中,我们已经熟悉了RDD的相关概念,也了解了RDD基本的转化操作和行动操作。今天我们来看一下RDD当中非常常见的PairRDD,也叫做键值对RDD, ...
分类:
其他好文 时间:
2020-04-26 20:51:45
阅读次数:
83
1 package com.spark_sql 2 3 import java.util.Properties 4 import org.apache.spark.sql.{DataFrame, SparkSession} 5 6 object DataFromMysql { 7 def main( ...
分类:
数据库 时间:
2020-04-26 18:43:28
阅读次数:
81
// hadoop+spark二次排序代码 package com.swust.hadoop; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaPairRDD; import org.apache.spa ...
分类:
其他好文 时间:
2020-04-26 16:43:00
阅读次数:
64