import java.sql.DriverManager import java.time.{LocalDateTime, ZoneOffset} import org.apache.spark.rdd.JdbcRDD import org.apache.spark.{SparkConf, Spa ...
分类:
数据库 时间:
2020-04-22 10:13:02
阅读次数:
86
import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType} /** * RDD转DataFra ...
分类:
其他好文 时间:
2020-04-22 10:11:22
阅读次数:
67
import org.apache.hadoop.hbase.HBaseConfiguration import org.apache.hadoop.hbase.mapreduce.TableInputFormat import org.apache.hadoop.hbase.util.Bytes ...
分类:
其他好文 时间:
2020-04-22 09:16:07
阅读次数:
55
1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st ...
分类:
其他好文 时间:
2020-04-20 11:59:44
阅读次数:
64
一. Spark简介 1.1 前言 Apache Spark是一个计算系统,它的处理速度很快,很通用,并且能集群部署。可以通过Scala,Java,Python和R来操作API。它还提供了了一些高级工具,比如Spark SQL(通过SQL操作),MLlib(机器学习用的),Graphx(图形化操作用 ...
分类:
其他好文 时间:
2020-04-20 11:44:10
阅读次数:
80
package com.atguigu.bigdata.spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object WordCount { def main(args: ...
分类:
其他好文 时间:
2020-04-19 18:04:25
阅读次数:
66
1.RDD 是spark的核心数据结构,全称是弹性分布式数据集。 本质上是一种分布式的内存抽象,表示一个只读的数据分区集合。一个RDD通常只能通过其他的RDD转换而创建,RDD定义了各种丰富的转换操作,通过转换操作,新的RDD包含了如何从其他RDD衍生所必须的信息。这些信息构成了RDD之间的依赖关系 ...
分类:
数据库 时间:
2020-04-19 01:15:39
阅读次数:
108
安装前准备: 1.3台主机 2.安装jdk 3.免密登陆 开始安装spark 1.解压安装包 tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz 2.修改配置文件 cd conf cp spark-env.sh.template spark-env.shcp slaves ...
分类:
其他好文 时间:
2020-04-19 00:31:12
阅读次数:
85
方法名称: // 类Method的名称:getXXX,返回值类型不应该是Unit,取一些东西,就应该明确返回值类型,该Method里面不能产生副作用。 def getName:String = {} // 推荐写法 def getName:Unit = {} // 不推荐写法 // 类Method的... ...
分类:
其他好文 时间:
2020-04-18 10:13:45
阅读次数:
80
代码洁癖 我们写代码给计算机运行,但是读代码的不仅仅是计算机,还有我们的战友(同事),还有未来的战友。 我们不能做一个猪队友,所以保证通用的代码规范是必要的。 每行代码需要有一个合理的长度 避免从左到右有很长的代码,当理解这行代码的时候会占用我们的思维。 在印刷制品中,最合理的长度在50-70个字符... ...
分类:
其他好文 时间:
2020-04-18 10:00:09
阅读次数:
82