job是串行执行的, 执行完上一个才执行下一个 eg:Wordcount案例 val lines = sc.textFile("本地URL or HDFS URL")//详解见代码1 val words = lines.flatMap(line => line.split(" "))//也会返回一个 ...
分类:
其他好文 时间:
2020-01-25 00:56:57
阅读次数:
119
导读目录 第一节:代码层面 1:RDD创建 2:算子 3:数据持久化算子 4:广播变量 5:累加器 6:开发流程 第二节:Shuffle优化层面 1:Shuffle 2:调优 第一节:代码层面 (1)RDD创建: Java: sc.textfile sc.parallelize() sc.paral ...
分类:
其他好文 时间:
2020-01-09 20:41:14
阅读次数:
78
一.示例 1.统计PV和UV 1.1统计PV val conf = new SparkConf() conf.setMaster("local").setAppName("pvuv") val sc = new SparkContext(conf) val lineRDD = sc.textFile ...
分类:
其他好文 时间:
2019-12-30 14:16:01
阅读次数:
89
Hive中的文件格式 1-TEXTFILE 文本格式,Hive的默认格式,数据不压缩,磁盘开销大、数据解析开销大。 对应的hive API为:org.apache.hadoop.mapred.TextInputFormat和org.apache.hive.ql.io.HiveIgnoreKeyTex ...
分类:
其他好文 时间:
2019-12-14 15:24:37
阅读次数:
160
1.应用层建内部表,数仓表用外部表 2.存储格式一般选orcfile,除非需要直接load数据的表则选textfile 3.建表时要指定库名 hive的建表样例 create table if not exists 表名( 字段名 字段类型 comment'字段描述' 。。。。。。。。。。。。。。。 ...
分类:
其他好文 时间:
2019-12-13 18:01:38
阅读次数:
88
val rdd = sc.parallelize(List(1,2,3,4,5,6),第二参数)这里的第二参数 获取方式有两种:1.直接给定值,根据传入的值决定分区的数量2.根据运行环境获取分区数量(core) -->例如 本地运行 设置为local 此时设置分区值默认分区就是1个 val rdd ...
分类:
其他好文 时间:
2019-12-12 17:57:37
阅读次数:
190
1. hdfs存文件的时候会把文件切割成block,block分布在不同节点上,目前设置replicate=3,每个block会出现在3个节点上。 2. Spark以RDD概念为中心运行,RDD代表抽象数据集。以代码为例: sc.textFile(“abc.log”) textFile()函数会创建 ...
分类:
其他好文 时间:
2019-11-22 13:26:33
阅读次数:
63
Hive的文件存储格式: textFile textFile为默认格式 存储方式:行存储 缺点:磁盘开销大;数据解析开销大;压缩的text文件,hive无法进行合并和拆分 sequencefile 二进制文件,以<key,value>的形式序列化到文件中 存储方式:行存储 优点:可分割、压缩,一般选 ...
分类:
其他好文 时间:
2019-11-20 15:23:52
阅读次数:
51
Apache Hive支持Apache Hadoop中使用的几种熟悉的文件格式,如TextFile,RCFile,SequenceFile,AVRO,ORC和Parquet格式。 Cloudera Impala也支持这些文件格式。 在建表时使用STORED AS (TextFile|RCFile|S ...
分类:
其他好文 时间:
2019-11-18 18:42:00
阅读次数:
109
procedure TForm1.SaveLog(sFlag:string;MSG:string);var QF1:Textfile; 声明文本文件类型 Qfiletmp,sPath:string;begin try sPath :=ExtractFileDir(ParamStr(0))+'\Saj ...