Hive支持的存储数据的格式主要有:TEXTFILE 、SEQUENCEFILE、ORC、PARQUET 一. 列式存储和行式存储 左边为逻辑表,右边第一个为行式存储,第二个为列式存储 1. 行式存储的特点 查询满足条件的一整行数据的时候,列存储则需要去每个聚集的字段找到对应的每个列的值,行存储只需 ...
分类:
其他好文 时间:
2018-12-23 23:59:36
阅读次数:
343
一 简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark r ...
分类:
其他好文 时间:
2018-12-20 21:35:21
阅读次数:
159
导入hdfs建表 use ods_db;CREATE EXTERNAL TABLE BER_O2O_PV(JSON STRING)PARTITIONEDBY(YEARSTRING,MONTHSTRING)STORED AS TEXTFILELOCATION '/ODS/ODS_DB/BER_O2O_ ...
分类:
其他好文 时间:
2018-12-14 19:26:51
阅读次数:
533
-- 重点,目标表无重复数据 从结果可以看出,在无重复数据的情况下,parquet的压缩无用武之地,占用空间比textfile还大,ORC是压缩最强的文件模式。 ...
分类:
其他好文 时间:
2018-12-05 20:32:24
阅读次数:
201
/1、本地文件读取 val local_file_1 = sc.textFile("/home/hadoop/sp.txt") val local_file_2 = sc.textFile("file://home/hadoop/sp.txt") //2、当前目录下的文件 val file1 = s... ...
分类:
其他好文 时间:
2018-12-04 13:14:51
阅读次数:
219
摘要:本文在Linux Ubuntu1804下Python3.6.5环境中实现了StanfordNLP的词性标注。<!--?xml:namespace prefix = "o" ns = "urn:schemas-microsoft-com:office:office" /--> 1. 写在前面 《 ...
分类:
编程语言 时间:
2018-11-25 13:20:47
阅读次数:
367
反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:
其他好文 时间:
2018-11-24 14:21:32
阅读次数:
210
DataX操作HDFS 读取HDFS 1 快速介绍 HdfsReader提供了读取分布式文件系统数据存储的能力。在底层实现上,HdfsReader获取分布式文件系统上文件的数据,并转换为DataX传输协议传递给Writer。目前HdfsReader支持的文件格式有textfile(text)、orc ...
分类:
其他好文 时间:
2018-11-18 22:29:52
阅读次数:
1673
spark-shell --master yarnsc:val lineRDD=sc.textFile("/test/input/test")lineRDD.collect().foreach(println)val wordRDD = lineRDDwordRDD.collect().foreac ...
分类:
其他好文 时间:
2018-11-10 16:47:32
阅读次数:
190