1. 准备测试数据 首先创建普通表: create table test(id int, name string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE; 创建分区表: CREATE EXTERNAL TAB ...
分类:
其他好文 时间:
2018-09-27 15:32:16
阅读次数:
366
直接上代码 这里使用了scala 中的隐式转换,当调用sc.textFile(path,delimiter)时 sc会被自动包装成ContextExtensions ,并调用其textFile 方法 ...
分类:
其他好文 时间:
2018-09-15 23:49:52
阅读次数:
557
一)新建maven项目,引入如下pom文件<dependency> ...
分类:
其他好文 时间:
2018-09-09 14:50:33
阅读次数:
153
一、数据类型 二、分隔符 Hive默认的分隔符。 三、文件存储格式 TEXTFILE :即通常说的文本格式,默认长期,数据不做压缩,磁盘开销大、数据解析开销大。 SEQUENCEFILE :Hadoop提供的一种二进制格式,使用方便、可分割、可压缩,并且按行进行切分 。RCFILE :一种行列存储相 ...
分类:
其他好文 时间:
2018-09-06 18:16:54
阅读次数:
219
hdfs到MySQL csv/txt文件到hdfs MySQL到hdfs hive与hdfs的映射: stored as 关键词,hive目前支持三种方式:1:就是最普通的textfile,数据不做压缩,磁盘开销大,解析开销也大2:SquenceFIle,hadoop api提供的一种二进制API方 ...
分类:
数据库 时间:
2018-08-12 20:15:11
阅读次数:
220
hive文件存储格式包括以下几类: 1、TEXTFILE 2、SEQUENCEFILE 3、RCFILE 4、ORCFILE(0.11以后出现) 其中TEXTFILE为默认格式,建表时不指定默认为这个格式,导入数据时会直接把数据文件拷贝到hdfs上不进行处理; SEQUENCEFILE,RCFILE ...
分类:
其他好文 时间:
2018-07-18 14:13:14
阅读次数:
179
1 cd /usr/local/spark/spark-2.3.1-bin-hadoop2.6 2 ./bin/pyspark 3 >>> textFile = spark.read.text("README.md")2018-07-10 09:03:16 WARN ObjectStore:568 ...
分类:
其他好文 时间:
2018-07-10 11:26:21
阅读次数:
151
简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 ...
分类:
数据库 时间:
2018-06-30 14:52:23
阅读次数:
492
1.RDD的创建 1.1 从一个本地的Scala集合创建 1.2 从一个外部的存储系统中创建 这里外部系统,指的是任何Hadoop(InputFormat)支持的存储系统.比如本地文本文件,HDFS,HBase,S3等等 1.2.1 textFile 1.2.2 wholeTextFiles who ...
分类:
其他好文 时间:
2018-06-29 23:31:07
阅读次数:
195