这几天研究hive表的存储方式和压缩模式。在这里做一个简单的总结 hive表的存储 样例 : 我的表:rp_person_house_loan_info 数据总量:1933776 textfile: (1)hive数据表的默认格式,存储方式:行存储 。 (2) 可使用Gzip,Bzip2等压缩算法压 ...
分类:
其他好文 时间:
2019-03-13 12:28:22
阅读次数:
219
linux查看日志文件内容命令tail、cat、tac、head、echo tail -f test.log你会看到屏幕不断有内容被打印出来. 这时候中断第一个进程Ctrl-C, linux 如何显示一个文件的某几行(中间几行) 从第3000行开始,显示1000行。即显示3000~3999行cat ...
分类:
系统相关 时间:
2019-03-07 10:28:35
阅读次数:
181
"一、存储格式行存储和列存储" "二、Hive文件存储格式" "三、创建语句和压缩" 一、存储格式行存储和列存储 1. 行存储可以理解为一条记录存储一行,通过条件能够查询一整行数据。 2. 列存储,以字段聚集存储,可以理解为相同的字段存储在一起。 二、Hive文件存储格式 1. TEXTFILE, ...
分类:
其他好文 时间:
2019-03-02 01:07:09
阅读次数:
357
object ScalaApp { def main(args: Array[String]): Unit = { var conf = new SparkConf() conf.setMaster("local") var sc = new SparkContext(conf) val lines... ...
分类:
其他好文 时间:
2019-01-20 15:03:57
阅读次数:
471
一、Spark交互式命令行 启动脚本:spark-shell 先启动spark:./start-all.sh 本地模式启动命令:/bin/spark-shell 集群模式启动命令:/bin/spark-shell --master spark://spark-1:7077 --total-execu ...
分类:
其他好文 时间:
2019-01-13 10:59:28
阅读次数:
197
Hive 的存储格式 | textfile | sequencefile | rcfile | orc | parquet | ...
分类:
其他好文 时间:
2019-01-12 17:48:12
阅读次数:
245
看很多资料,很少有讲怎么去操作读写csv文件的,我也查了一些。很多博客都是很老的方法,还有好多转来转去的,复制粘贴都不能看。下面我在这里归纳一下,以免以后用到时再费时间去查 通过sc.textFile 确实这样操作可以读取,但是根据csv文件的格式能够发现不方便后续操作,官方也建议通过Spark S ...
分类:
其他好文 时间:
2019-01-06 18:10:55
阅读次数:
183
一、创建表: create table windows_ss ( polno string, eff_date string, userno string ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' stored as textfile; 数据准备 ...
分类:
其他好文 时间:
2019-01-04 20:26:12
阅读次数:
174
(1)避免重复的RDD案例:valrdd1=sc.textFile("hdfs://zzy/hello.txt")rdd1.map(...)valrdd2=sc.textFile("hdfs://zzy/hello.txt")rdd2.reduce(...)这里条用了两次textFile,并且读取的是同一个文件,造成了多次的磁盘读取,如果是hi同一个文件,读取一次即可。(2)尽可能多的复用一个RD
分类:
其他好文 时间:
2019-01-04 12:34:43
阅读次数:
148
一:首先将我们从文本中读取的数据映射到表也就是视图 eg: $>cat b.txt 1 ded 2 dsfre 3 sfs 4 fr $>val sc = spark.sparkContext #创建SparkContext $>val rdd = sc.textFile("file:///home ...
分类:
数据库 时间:
2019-01-01 14:07:47
阅读次数:
638