这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...
分类:
其他好文 时间:
2018-03-08 10:36:17
阅读次数:
183
==>什么是SparkSQL?--->SparkSQL是Spark用来处理结构化数据的一个模块--->作用:提供一个编程抽象(DataFrame)并且作为分布式SQL查询引擎--->运行原理:将SparkSQL转化为RDD,然后提交到集群执行--->特点:----容易整合----统一的数据访问方式----兼容Hive----标准的数据连接----==>DataFrames组织成命名列的数据集,等同
分类:
数据库 时间:
2018-03-07 13:26:08
阅读次数:
1623
http://blog.csdn.net/wtq1993/article/details/52435563 http://blog.csdn.net/yeruby/article/details/51448188 hive on spark VS SparkSQL VS hive on tez 前一 ...
分类:
数据库 时间:
2018-03-01 13:32:46
阅读次数:
214
最近用hive比较多,虽然效率低,但是由于都是T+1的业务模式。所以也就不要求太多了,够用就行。其中用的吧比较多就是时间了,由于大数据中很多字段都不是标准的时间类型字段,所以期间涉及了很多的时间日期字段的处理,这里做一个汇总。一遍以后查询使用。也方便大家学习。 下面列举几个用的比较多的情况进行说明: ...
分类:
其他好文 时间:
2018-02-27 17:35:53
阅读次数:
2765
最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式领域的能力,相信一定会在大数据系统中占有一席之地。相 ...
分类:
数据库 时间:
2018-02-21 11:41:39
阅读次数:
236
以前都是使用Sqoop来完成数据从生成的hdfs数据存储上来抽取至oracle的数据库:sqoop抽取语句:sqoopexport--connect"jdbc:oracle:thin:@ip:port:sid"--username用户名--password密码--tablesid.表名--export-dirhdfs://nameservice1/user/XXX(hdfs地址
分类:
数据库 时间:
2018-02-11 16:17:12
阅读次数:
228
因为从事大数据方面的工作,经常在操作过程中数据存储占空间过大,读取速率过慢等问题,我开始对parquet格式存储进行了研究,下面是自己的一些见解(使用的表都是项目中的,大家理解为宽表即可):一、SparkSql中两种格式存储的读写性能(以资源产品拓扑信息宽表为例)1、假设:由于对于parquet存储格式来说,针对列式的查询读取操作以及列式的计算性能更高于普通的存储格式,所以在读取相同的sql过程中
分类:
其他好文 时间:
2018-02-11 10:43:25
阅读次数:
169
一、前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数。 开窗函数一般分组取topn时常用。 二、UDF和UDAF函数 1、UDF函数 java代码: 这些参数需要对应,UDF2就是表示传两个参数,UDF3就是传三个参数。 scala代码: 2、UDAF:用户 ...
分类:
数据库 时间:
2018-02-09 20:29:51
阅读次数:
520
* SparkSQL基础 起源: 1、在三四年前,Hive可以说是SQL on Hadoop的唯一选择,负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容,Shark项目由此而生。 2、Shark即Hive on Spark,本质上是通过Hive的HQL解析, ...
分类:
数据库 时间:
2018-01-12 22:43:34
阅读次数:
252