反射方式构建元数据: 通过反射来获取RDD中的Schema信息。这种方式适合于列名(元数据)已知的情况下 步骤: 1.SparkConf配置环境 2.SparkContext初始化上下文 3.SQLContext初始化SparkSQL上下文 4.创建一个普通的RDD(sc.textFile) 5.使 ...
分类:
其他好文 时间:
2018-11-24 14:21:32
阅读次数:
210
欢迎访问网易云社区,了解更多网易技术产品运营经验。 最近想来,大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验,弱势在于分布式领域的高可用性、容错性、扩展性等,假以时日,让其经过一定的改造,比如引入Paxos、raft等,强化自己在分布式 ...
分类:
数据库 时间:
2018-11-21 15:36:51
阅读次数:
212
引言 join是SQL中的常用操作,良好的表结构能够将数据分散到不同的表中,使其符合某种规范(mysql三大范式),可以最大程度的减少数据冗余,更新容错等,而建立表和表之间关系的最佳方式就是join操作。 对于Spark来说有3种Join的实现,每种Join对应的不同的应用场景(SparkSQL自动 ...
分类:
数据库 时间:
2018-11-05 20:56:05
阅读次数:
1389
hive建表字段的时间格式建议使用timestamp或string,date类型会出现异常,比如load文件时时间会变为null sparksql才支持load数据到hive表中,hive2竟然不支持? 补数据有自依赖,多天时可以等前一天运行完再运行后一天,但是补下游不行,会导致多天并行,原因是补下 ...
分类:
其他好文 时间:
2018-11-02 13:01:42
阅读次数:
1315
## Hive环境搭建1. hive下载:http://archive-primary.cloudera.com/cdh5/cdh/5/hive-1.1.0-cdh5.7.0.tar.gzwget http://archive-primary.cloudera.com/cdh5/cdh/5/hive ...
分类:
数据库 时间:
2018-10-31 11:22:40
阅读次数:
179
最近在研究flink,发现较新版的flink支持sql,这下好了,我用spark两年了,对用法和性能算是踩过一些坑了。 听说flink挺快的,那么flinkSQL和sparkSQL到底哪个快呢? 想必很多人也想知道吧,那就拿数据说话(虽然不是自己做的基线测试,但好歹也找了好久) 下图是hive, s ...
分类:
数据库 时间:
2018-10-30 19:28:12
阅读次数:
429
一、数据准备: 代码示例: 二、数据准备 代码示例: ...
分类:
数据库 时间:
2018-10-19 19:48:57
阅读次数:
592
今天在非hadoop用户使用sparksql处理 这个句型遇到以下的错误。 修复方式: 将 操作系统 上的/tmp/hadoop hadoop的可写权限赋给nonhadoop用户,安全的方法是将用户加到相应的组,测试环境可以直接使用 权限配置。 ...
分类:
数据库 时间:
2018-10-18 00:49:29
阅读次数:
732
SparkSQL(Spark用于处理结构化数据的模块) 通过SparkSQL导入的数据可以来自MySQL数据库、Json数据、Csv数据等,通过load这些数据可以对其做一系列计算 下面通过程序代码来详细查看SparkSQL导入数据并写入到ES中: 数据集:北京市PM2.5数据 Spark版本:2. ...
分类:
数据库 时间:
2018-10-17 00:26:13
阅读次数:
1150
spark-sql 架构 图1 图1是sparksql的执行架构,主要包括逻辑计划和物理计划几个阶段,下面对流程详细分析。 sql执行流程 总体流程 SQLConf中的`spark.sql.variable.substitute`,默认是可用的;参考` SparkSqlParser` 其中`Sess ...
分类:
数据库 时间:
2018-10-09 20:05:31
阅读次数:
633