Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则,优化生成的Resolved Plan,这一步涉及到的有Optimizer。 之前介绍在sparksession实例化的是会实例化sessionState,进而确定QueryExecution、Analy ...
分类:
数据库 时间:
2020-07-26 19:28:25
阅读次数:
101
1 数据导入 1.1 向表中装载数据(Load) 1.语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1, ...
分类:
其他好文 时间:
2020-07-22 20:27:55
阅读次数:
71
一、Kafka 简介 1.基本概念 Kafka 是一个分布式的基于发布/订阅消息系统,主要应用于大数据实时处理领域,其官网是:http://kafka.apache.org/。Kafka 是一个分布式、支持分区的(Partition)、多副本的(Replica),基于 ZooKeeper 协调的发布 ...
分类:
编程语言 时间:
2020-07-22 15:56:17
阅读次数:
64
row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号 select departmentid,workcode ,ROW_NUMBER() OVER ( ...
分类:
数据库 时间:
2020-07-21 13:44:57
阅读次数:
76
MapTask工作机制 MapTask工作机制如图4-12所示。 图4-12 MapTask工作机制 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给 ...
分类:
其他好文 时间:
2020-07-19 23:10:43
阅读次数:
67
https://www.cnblogs.com/onepixel/articles/7674659.html这个里面比较详细。 主要记快排和归并。 快排: 快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序, ...
分类:
编程语言 时间:
2020-07-18 22:53:50
阅读次数:
91
什么是Shuffle 在RDD中,将每个相同key的value聚合起来。相同key的value可能在不同partition,也可能在不同节点。因此shuffle操作会影响多个节点。 常见的shuffle操作有:groupByKey(),reduceBykey()等。 Shuffle Write和Re ...
分类:
其他好文 时间:
2020-07-16 10:12:36
阅读次数:
63
这篇文章主要用来介绍Kafka & Zookeeper相关基础知识。 1. Kafka是由Linkedin开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,之后于2 ...
分类:
编程语言 时间:
2020-07-15 23:49:56
阅读次数:
93
1:查看需要迁移的数据库的用户及对应的表空间select default_tablespace from dba_users where username='登录用户' 2:一键查询有表分区的语句,看对应的需要转移的用户是否有用表分区的表SELECT TABLE_NAME,PARTITION_NAM ...
分类:
数据库 时间:
2020-07-15 15:09:25
阅读次数:
112
课程内容: 1. 简单的操作一下集群 2. 简单的介绍几个工具(企业) 3. Producer的原理(核心,重点) 4. 简单kafka的代码 5. 介绍里面的核心参数(重点) 消费者原理 --replica-factor 2 --partitions 2我们一般设置分区数,建议是节点的倍数 Pro ...
分类:
其他好文 时间:
2020-07-15 01:03:51
阅读次数:
81