码迷,mamicode.com
首页 >  
搜索关键字:partition by    ( 2821个结果
Spark SQL(6) OptimizedPlan
Spark SQL(6) OptimizedPlan 在这一步spark sql主要应用一些规则,优化生成的Resolved Plan,这一步涉及到的有Optimizer。 之前介绍在sparksession实例化的是会实例化sessionState,进而确定QueryExecution、Analy ...
分类:数据库   时间:2020-07-26 19:28:25    阅读次数:101
Hadoop基础(四十六):DML 数据操作
1 数据导入 1.1 向表中装载数据(Load) 1.语法 hive> load data [local] inpath '/opt/module/datas/student.txt' [overwrite] into table student [partition (partcol1=val1, ...
分类:其他好文   时间:2020-07-22 20:27:55    阅读次数:71
Kafka 入门(一)--安装配置和 kafka-python 调用
一、Kafka 简介 1.基本概念 Kafka 是一个分布式的基于发布/订阅消息系统,主要应用于大数据实时处理领域,其官网是:http://kafka.apache.org/。Kafka 是一个分布式、支持分区的(Partition)、多副本的(Replica),基于 ZooKeeper 协调的发布 ...
分类:编程语言   时间:2020-07-22 15:56:17    阅读次数:64
oracle ROW_NUMBER() OVER
row_number() OVER (PARTITION BY COL1 ORDER BY COL2) 表示根据COL1分组,在分组内部根据COL2排序,而此函数计算的值就表示每组内部排序后的顺序编号 select departmentid,workcode ,ROW_NUMBER() OVER ( ...
分类:数据库   时间:2020-07-21 13:44:57    阅读次数:76
Hadoop基础(二十三):MapTask工作机制
MapTask工作机制 MapTask工作机制如图4-12所示。 图4-12 MapTask工作机制 (1)Read阶段:MapTask通过用户编写的RecordReader,从输入InputSplit中解析出一个个key/value。 (2)Map阶段:该节点主要是将解析出的key/value交给 ...
分类:其他好文   时间:2020-07-19 23:10:43    阅读次数:67
排序算法整理
https://www.cnblogs.com/onepixel/articles/7674659.html这个里面比较详细。 主要记快排和归并。 快排: 快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序, ...
分类:编程语言   时间:2020-07-18 22:53:50    阅读次数:91
Spark的Shuffle机制
什么是Shuffle 在RDD中,将每个相同key的value聚合起来。相同key的value可能在不同partition,也可能在不同节点。因此shuffle操作会影响多个节点。 常见的shuffle操作有:groupByKey(),reduceBykey()等。 Shuffle Write和Re ...
分类:其他好文   时间:2020-07-16 10:12:36    阅读次数:63
Paxos算法
这篇文章主要用来介绍Kafka & Zookeeper相关基础知识。 1. Kafka是由Linkedin开发,是一个分布式、支持分区的(partition)、多副本的(replica),基于zookeeper协调的分布式消息系统,它的最大的特性就是可以实时的处理大量数据以满足各种需求场景,之后于2 ...
分类:编程语言   时间:2020-07-15 23:49:56    阅读次数:93
oracle 迁移的一般方法
1:查看需要迁移的数据库的用户及对应的表空间select default_tablespace from dba_users where username='登录用户' 2:一键查询有表分区的语句,看对应的需要转移的用户是否有用表分区的表SELECT TABLE_NAME,PARTITION_NAM ...
分类:数据库   时间:2020-07-15 15:09:25    阅读次数:112
(三)Kafka
课程内容: 1. 简单的操作一下集群 2. 简单的介绍几个工具(企业) 3. Producer的原理(核心,重点) 4. 简单kafka的代码 5. 介绍里面的核心参数(重点) 消费者原理 --replica-factor 2 --partitions 2我们一般设置分区数,建议是节点的倍数 Pro ...
分类:其他好文   时间:2020-07-15 01:03:51    阅读次数:81
2821条   上一页 1 ... 5 6 7 8 9 ... 283 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!