1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:
其他好文 时间:
2020-04-02 18:08:23
阅读次数:
115
概述 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 示例代码如下: def m ...
分类:
其他好文 时间:
2020-02-20 17:05:54
阅读次数:
81
分区索引(partitioned index)是 DB2 V9.7 中的新特性,在本文中将介绍什么是分区索引,如何创建和管理分区索引,分区索引如何改进大型数据库性能,读者将获得对分区索引的第一手体验。每个分区索引由多个索引分区(index partition)组成,每个索引分区只对相应的数据分区(d ...
分类:
数据库 时间:
2020-02-19 13:20:31
阅读次数:
127
算法复杂度 时间复杂度:用来估计算法运行时间的一个单位;O(n)、O(1) 常见于for循环, 或者log(n)—常见于while循环。循环减半时复杂度为log(n) 常见时间复杂度排序 O(1) < O(logn)< O(n) < O(n^log n) < O(n^2) < O(n^2 log n ...
分类:
编程语言 时间:
2020-02-08 17:58:15
阅读次数:
94
开篇语 最近12306又崩溃了一次,但其实12306这样的体量跟我们平常接触的架构基本没什么太大的关系。 话又说回来,12306也是由一个个小功能组成的。 做好自己的小蚂蚁,就能让大部队变得更快。 因为跟数据库、数据仓库、查询打交道比较多,所以我就简单说一下数据查询的优化过程吧。 不客气地说,在性能 ...
分类:
其他好文 时间:
2019-12-25 16:27:17
阅读次数:
195
聊聊分布式事务,再说说解决方案 https://www.cnblogs.com/savorboard/p/distributed-system-transaction-consistency.html 需要多学习一下. 前言 最近很久没有写博客了,一方面是因为公司事情最近比较忙,另外一方面是因为在进 ...
分类:
其他好文 时间:
2019-12-21 12:06:03
阅读次数:
97
1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp ...
分类:
其他好文 时间:
2019-10-28 19:13:11
阅读次数:
86
千万级大表如何优化,这是一个很有今日头条互联网广告推广抖音视频营销方案产品运营WX1526062597技术含量的问题,通常我们的直觉思维都会跳转到拆分或者数据分区,在此我想做一些补充和梳理,想和大家做一些这方面的经验总结,也欢迎大家提出建议。 我们知道了上述了解到了 TCP 的定义,通俗一点的讲,T ...
分类:
其他好文 时间:
2019-10-23 11:17:36
阅读次数:
127
这篇文章,主要讲述mysql的伸缩性。在国内mysql一直都是使用得最多的数据库,在国外也排名前三。mysql是一款开源的、性能较高的数据库。 伸缩性是指在软件设计中,软件(数据库、应用程序)通过特定的配置或升级,可以进行横向或纵向扩展,来达到软件适应越来越多用户访问的目的。数据库达到一定瓶颈,需要... ...
分类:
数据库 时间:
2019-09-30 21:39:15
阅读次数:
139
数据库的简介数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储,具有较小的冗余,较高的数据独立性和易扩展性,并可为各种用户共享数据库管理系统(Database Management System)是一种操纵和管理数据库... ...
分类:
数据库 时间:
2019-09-24 21:07:28
阅读次数:
107