码迷,mamicode.com
首页 >  
搜索关键字:数据分区    ( 123个结果
hadoop-MapReduce框架原理之Shuffle机制
1.Shuffle机制 1.1 什么是shuffle机制 1.1.1 在hadoop中数据从map阶段传递给reduce阶段的过程就叫shuffle,shuffle机制是整个MapReduce框架中最核心的部分; 1.1.2 shuffle翻译成中文的意思为:洗牌,发牌(核心机制:数据分区,排序,缓 ...
分类:其他好文   时间:2020-04-02 18:08:23    阅读次数:115
RDD依赖关系
概述 RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来重新运算和恢复丢失的数据分区。 示例代码如下: def m ...
分类:其他好文   时间:2020-02-20 17:05:54    阅读次数:81
DB2 分区表的效率问题及如何建立索引
分区索引(partitioned index)是 DB2 V9.7 中的新特性,在本文中将介绍什么是分区索引,如何创建和管理分区索引,分区索引如何改进大型数据库性能,读者将获得对分区索引的第一手体验。每个分区索引由多个索引分区(index partition)组成,每个索引分区只对相应的数据分区(d ...
分类:数据库   时间:2020-02-19 13:20:31    阅读次数:127
算法 基础
算法复杂度 时间复杂度:用来估计算法运行时间的一个单位;O(n)、O(1) 常见于for循环, 或者log(n)—常见于while循环。循环减半时复杂度为log(n) 常见时间复杂度排序 O(1) < O(logn)< O(n) < O(n^log n) < O(n^2) < O(n^2 log n ...
分类:编程语言   时间:2020-02-08 17:58:15    阅读次数:94
从12306的崩溃,说说我们怎么去做性能优化?
开篇语 最近12306又崩溃了一次,但其实12306这样的体量跟我们平常接触的架构基本没什么太大的关系。 话又说回来,12306也是由一个个小功能组成的。 做好自己的小蚂蚁,就能让大部队变得更快。 因为跟数据库、数据仓库、查询打交道比较多,所以我就简单说一下数据查询的优化过程吧。 不客气地说,在性能 ...
分类:其他好文   时间:2019-12-25 16:27:17    阅读次数:195
[转帖]聊聊分布式事务,再说说解决方案
聊聊分布式事务,再说说解决方案 https://www.cnblogs.com/savorboard/p/distributed-system-transaction-consistency.html 需要多学习一下. 前言 最近很久没有写博客了,一方面是因为公司事情最近比较忙,另外一方面是因为在进 ...
分类:其他好文   时间:2019-12-21 12:06:03    阅读次数:97
Yarn 工作机制
1、工作机制详述 (1)MR程序提交到客户端所在的节点。 (2)YarnRunner向ResourceManager申请一个Application。 (3)RM将该应用程序的资源路径返回给YarnRunner。 (4)该程序将运行所需资源提交到HDFS上。 (5)程序资源提交完毕后,申请运行mrAp ...
分类:其他好文   时间:2019-10-28 19:13:11    阅读次数:86
别在学习今日头条互联网广告推广抖音视频营销方案产品运营框架了,那些让你起飞的计算机基础知识。
千万级大表如何优化,这是一个很有今日头条互联网广告推广抖音视频营销方案产品运营WX1526062597技术含量的问题,通常我们的直觉思维都会跳转到拆分或者数据分区,在此我想做一些补充和梳理,想和大家做一些这方面的经验总结,也欢迎大家提出建议。 我们知道了上述了解到了 TCP 的定义,通俗一点的讲,T ...
分类:其他好文   时间:2019-10-23 11:17:36    阅读次数:127
数据库系列(五)之 mysql的伸缩性
这篇文章,主要讲述mysql的伸缩性。在国内mysql一直都是使用得最多的数据库,在国外也排名前三。mysql是一款开源的、性能较高的数据库。 伸缩性是指在软件设计中,软件(数据库、应用程序)通过特定的配置或升级,可以进行横向或纵向扩展,来达到软件适应越来越多用户访问的目的。数据库达到一定瓶颈,需要... ...
分类:数据库   时间:2019-09-30 21:39:15    阅读次数:139
mysql notes
数据库的简介数据库(database,DB)是指长期存储在计算机内的,有组织,可共享的数据的集合。数据库中的数据按一定的数学模型组织、描述和存储,具有较小的冗余,较高的数据独立性和易扩展性,并可为各种用户共享数据库管理系统(Database Management System)是一种操纵和管理数据库... ...
分类:数据库   时间:2019-09-24 21:07:28    阅读次数:107
123条   上一页 1 2 3 4 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!