码迷,mamicode.com
首页 >  
搜索关键字:数据分区    ( 123个结果
MapReduce的Shuffle机制
map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle。<!--more--> shuffle: 洗牌、发牌——(核心机制:数据分区,排序,合并)。 shuffle是Mapreduce的核心,它分布在Mapreduce的map阶段和re ...
分类:其他好文   时间:2019-09-14 20:54:56    阅读次数:111
spark的灵魂:RDD和DataSet
spark建立在抽象的RDD上,把不同处理的数据的需求转化为RDD,然后对RDD进行一系列的算子运算,从而得到结果。RDD是一个容错的,并行的数据结构,可以将数据存储到磁盘和内存中,并能控制数据分区,并提供了丰富的API来操作数据。1:RDD的定义及五大特性剖析RDD是分布式内存的一个抽象概念,是一种高度受限的共享内存模型,即RDD时只读的记录分区的集合,能跨集群所有节点并行计算,是一种基于工作集
分类:其他好文   时间:2019-09-06 14:32:16    阅读次数:103
MapReduce几个小案例
MapReduce案例 1.单词计数--wordcount 首先准备好文件 开始编写程序 2.计算每个人的钱数 文件1 文件2 代码编写 3.求出共同好友 准备文件 编写代码 上面的程序输出的结果 最终结果展示 4.读取JSON数据 5.分区解决数据倾斜 准备一个文件里面一个单词非常多别的很少 5. ...
分类:其他好文   时间:2019-08-29 16:04:43    阅读次数:62
Java内存模型
两个名词的对比 java内存模型 定义了线程和主内存之间的抽象关系,即Jvm在计算机内存中的工作方式 java内存区域 内存区域是指 Jvm 运行时将数据分区域存储,强调对内存空间的划分。 Java运行时数据区域 Java运行时数据区域主要可以分为五个区域: 1.程序计数器 2.Java虚拟机栈 3 ...
分类:编程语言   时间:2019-08-17 22:00:31    阅读次数:94
小记---------maxwell 一个可以实时读取mysql二进制日志binlog,并生成JSON格式的消息,作为生产者发送给kafka,Redis,文件或其他平台的应用程序
maxwell主要提供了下列功能 支持 SELECT * FROM table 的方式进行全量数据初始化 支持在主库发生failover后,自动回复binlog位置(GTID) 可以对数据进行分区,解决数据倾斜问题,发送到kafka的数据支持database,table,column等级别的数据分区 ...
分类:数据库   时间:2019-08-06 20:01:54    阅读次数:438
遇到EXT3 MYSQL文件遭到恶意删除的情况,该如何解决?
【数据恢复故障描述】客户服务器操作系统及应用环境为redhat4.6mysql,数据库用于存储教师及学生的注册信息,linux脚本每天会定时将数据库文件打包成tar.gz备份到本地其他数据分区,备份成功后删除前一天的备份文件,系统于某个周末遭到恶意***,所有数据库文件(包括备份)均被删除。【数据恢复故障分析】此案例属于ext3文件系统数据删除,从理论上来讲,若删除的文件数量比较少且删除后很少有写入
分类:数据库   时间:2019-07-03 15:16:15    阅读次数:172
项目中PageHelper分页插件的使用实例(SSM)
分页(英语:Paging),是一种操作系统里存储器管理的一种技术,可以使计算机的主存可以使用存储在辅助存储器中的数据。操作系统会将辅助存储器(通常是磁盘)中的数据分区成固定大小的区块,称为“页”(pages)。当不需要时,将分页由主存(通常是内存)移到辅助存储器;当需要时,再将数据取回,加载主存中。 ...
分类:其他好文   时间:2019-06-06 15:38:31    阅读次数:107
Redis--集群cluster
在之前学习了Master-Slave、Sentinel模式,但是在某些情况下还是无法满足系统对QPS等要求,这时候就需要Cluster,Redis3.0支持了cluster 一、为什么使用Cluster 1、并发量 官方说明Redis支持10W条命令/秒,这已经很牛逼了,但是有些业务场景需要100W ...
分类:其他好文   时间:2019-05-30 01:02:17    阅读次数:179
RAC搭建---自己做
一、本地磁盘是指你本身加上去的磁盘,只能本机使用的。共享磁盘是指可以多台机器同时读取写入。你做RAC就要用到共享存储; 二、ORC分区一般1G*3 数据分区5G*3 ,FRA分区一般5G*3 这是11G的,12G以上又不一样的,要求空间更大。 三、内存,11G 你每个主机分4G,swap分区是内存的 ...
分类:其他好文   时间:2019-05-16 12:24:21    阅读次数:154
redis cluster初探之部署
一、简介在3.0版本之前,redis通过哨兵实现主从的高可用,在3.0版本之后,redis官方推出了高可用的redis集群解决方案。重点知识:数据分区分布式数据库是将数据根据分区规则划分到多个节点上,每个节点负责存储一部分数据;常用的分区规则有哈希分区与顺序分区两种,两种方式各有优势,redis集群使用的是哈希分区的虚拟槽分区方式redis集群采用的虚拟槽分区,所有的键通过计算(slot=CRC1
分类:其他好文   时间:2019-05-03 16:18:42    阅读次数:119
123条   上一页 1 2 3 4 5 ... 13 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!