library(caret) PS:根据因变量特征值进行数据分区,outp$V1 其中outp为因变量列表,V1为特征值的name 按照p=0.7划分,训练集占70%,测试集占30%,对划分的结果进行描述describe可知 训练集 均值21.45 测试集均值21.75 但是有一点疑问,测试集最小5 ...
分类:
编程语言 时间:
2019-05-03 11:20:18
阅读次数:
253
Redis Cluster 需求:1、请求量过大 100w/s 2、数据量大 1、数据分布 哈希分布特点: 数据分散度高 键值分布业务无关 无法顺序访问 支持批量操作 顺序分布特点: 数据分散度易倾斜 键值业务相关 可顺序访问 支持批量操作 2、数据分区 节点取余分区特点: 客户端分片:哈希 + 取 ...
分类:
其他好文 时间:
2019-04-03 12:36:41
阅读次数:
222
以上是jvm在运行时内存的数据分区图例(各个分区简介): 1、程序计数器: 在jvm中一块很小的区域,主要作用就是记录当前线程执行字节码的行号指示器。 在单核的多线程中,cpu会在不同线程之间切换,为了切换回来时正确的回到当前线程的执行位置, 每个线程都有自己单独的程序计数器,之间互不影响,独立运行 ...
分类:
其他好文 时间:
2019-03-12 18:28:57
阅读次数:
181
(1)·普通分区形式: /boot引导分区 256M swap 交换分区 内存大于8G,给8G。内存小于8G,给到1.5倍的内存。 /给所有空间 使用条件: 1·数据不那么重要。 2·必须要有备份策略:就是实时的。 内部人员发布数据,同时发布到两台以上服务器里。 外部用户写入数据(图片·视频·文字) ...
分类:
其他好文 时间:
2019-03-05 15:28:53
阅读次数:
162
10.Redis分布式集群10.1 数据分布10.1.1 数据分布理论10.1.2 Redis数据分区10.1.3 集群功能限制10.2 搭建集群10.2.1 准备节点10.2.2 节点握手10.2.3 分配槽10.2.4 用redis-trib.rb搭建集群10.3 节点通信10.3.1 通信流程 ...
分类:
其他好文 时间:
2019-02-27 19:07:11
阅读次数:
172
(1)数据倾斜的介绍 1)数据分区的策略: -随机分区:每一个数据分配的任意一个分区的概率是均等的 -Hash分区:使用数据的Hash分区值,%分区数。(导致数据倾斜的原因) -范围分区:将数据范围划分,数据分配到不同的范围中(分布式的全局
分类:
其他好文 时间:
2019-01-04 12:26:40
阅读次数:
199
Excel数据导入 需求:需要将多个跨行的数据保存在数据库中,而且数据库中的数据是树形结构,多行多列存在父级关系,数据需要保存父ID。 解决方案: 因为是树形结构,那么表单的数据分区读取,先读取父级的数据存到数据库,再存入子类数据。 第一步:解决Excel版本问题 String originalFi ...
分类:
其他好文 时间:
2018-12-27 03:38:55
阅读次数:
328
简介 RDD全称叫做Resilient Distributed Datasets,直译为弹性分布式数据集,是spark中非常重要的概念。 首先RDD是一个数据的集合,这个数据集合被划分成了许多的数据分区,而这些分区被分布式地存储在不同的物理机器当中,如图: 我们反过来想一下,RDD就是很多物理数据块 ...
分类:
其他好文 时间:
2018-12-03 01:12:50
阅读次数:
281
一、SPARK-CORE 1.spark核心模块是整个项目的基础。提供了分布式的任务分发,调度以及基本的IO功能,Spark使用基础的数据结构,叫做RDD(弹性分布式数据集),是一个逻辑的数据分区的集合,可以跨机器。RDD可以通过两种方式进行创建,一种是从外部的数据集引用数据,第二种方式是通过在现有 ...
分类:
其他好文 时间:
2018-11-09 21:10:46
阅读次数:
173
1.什么是Shuffle机制 1.1)在Hadoop中数据从Map阶段传递给Reduce阶段的过程就叫Shuffle,Shuffle机制是整个MapReduce框架中最核心的部分。 1.2)Shuffle翻译成中文的意思为:洗牌、发牌(核心机制:数据分区、排序、缓存) 2.Shuffle的作用范围 ...
分类:
其他好文 时间:
2018-09-26 11:43:59
阅读次数:
209