1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所 ...
分类:
其他好文 时间:
2020-07-06 19:30:48
阅读次数:
57
一.Map的原理和运行流程 Map的输入数据源是多种多样的,我们使用hdfs作为数据源。文件在hdfs上是以block(块,Hdfs上的存储单元)为单位进行存储的。 1.分片 我们将这一个个block划分成数据分片,即Split(分片,逻辑划分,不包含具体数据,只包含这些数据的位置信息),那么上图中 ...
分类:
其他好文 时间:
2020-07-06 14:25:24
阅读次数:
60
#通过索引获得某一个字符 #[n:m] #通过索引获得n~m-1字符#len() #获得str、tuple、list长度#for循环 #for 变量名 in 字符串: #将字符串中的每个元素按照指定分隔符进行拼接 #test=“我是风儿”#t=“ ”#v=t.join(test)#print(v) ...
分类:
其他好文 时间:
2020-07-05 15:38:16
阅读次数:
70
1.软硬件准备 软件:推荐使用VMwear 下载地址 官网下载: https://download3.vmware.com/software/wkst/file/VMware-workstation-full-15.5.6-16341506.exe 链接: https://pan.baidu.com ...
分类:
系统相关 时间:
2020-07-05 15:12:17
阅读次数:
167
主要针对有强迫症的同学 比如c:分区320G,打开https://www.iplaysoft.com/tools/partition-calculator/ 得到值是327686,然后系统分区和MSR分别100M,16M,加起来就是327802M 一般情况下是有恢复分区的(通常450M),加起来就是 ...
分类:
其他好文 时间:
2020-07-05 15:11:46
阅读次数:
66
本文目录 一、数据库瓶颈 IO瓶颈 CPU瓶颈 二、分库分表 水平分库 水平分表 垂直分库 垂直分表 三、分库分表工具 四、分库分表步骤 五、分库分表问题 非partition key的查询问题 非partition key跨库跨表分页查询问题 扩容问题 六、分库分表总结 七、分库分表示例 一、数据 ...
分类:
其他好文 时间:
2020-07-04 15:26:09
阅读次数:
58
Given an array A of integers, return true if and only if we can partition the array into three non-empty parts with equal sums. Formally, we can parti ...
分类:
其他好文 时间:
2020-07-03 21:13:36
阅读次数:
57
Given a string s, partition s such that every substring of the partition is a palindrome. Return all possible palindrome partitioning of s. Example: I ...
分类:
其他好文 时间:
2020-07-02 00:08:21
阅读次数:
53
原文:http://blog.chinaunix.net/uid-10289334-id-3758310.html 基于划分聚类算法(partition clustering) k-means: 是一种典型的划分聚类算法,它用一个聚类的中心来代表一个簇,即在迭代过程中选择的聚点不一定是聚类中的一个点 ...
分类:
编程语言 时间:
2020-07-01 16:16:44
阅读次数:
76
Redis分布式锁 什么是分布式锁? 分布式CAP原则告诉我们,Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 在单机(单进程)环境中,JAVA提供了很多并发相关API,但在多机(多进程)环境中就无能为力了 ...
分类:
其他好文 时间:
2020-06-30 20:21:44
阅读次数:
47