所谓不均衡指的是不同类别的样本量差异非常大。从数据规模上分为大数据分布不均衡和小数据分布不均衡两种。 大数据分布不均衡:数据规模大,其中的小样本类的占比较少。但从每个特征的分布来看,小样本也覆盖了大部分或全部特征。 例如:1000万条数据,其中占比50万条的少数分类样本属于这种情况。 小数据分布不均 ...
分类:
其他好文 时间:
2020-06-08 22:11:31
阅读次数:
235
1概念1.1模型1.2副本1.3衡量分布式系统的指标2分布式系统原理2.1数据分布方式2.2基本副本协议2.3Lease机制2.4Quorum机制2.5日志技术2.6两阶段提交协议2.7MVCC2.8Paxos协议2.9CAP1概念1.1模型节点在具体的工程项目中,一个节点往往是一个操作系统上的进程。在本文的模型中,认为节点是一个完整的、不可分的整体,如果某个程序进程实际上由若干相对独立部分构成,
分类:
其他好文 时间:
2020-06-08 09:17:42
阅读次数:
59
一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组, ...
分类:
其他好文 时间:
2020-05-29 20:55:31
阅读次数:
55
直方图,一种特殊类型的列的统计信息,它能提供表中列的更详细的数据分布信息,直方图将值存放于桶(buckets)中。基于不同值的数目和数据的分布,数据库选择要创建的直方图类型,直方图的类型有如下几种: 频率直方图和顶频直方图:Frequency histograms and to frequency ...
分类:
其他好文 时间:
2020-05-27 20:15:33
阅读次数:
49
MFS(MooseFS分布式文件系统)作者:张首富时间:2020-05-22wx:y18163201MooseFS[MFS]是一个具有容错性的网络分布式文件系统。它把数据分散存放在多个物理服务器上,而呈现给用户的则是一个统一的资源。官网地址:http://www.moosefs.com/MFS简介MooseFS是一个具有容错性,高可用,高性能,扩展性强的网络分布式文件系统,他将数据分布在多个存储服
分类:
其他好文 时间:
2020-05-25 09:18:27
阅读次数:
66
一、函数名称 1.函数命令与功能相关 2.可以是字母数字组合,但必须是字母开头 二、函数声明 利用function函数来声明 myfun < function(选项参数){ 函数体 } 设计计算偏度与峰度函数 偏度(skewness),是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数 ...
分类:
编程语言 时间:
2020-05-23 11:21:35
阅读次数:
79
1 面试题 说说ES的分布式架构原理 2 考点分析 在搜索这块,曾经lucene 是最流行的搜索库. 几年前业内一般都问,你了解 lucene 吗?你知道倒排索引的原理吗? 但现在不问了,因为现在项目基本都是采用基于 lucene 的分布式搜索引擎—— ElasticSearch. 现在分布式搜索基 ...
分类:
编程语言 时间:
2020-05-19 12:17:30
阅读次数:
64
算法简介 二分查找 二分查找也称折半查找(Binary Search),它是一种效率较高的查找方法。但是,折半查找要求线性表必须采用顺序存储结构,而且表中元素按关键字有序排列。 首先,假设表中元素是按升序排列,将表中间位置记录的关键字与查找关键字比较,如果两者相等,则查找成功;否则利用中间位置记录将 ...
分类:
编程语言 时间:
2020-05-11 23:43:48
阅读次数:
96
每个指标都在某个方向提供一定信息,没有那些指标可以提供数据的全部信息,指标之间是互补的。 1,集中趋势:Central tendencey #a,数据向其中心值靠拢的倾向和程度;————当数据比较离散的时候无法用集中趋势来代表一般水平。 #b,测度集中趋势就是寻找数据一般水平代表或者中心值; #c, ...
分类:
其他好文 时间:
2020-05-07 00:35:32
阅读次数:
297
比如说图7-7,左图中的数据是线性不可分的,利用非线性变换将其转换为右图中的数据分布,再利用线性支持向量机就可以解决了。 核函数是什么? 核函数和映射函数之间的关系? 核函数在支持向量机中是怎么使用的? 正定核的充分必要条件? 常用的核函数? 什么是非线性支持向量机? 也就是将支持向量机中的对偶形式 ...
分类:
编程语言 时间:
2020-05-02 16:58:26
阅读次数:
62