数学解释 偏差:描述的是预测值(估计值)的期望与真实值之间的差距。偏差越大,越偏离真实数据,如下图第二行所示。 方差:描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散,如下图右列所示。 机器学习中的偏差和方差 首先,假设你知道训练集和测试集的关系。简单来讲是我们 ...
分类:
其他好文 时间:
2018-09-17 10:21:57
阅读次数:
191
几个基础分析思路: 分布分析、对比分析、统计分析、帕累托分析、正态性检测、相关性分析 分布分析 分布分析是研究数据的分布特征和分布类型,分定量数据、定性数据区分基本统计量。 如果有底图就可以把它的位置给分布出来;点越大代表房屋的单价越高,颜色越深代表总价越高; 通过数据可见,一共8个字段 定量字段: ...
分类:
其他好文 时间:
2018-09-17 00:32:50
阅读次数:
279
零、数据描述的数值方法集中趋势给出一组数据,具体向谁靠拢,分布在谁的附近具体指标:均值中位数众数离散程度数据的分布情况,是松散分布的,还是紧密分布的具体指标:极差方差分布的形状数据大概的形状具体指标:偏度蜂度一、集中趋势一组数据向其中心值靠拢的倾向和程度集中趋势测度:寻找数据的水平代表值或中心值具体指标均值是指在一组数据中所有数据之和再除以数据的个数,是反映数据集中趋势的一项指标数学表达式:1.p
分类:
其他好文 时间:
2018-08-27 14:52:01
阅读次数:
303
箱线图boxplot——展示数据的分布 图表作用: 1.反映一组数据的分布特征,如:分布是否对称,是否存在离群点 2.对多组数据的分布特征进行比较 3.如果只有一个定量变量,很少用箱线图去看数据的分布,而是用直方图去观察。一般都要跟其余的定性变量做分组箱线图,可以起对比作用。(key) 适合数据类型 ...
分类:
其他好文 时间:
2018-08-23 22:06:41
阅读次数:
2450
聚类是把一个数据集划分成多个子集的过程,每一个子集称作一个簇(Cluster),聚类使得簇内的对象具有很高的相似性,但与其他簇中的对象很不相似,由聚类分析产生的簇的集合称作一个聚类。在相同的数据集上,不同的聚类算法可能产生不同的聚类。 聚类分析用于洞察数据的分布,观察每个簇的特征,进一步分析特定簇的 ...
分类:
其他好文 时间:
2018-08-23 13:07:58
阅读次数:
520
Apache Hadoop 是一种通过服务集群并使用MapReduce编程数据模型完成大数据的分布式处理框架,核心模块包括:MapReduce,Hadoop Utilites,YARN(Yet Another Resource Negotiator)和HDFS(Hadoop Distributed ...
分类:
其他好文 时间:
2018-08-19 16:59:50
阅读次数:
143
1、GAN的原理: GAN的主要灵感来源于博弈论中零和博弈的思想,应用到深度学习神经网络上来说,就是通过生成网络G(Generator)和判别网络D(Discriminator)不断博弈,进而使G学习到数据的分布,如果用到图片生成上,则训练完成后,G可以从一段随机数中生成逼真的图像。G, D的主要功 ...
分类:
其他好文 时间:
2018-08-16 22:23:20
阅读次数:
279
直方图用于展示数据的分布情况,x轴是一个连续变量,y轴是该变量的频次。 下面利用Nathan Yau所著的《鲜活的数据:数据可视化指南》一书中的数据,学习画图。 数据地址:http://datasets.flowingdata.com/crimeRatesByState2005.csv 以下是这个数 ...
分类:
其他好文 时间:
2018-08-14 17:13:29
阅读次数:
1028
ceph + ceph是一个分布式存储系统 + Ceph提供了三种存储类型:块存储、文件存储和对象存储,本文主要介绍对象存储的RGW基本原理和应用场景。 CRUSH算法 + 一般的分布式系统都会采用一个或者多个中心服务用来控制数据的分布,这种机制使得每次IO操作都会先去一个地方查询数据在集群中的元数 ...
分类:
其他好文 时间:
2018-08-05 12:56:29
阅读次数:
132
点图,也可以叫做散点图,通过绘制散点来呈现数据的分布,使用geom_dotplot()函数来绘制点图: 常用的参数注释: mapping:使用aes()来设置点图美学特征,参数x是因子,参数y是数值 data:数据框对象 method:默认值是dotdensity(点密度封箱),或者histodot ...
分类:
其他好文 时间:
2018-08-03 16:30:19
阅读次数:
1189