标签:不同 方法 位置 enc tps 替代 影响 fail erro
1.集中趋势(Central Tendency)
2.变异性(Variability)
3.归一化(Standardizing)
4.正态分布(Normal Distributions)
5.抽样分布(Sampling Distributions)
6.估计(Estimation)
7.假设检验(Hypothesis testing)
8.T检验(T-test)
出现频率最高的数;
把样本值排序,分布在最中间的值; 样本总数为奇数时,中位数为第(n+1)/2个值; 样本总数为偶数时,中位数是第n/2个,第(n/2)+1个值的平均数;
所有数的总和除以样本数量;
小结:
现在大家接触最多的概念应该是 平均数,但有时候,平均数会因为某些极值(Outlier)的出现收到很大影响;
举个小例子,你们班有20人,大家收入差不多,19人都是5000左右,但是有1个同学创业成功了,年入1个亿,这时候统计你们班同学收入的“平均数”就是500万了,这也很好的解释了,每年各地的平均收入数据出炉,小伙伴们直呼给祖国拖后腿了,那是因为大家收入被平均了,此时,“中位数”更能合理的反映真实的情况;
上面说到了“中位数”,把样本分成了2部分,再找个这2部分各自的“中位数”,也就把样本分为了4个部分,其中1/4处的值记为Q1,2/4处的值记为Q2,3/4处的值记为Q3
小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);对于异常值,我们在处理时需要剔除;
-方差的算术平方根
修正样本方差
-问:为什么要用贝塞尔矫正?
实际在计算方差时,分母要用n-1,而不是样本数量n,原因如下
1.定义:随机变量X服从一个数学期望为μ,方差为σ²的正态分布,记为N(μ,σ²)
随机取一个样本,有68.3%的概率位于距离均值μ有1个标准差σ内;
有95.4%的概率位于距离均值μ有2个标准差σ内;
有99.7%的概率位于距离均值μ有3个标准差σ内;
视频中的例子:
48盆MM豆,计算出每盆有几个蓝色的MM豆,48个数据构成了总体样本。然后随机选择五盆,计算五盆中含有蓝色MM豆的平均数,然后反复进行了50次。这就是n为5的样本均值抽样。
流程如下:
现在要分析男生和女生的身高是否相同两者的主要区别在于数据的来源和要分析的问题。
问题:为什么T检验查表时候要n-1?
样本均值替代总体均值损失了一个自由度
分析人的早晨和晚上的身高是否不同,于是找来一拨人测他们早上和晚上的身高,这里每个人就有两个值,这里出现了配对
________________________________________________
标签:不同 方法 位置 enc tps 替代 影响 fail erro
原文地址:https://www.cnblogs.com/wuzc/p/12831424.html