标签:describe 分享图片 四分 blank 计算 变异 axis raw 最小值
交货时间的变异性造成按时完成生产任务的不确定性
极差=最大值-最小值
最简单的变异程度的度量
但很少单独用来度量变异程度。仅有两个观测值,异受极端值的影响
能够克服极端值的影响,因为四分位数是中间的50%数据的极差.
是用所有数据对变异程度所做的一种度量。
例子:
第一组的鸡的斤数分别是 2.5,3,3.5
第二组的鸡的斤数分别是 1,3,5
很显然我们能看出第一组鸡看起来重量的差别不大,第二组鸡的差别就很大,因为鸡本身重量并不大,相差两斤的话一下子就能看出来
可是我们发现这两组鸡重量的平均数是一样的,但是这两组鸡却有明显的差别,这是平均数就不能体现二者的差别,所以我们引入了方差的概念
方差越大,说明数据的差别越大。反应了一组数据的稳定性。
方差的平方根
标准差更容易与平均数等其他统计量进行比较,这是由于它们的单位与原始数据是相同的。
(标准差/平均数)*100%
在变量的标准差和平均数都不相同时,比较它们的变异程度,标准差系数是一个有用的统计量。
new_list = [10,20,12,17,16]
data = Series(new_list)
# 方差
data.var()
3.125
# 标准差
data.std()
1.7677669529663689
new_list = [182,168,184,190,170,174]
data = Series(new_list)
# 方差
data.var()
75.2
# 标准差
data.std()
8.67179335547152
# 平均数
data.mean()
178.0
# 极差
data.max()-data.min()
22
# 标准差系数
(data.std()/data.mean())*100%
4.87%
# 平均数
car.mean()
38.0
# 标准差
car.std()
9.848857801796104
# 方差
car.var()
97.0
虽让东西部的租车费用的平均数相同,但是标准差东部的数值远远大于西部的,可见东部的各个城市间的租车费用差异性比较大,离散度较高,西部的各个城市间的租车费用相对来说差别不大,比较稳定。
dawson = [11,10,9,10,11,11,10,11,10,10]
clark = [8,10,13,7,10,11,10,7,15,12]
shop = pd.DataFrame([dawson,clark],index=[‘dawson‘,‘clark‘])
shopT = shop.T
shopT
dawson clark
0 11 8
1 10 10
2 9 13
3 10 7
4 11 10
5 11 11
6 10 10
7 11 7
8 10 15
9 10 12
diff_vale = shopT.max()-shopT.min()
diff_vale
# 极差
dawson 2
clark 8
s = shopT.std()
s
# 标准差
dawson 0.674949
clark 2.584140
由两家的极差和标准差可见,稳定性dawson远远高于clark。
Bonita_2005 = [74,78,79,77,75,73,75,77]
Bonita_2006 = [71,70,75,77,85,80,71,79]
golf_person = pd.DataFrame([Bonita_2005,Bonita_2006],index = [2005,2006])
# 平均数
golf_person.mean(axis=1)
2005 76.0
2006 76.0
# 标准差
golf_person.std(axis=1)
2005 2.070197
2006 5.264436
golf_person.T.describe()
2005 2006
count 8.000000 8.000000
mean 76.000000 76.000000
std 2.070197 5.264436
min 73.000000 70.000000
25% 74.750000 71.000000
50% 76.000000 76.000000
75% 77.250000 79.250000
max 79.000000 85.000000
虽然平均数是相同的,但是看的出来,2006年的比赛,心态并不稳定,但是最大值和最小值的差值从2005的6,2006年的15反映出该运动员的水平是得到了提高的。
标签:describe 分享图片 四分 blank 计算 变异 axis raw 最小值
原文地址:https://www.cnblogs.com/lishi-jie/p/9924590.html