标签:结束 class 根据 length 内容 tor 统计量 不重复 name
正态分布检验一次只能检验一个分组,如果有多组数据需要检验,则需要运行多次
从分组是否符合生态分布需要输入数据出发,定义的函数设计以下内容:
从输出来看,需要得到一张表,这个表要包含计算得到的重要信息:
shapiro.test.multi <- function( #定义函数名
data, #定义函数第一个参数
value, #第2参数
group) #第3参数
{ #开始计算
require(magrittr) #按需要加载管道函数包
table(data[,group]) %>% #提取分组信息,此处即为统计group中值出现的次数,达到了去重的目的
data.frame(.) -> a1 #将提取信息从table格式转为数据库data.frame并存为a1,这样才能提取其中一列转为向量
a2 <- as.vector(a1[,1]) #将a1数据的第一列转为向量,这一列即为不重复的分组信息
data = data.frame(group = data[,group], #对数据集进行关键变量的提取,提取分组变量为data数据集的group变量
value = data[,value]) #提取计算值为data数据集的value
test.result <- data.frame(No=0, #行号
Name=0, #分组名
W=0, #W值
p.value=0, #p值
norm.test=0) #检测结果
for (i in (1:length(a2))){ #定义for循环计算,从1到a2的长度值这样一个区间,a2的长度即为分组的数量
subset(data, #指定取数据集 换行写代码使层次更清晰
group == a2[i], #定义去子集的条件,“==”为判断
select = value) %>% #定义需要取集的变量/列,“=”为定义
.[,1] %>% # "."定义计算结果放置的位置
shapiro.test(.) -> t.r #进行正态检验分布并存储为t.r
test.result[i,1] = i #存储组序号
test.result[i,2] = a2[i] #存储分组名
test.result[i,3] = t.r$statistic #存储W统计量
test.result[i,4] = t.r$p.value #存储计算的p值
if #if判断
(t.r$p.value > 0.05) #判断条件
test.result[i,5] = "Norm" #通过判断后的命令
else
test.result[i,5] = "Other_situation" #未通过判断执行的命令
} #结束循环计算
test.result[nrow( test.result)+1,1] = "Test Method:" #给数据框加上检验正态分布方法信息,在最后一行之后加上一行,在第1列放入次数据
test.result[nrow( test.result),2] = "Shapiro-Wilk" #同上行,存在第二列
test.result #显示用于存储计算结果的数据框
} #脚本结束
此处以iris数据为例,计算测量的三个物种的花瓣长度值是否都符合正态分布假设。 |
shapiro.test.multi(iris,value = "Sepal.Length",group = "Species")
运行结果
- | No | Name | W | p.value | norm.test |
---|---|---|---|---|---|
1 | 1 | setosa | 0.9776985 | 0.4595132 | Norm |
2 | 2 | versicolor | 0.9778357 | 0.4647370 | Norm |
3 | 3 | virginica | 0.9711794 | 0.2583147 | Norm |
4 | Test Method: | Shapiro-Wilk | NA | NA | NA |
标签:结束 class 根据 length 内容 tor 统计量 不重复 name
原文地址:https://www.cnblogs.com/yanlingbin/p/10546943.html