假设检验p-value，FDR，q-value

时间：2015-08-09 16:56:05 阅读：156 评论：0 收藏：0 [点我收藏+]

标签：

原帖地址：http://blog.sina.com.cn/s/blog_6b1c9ed50101l02a.html

一、p-value相关

0. 单个假设检验中主要依靠p值(或统计量t)做出是否拒绝零假设H0的决定：p-value和预先设定的检验水准alpha做对比，如果p-value小于等于alpha，拒绝原假设，否则不拒绝原假设。

1. p-value：表征了在原假设成立的条件下，重复进行当前的试验，获得现有统计量t及其更极端情况的概率。

2. 给定检验水准alpha时，可得出对应的拒绝域；根据当前试验，可以计算出p-value。当p-value越小时，表示此时试验得到的统计量t越落在拒绝域。因此基于p-value的结果等价于基于t值的结果。因此，p-value越小，拒绝原假设的信心越大。

3. 假阳性率：false positive rate, FPR。检验水准alpha给出了事先犯I-型错误的最大概率。

二、多重假设检验和总体错误率

0. 在进行多重假设检验时，每个单独的假设都具有其本身的I型错误。在这种情况下，如果不进行任何的控制，犯I-型错误的概率会随着假设检验的个数而迅速增加。

1. 多重假设检验中，广泛使用的错误控制指标是总体错误率（family-wise error rate,FWER）,即至少出现一次错误地拒绝真实H0的可能性；FWER小于等于alpha。而研究者更关心的是能否尽量多地识别出差异表达的基因，并且能够容忍和允许总的拒绝中发生少量的错误识别，称为错误发现false discovery。即需要在错误发现和总的拒绝次数R之间寻找一种平衡，即在检验出尽可能多的候选变量的同时将错误发现率控制在一个可以接受的范围。

2. 错误发现率(False Discovery Rate,FDR)，表示了在所有R次拒绝中错误发现的期望比例。错误发现率和假阳性率之间有着本质的差别。错误发现率将范围限定在总的拒绝次数中；而假阳性率则针对所有变量数而言。

3. 给定FDR的控制水平alpha，多重假设检验次数M，通过求得拒绝H0的次数N，可得出多重检验M次中，有多少次是被错误识别的（=alpha * N）。Benjamini和Hochberg给出了一个基于p-value的逐步向下控制程序，用于求出拒绝H0的次数N的值。并且证明在BH控制下，FDR 小于等于 alpha。

三、pFDR和q值

0. pFDR阳性错误拒绝率，是基于至少拒绝一个H0的事实。经过一系列的推导，pFDR的实际意义是，在pFDR错误率控制下，当拒绝一个H0时，该假设为真实的概率；pFDR反应了已经在拒绝H0的情况下H0 = 0的概率。可以认为pFDR是贝叶斯后验p值。

1. 按照和p-value类似的定义，Storey给出了q-value的定义。

技术分享