卡方检验原理

时间：2016-11-03 22:50:38 阅读：1689 评论：0 收藏：0 [点我收藏+]

标签：自由度分类 block ges 分布文章其他基础 isp

最近导师让做一个文本分类的东西，偶然间看到卡方检验，不懂（感觉自己实在是水到家，博客里讲的基础的东西，到我这里就是漫天找资料学），于是找了些博客文章，总结了下，有所体会。

引子

　　首先讲一下什么是卡方检验。卡方检验按照定义来说就是：检验实际的数据分布情况与理论的分布情况是否相同.这样讲比较抽象，这里讲个具体的例子：

　　拿某地区的年降水天数来说明。比如一年365天中该地区有180天降水，那么该地区的降水概率近似等于50%，那么对于每个月份来讲，是否降水的概率达到了预期的50%（也就是 15天）呢？

　　卡方检验就是用来解决这样的问题。

原理

　同样使用一个文本分类的例子来说明卡方检验的原理（也可以稍稍说明卡方检验的用途）。

　　我们有一堆打好标签分好类的文本，简单起见，目前我们只有两类：科技类的和非科技类的，同时我们发现我们的文本库里频繁出现"机器学习"这个字样，那么我们想要研究，文本是否出现“机器学习”字样与文本是否是科技类的这两个命题是否有联系。

　　我们抽取一些文本样本，组成如下的一个四格表：

表1 实际抽样结果四格表
组别	科技类	非科技类	合计
不含”机器学习”	19	24	43
含“机器学习”	34	10	44
合计	53	34	87

从抽样的结果看来，是否含有“机器学习”字样确实对文本是否属于科技类在抽样结果上有影响（从表中结果来看，含“机器学习”字样的文本属于科技类的概率确实高于不含的情况）。但是这种结果的发生也有可能是因为抽样误差导致的，为了进一步说明两者之间的联系，我们先假设含不含“机器学习”字样与是否是科技类无关，那么，任取一个文本，属于科技类的概率就能这么计算（19+34）/（24+10）=60.9%,于是，我们通过对实际抽样结果四格表（表1），可以得到一张预期结果（即在假设条件成立下）的四格表