[转]卡方分箱中卡方值的计算

时间：2019-08-24 18:19:00 阅读：90 评论：0 收藏：0 [点我收藏+]

标签：排序阈值 container 频率 note oom text sts sites

      <div class="show-content-free">
        <p>关于卡方分箱，网上有很多文章，但几乎没有文章介绍分箱时相邻区间卡方值计算的方法，而本文在介绍卡方分箱的同时，重点介绍了相邻区间卡方值的计算方法。通过本文，希望大家能对卡方分箱有清楚透彻的认识。</p>

分箱是什么

分箱是将连续的变量离散化，将多状态的离散变量合并成少状态。这里要注意的是，不仅仅是连续变量要分箱，状态多的离散变量也需要分箱，之前接触过公司内特征工程的项目，里边就将超过50个值的离散特征视为连续特征。

基本思想

对于精确的离散化，相对类频率在一个区间内应当完全一致。因此，如果两个相邻的区间具有非常类似的类分布，则这两个区间可以合并；否则，它们应当保持分开。而低卡方值表明它们具有相似的类分布。

卡方值的计算方法

对于下面的例子，相邻两个特征值的卡方值的计算方法是这样的：

feature	y₀	y₁
x₁	a	b
x₂	c	d
...	...	...
x_n	...	...

x₁和x₂的卡方值计算公式为：

卡方值计算公式

为什么低卡方值就表示x₁和x₂具有相似的类分布呢？可以这样想，当x₁和x₂具有相似的类分布的时候，卡方值是怎么样的。卡方值的一般计算公式是这样的：

卡方值的一般公式

其中，A为观测的值，T为理论的值。观测值就是表中样本的数据，那么理论值是什么？其实就是忽略x₁和x₂的影响计算出来的值，把x₁和x₂合并起来看待，总体看样本为y₀的概率是 p =（a+c）/（a+b+c+d），那么特征为x₁且类别为y₀的理论值就是（a+b）*p。可以看出，如果x₁和x₂具有相似的类分布，那么它们对应类别的数量是逼近这个理论值的，而卡方值的计算公式的意义是衡量观测值与理论值的距离，如果卡方值小，说明观测值和理论值差距很小，也就说明特征无论取x₁或x₂，类别的分布是相似的。