Python 卡方检验

时间：2018-01-14 11:08:46 阅读：2184 评论：0 收藏：0 [点我收藏+]

卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴，主要是比较两个及两个以上样本率( 构成比）以及两个分类变量的关联性分析。其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。（更多参考：卡方检验、卡方分布）

不讲过多理论，主要使用 python 实现卡方验证。之前对于元素/特征/属性异常值的选择情况，可以使用直方图、箱型图、Z分数法等筛选。如 Python 探索性数据分析(Exploratory Data Analysis,EDA) ，数据探索的同时，也可以排除单个变量的异常值。而对于离散属性（或离散化）的分类，可以使用 等距分类、等频分类 等，但是这样分类不能体现出与其他属性或结果的相关性。

当前则使用卡方验证来将属性分类。如客户的婚姻情况对于贷款后是否回款还是有影响的，所以当前校验离散值怎么分类更好。现在有一组数据，客户的“婚姻情况”，更复杂点计算的话，“婚姻+年龄+性别” 相互作用还是比较强的，可同时将这几个变量计算。此处只是有婚姻情况测试。这些数据是历史数据，有点客户已经回款，有的未回款。

技术分享图片

但是这些数据哪些是异常值，这些异常值是删除，还是归到其他类中呢？

首先进行粗分类，观测他们的占比情况：

表1，基于客户婚姻情况的粗分类

技术分享图片

比值较近的可以划分为同一类，如把 “再婚” 归为 “已婚” ，“初婚” 归为 “未婚” 。这时机器的算法，当然我们可以评经验来分类，“再婚”、“初婚” 、“复婚” 其实都属于“已婚”。

表2，该表格为各婚姻情况客户是否回款的频数

技术分享图片

每个类别都是相互独立，没有交叉的，现在用另一种方法计算。假设是否回款的客户的分布与总体保持一致。计算“已婚未回款的客户数” = 4124x5498/12405 = 1826（以所在行列的汇总值计算），最终结果如下：

表3，该表格为各婚姻情况客户是否回款的期望频数分布（理论推算值）

技术分享图片

两个表的数字差距越大，两个表的独立性越强，就表示两个表的依赖度越高、粗分类结果越好。现在使用计算卡方距离：

技术分享图片

Ai为i水平的实际的观察频数，Ei为i水平的期望频数。代入公式：

技术分享图片

这就是卡方值，再计算卡方的自由度 v：

v=（行数-1）（列数-1）=(2-1)(3-1) = 2

表4，卡方临界值表部分数据

技术分享图片

卡方临界值为（一般取 p=0.05）：

技术分享图片

该临界值小于实验中的卡方值 23，差异明显，拒绝0假设。

使用 python 脚本实现：

# -*- coding: UTF-8 -*-
# python 3.5.0
# 卡方计算
__author__ = ‘HZC‘

import math
import sqlalchemy
import numpy as np
import pandas as pd

class CHISQUARE:
    def __init__(self,d):
        self.engine = sqlalchemy.create_engine("mssql+pymssql://%s:%s@%s/%s" %(d[‘user‘],d[‘pwd‘],d[‘ins‘],d[‘db‘]))

    def get_df_from_query(self,sql):
        df = pd.read_sql_query(sql, self.engine)
        return df
    
    def get_variance(self,df):
        row_count = df.shape[0]-1
        col_count = df.shape[1]-1
        v = (row_count-1)*(col_count-1)
        return v
        
    #转为矩阵求卡方距离
    def get_chi_square_value(self,df1,df2):
        df1 = df1.drop([‘col_total‘])
        df2 = df2.drop([‘col_total‘])
        del df1[‘row_total‘]
        del df2[‘row_total‘]
        mtr1 = df1.astype(int).as_matrix()
        mtr2 = df2.astype(int).as_matrix()
        mtr = ((mtr1-mtr2)**2)/mtr2
        return mtr.sum()
        
    #分类频数    
    def get_classification(self,table_name,col_result,col_pred):
        sql = "select %s,%s from %s" % (col_result,col_pred,table_name)
        df = self.get_df_from_query(sql)
        df = df.groupby([col_result,col_pred]).agg({col_result:[‘count‘]})
        df = df.reset_index()
        df.columns = [col_result,col_pred, ‘count‘]
        df = pd.pivot_table(df, values = ‘count‘, index=col_result, columns = col_pred).reset_index()
        df[‘row_total‘] = df.sum(axis=1)
        df.set_index(col_result, inplace=True)
        df.loc[‘ratio(%)‘] = df.loc[0]*100/df.loc[1]
        print("==========================================================")
        print("原始数据粗分类：（百分比相近的可划分为同一类）")
        print("==========================================================")
        print(df.astype(int))
        df = df.drop([‘ratio(%)‘])
        df.loc[‘col_total‘]=df.sum(axis=0)
        print("==========================================================")
        print("分类频数汇总：（实际值）")
        print("==========================================================")
        print(df.astype(int))
        df2 = df.copy()
        total = df2[[‘row_total‘]].loc[[‘col_total‘]].values[0][0]
        for col in df2:
            df2[col] = df2[[col]].loc[[‘col_total‘]].values[0][0] * df2[‘row_total‘]/total
        df2 = df2.drop([‘col_total‘])
        df2.loc[‘col_total‘]=df2.sum(axis=0)
        print("==========================================================")
        print("期望频数分布：（理论推算值）")
        print("与上表差距越大，两表的独立性越低、依存度越高，粗分类效果越好")
        print("==========================================================")
        print(df2.astype(int))
        print("==========================================================")
        x = self.get_chi_square_value(df,df2)#顺序：(实际df,推算df)
        v = self.get_variance(df2) # v=（行数-1）（列数-1）
        print("卡方值：χ2 = %s" % x)
        print("自由度：v = %s" % v)
        print("==========================================================")

if __name__ == "__main__":
    conn = {‘user‘:‘用户名‘,‘pwd‘:‘密码‘,‘ins‘:‘实例‘,‘db‘:‘数据库‘} 
    cs = CHISQUARE(conn)
    cs.get_classification("V_ClientInfoAll","是否回款","婚姻状况")
    #cs.get_classification(表或视图,回归只/判断值,"分类元素")

只可分析两个变量之间的关系值，输出结果如下：

技术分享图片

Python 卡方检验

标签：ret 3.5 .sh ima 脚本分析 ini 离散化视图

原文地址：https://www.cnblogs.com/hzc2012/p/8282336.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行