第4章 卡方检验
列联表检验的原假设为二变量独立。当二变量独立时,很容易想到,各格格值与其期望值的差应为一均值为0的正态分布。经过近似,该正态分布的方差约为格值期望的算术平方根。这一近似的条件是各格格值相对而言都不是太小。如果有太小的格值,可以就相近格合并。
在列联表中,我们要测量的是各格格值与其期望值的偏离程度。如果偏离程度很大,那可以认为实际上二变量并不独立。如果偏离程度大体上满足正态分布,那么可以认为实际上二变量独立。一般而言,在测量偏离程度时,我们选用方差。
我们已经知道格值与期望差近似于服从均值为0的正态分布。因此,我们用\(\chi^2\)统计量作为列联表检验的统计量。由于列联表的性质,当边缘和已知,每行的自由度为\(c-1\),每列的自由度为\(r-1\),因此,检验统计量的自由度为\(\nu=(r-1)(c-1)\)。