卡方分布

卡方分布可以同时处理多个遵循正态分布的数据,可用于方差分析等。——《统计学图鉴》

卡方分布通俗理解

抽样分布有三大应用:T分布、卡方分布和F分布。可以简单用四个字概括它们的作用:“以小博大”,即通过小数量的样本容量去预估总体容量的分布情况。这里开始介绍卡方分布。

卡方分布的定义若n个相互独立的随机变量ξ?、ξ?、……、ξn ,均服从标准正态分布,则这n个服从标准正态分布的随机变量的平方和构成一新的随机变量,其分布规律称为卡方分布。

卡方分布的概率密度函数

和t分布一样,卡方分布也是一个分布族,其形状也是由参数自由度v来决定,其中,v = n - 1 (n为样本大小)每个整数自由度对应一个分布。卡方分布以下几个特征:

1、当v等于1或2时,卡方分布是一条先高后低的曲线

2、当v大于2时,卡方分布的形状发生改变,曲线呈具有偏度的钟型;

3、当v很大时,曲线接近正态分布;

卡方分布的概率密度函数卡方分布的概率密度函数的计算是依赖于一个样本统计量χ2(读作“卡方”),卡方的计算公式如下:

卡方的计算公式

卡方的概率密度函数计算公式如下:

卡方的概率密度函数

卡方分布的用途卡方分布主要用于检查实际结果与期望结果之间何时存在显著差别,它主要有两个用途:

用于检验拟合优度。也就是检验一组给定的数据与指定分布的吻合程度;

检验两个变量的独立性。通过卡方分布可以检查变量之间是否存在某种关联。

例子:下面是一台老虎机的期望概率分布图,其中X表示每一句游戏的收益:

我们收集了1000局游戏的数据,并记录了每种结果的观察频数和期望频数。所谓观察频数,就是每种收益结果的发生次数。而期望频数就是样本大小乘以收益发生的概率:

我们如何知道实际发生结果是真实的,还是被人操纵呢?换句话说:如何对观察频数和期望频数之间的差异进行量度呢?这取决于显著性水平α。

用卡方分布进行的检验为单尾检验,右尾被作为拒绝域。通过查看检验统计量(即卡方)是否位于右尾的拒绝域以内,就可以判定根据期望分布得出结果的可能性。用显著性水平α进行检验,可以写作:

显著性水平

拒绝域示意图如下:

拒绝域

求解卡方分布的拒绝域,可以使用卡方概率表

卡方概率表

如果显著性水平是5%,就可以判定老虎机受人操纵。根据这个标准来进行计算:

1、确定要进行检验的假设;

假设:每局收益不符合概率分布

2、求出期望频数和自由度;

期望频数已经记录,每局游戏可能出现5种结果,即自由度v=4

3、确定用于做决策的拒绝域;

自由度为4.显著性水平位5%的决绝域。

根据卡方概率表,可得出拒绝域为卡方>9.49的范围

(卡方概率表,横轴代表显著性水平,竖轴代表自由度,交叉值即为临界值)

4、计算检验统计量卡方;

根据卡方的计算公式,可得出检验统计量为38.272

5、查看检验统计量是否位于拒绝域以内;

检验统计量在拒绝域以内(38.272> 9.49)

6、作出决策

所以假设是错误的,老虎机收益结果符合概率分布

卡方检验

1、输入三列变量,第一列命名为变量一,是行所代表的变量。

2、第二列命名为变量二,是列所代表的变量。

3、第三列则是对应某行某列的观察频数。数据输入完毕,在spss菜单里选择选择。

4、在弹出的的对话框里把频数选入加权变量的框里,然后确定,这一步是做卡方检验前必经的步骤。

5、接下来进行卡方检验,依次选择,分析描述统计,弹出卡方分析的对话框,然后将变量一、二分别选入行变量和列变量,然后点击“统计量”按钮,完成设置。