

若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和 构成一新的随机变量,其分布规律称为 分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个 分布。
卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时, 分布近似为正态分布。
对于任意正整数x, 自由度为 k的卡方分布是一个随机变量X的机率分布。


分布不象正态分布那样将所有正态分布的查表都转化为标准正态分布去查,在 分布中得对每个分布编制相应的概率值,这通过 分布表中列出不同的自由度来表示,在 分布表中还需要如标准正态分布表中给出不同 P 值一样,列出概率值,只不过这里的概率值是 值以上 分布曲线以下的概率。由于 分布概率表中要列出很多 分布的概率值,所以 分布中所给出的 P 值就不象标准正态分布中那样给出了400个不同的 P 值,而只给出了有代表性的13个值,因此 分布概率表的精度就更差,不过给出了常用的几个值,足够在实际中使用了。
查分布概率表时,按自由度及相应的概率去找到对应的 值。如上图所示的单侧概率 0.05(7)=14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1。

表中所给值直接只能查单侧概率值,可以变化一下来查双侧概率值。例如,要在自由度为7的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为 0.05/2(7)=16。下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为 1-0.05/2(7)=1.69。
当然也可以按自由度及 值去查对应的概率值,不过这往往只能得到一个大概的结果,因为 分布概率表的精度有限,只给了 13 个不同的概率值进行查表。例如,要在自由度为 18 的 分布查找 =30 对应的概率,则先在第一列找到自由度 18,然后看这一行可以发现与 30 接近的有28.9与31.5,它们所在的列是0.05与0.025,所以要查的概率值应于介于0.05与0.025之间,当然这是单侧概率值,它们的双侧概率值界于0.1与0.05之间。如果要更精确一些可以采用插值的方法得到,这在正态分布的查表中有介绍。


关于t 分布的早期理论工作,是英国统计学家威廉 西利 戈塞特(WillamSealy Gosset)在1900年进行的。
t分布是小样本分布,小样本分布一般是指n<30。t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等。
从平均值为L、方差为R2的正态总体中抽取容量为n的一个样本,其样本平均数 t分布、2分布和F分布服从平均值为L,方差为R2 /n的正态分布,因此,t分布、2分布和F分布 。但是总体方差R2总是未知的,从而只能用s2来代替,
(1)如果n很大,那么,s2就是R2的一个较好的估计量, t分布、2分布和F分布仍然是一个近似的标准正态分布;
(2)如果n较小, s2常常与R2的差异较大,因此,统计量 t分布、2分布和F分布就不再是一个标准正态分布,而是服从t分布。
(一)t分布的性质
1、t分布是对称分布,且其均值为0。
2、当样本容量n较小时,t分布的方差大于1;当n增大到大于或等于30时,t分布的方差就趋近于1,t分布也就趋近于标准正态分布。
3、t分布是一个分布族,对于不同的样本容量都对应不同的分布,且其均值都为0。
4、与标准正态分布相比,t分布的中心部分较低,2个尾部较高。
5、变量t的取值范围在 t分布、2分布和F分布与t分布、2分布和F分布的博客之间。
(二)t分布的自由度
样本中独立观察值的个数(即样本容量)n减去1(由于样本要估计的总体参数的个数为1,即R2)。
如果用一个样本容量为n=20的样本估计总体平均数,那就要用14个自由度,以便选择适当的t分布。
(三) t分布表的使用
在使用t分布表时,必须同时具备置信度和自由度2 个条件。
置信度表示被估计的总体参数落入置信区间的概率。然而,t分布给出的是A值,即表示所估计的总体参数不落入置信区间的概率,或落入置信区间以外的可能性。 A的数值是由100%减去给定的置信度后得到的。查表时还要指定自由度。
t分布表使用的一个例子:
在99%的置信度下,对容量为14的样本作出一个估计。

