目录

  • 1 随机事件及其概率
    • 1.1 随机试验 样本空间 随机事件——小明的一天
    • 1.2 事件的关系和运算---中国游客不带现金走遍世界
    • 1.3 概率公理化定义——概率的前世今生
    • 1.4 概率的性质——配对问题
    • 1.5 古典概型——美国总统的生日
    • 1.6 几何概型——天上会掉馅饼么
    • 1.7 条件概率——抽签与顺序有关吗?(一)
    • 1.8 乘法公式——抽签与顺序有关吗?(二)
    • 1.9 全概率公式——抽签与顺序有关吗?(三)
    • 1.10 贝叶斯公式——马航客机搜寻
    • 1.11 事件的相互独立性——三个臭皮匠,顶个诸葛亮
    • 1.12 案例-三门问题
  • 2 一维随机变量
    • 2.1 随机变量的概念——现代概率的开端
    • 2.2 两点分布,二项分布——考试全凭瞎猜能及格么
    • 2.3 泊松分布、泊松定理——保险公司能亏本么
    • 2.4 几何分布与超几何分布——科比·布莱恩特的投篮
    • 2.5 一维随机变量的分布函数---随机变量的身份证特征
    • 2.6 连续随机变量及其概率密度——一切推理都必须从观察和实验中来
    • 2.7 均匀分布——几何分布的概率模型
    • 2.8 指数分布——钻石恒久远,一颗永流传
    • 2.9 正态分布——你坐公共汽车被车门碰过头么?
    • 2.10 随机变量函数的分布——一盒粉饼可以用多久?
  • 3 多维随机变量
    • 3.1 二维随机变量的分布函数、二维离散型——中奖概率有多大?
    • 3.2 二维连续型随机变量的联合密度函数和边缘密度函数——汽车车灯视野的设计
    • 3.3 边缘分布函数,边缘分布律——横看成岭侧成峰,远近高低各不同
    • 3.4 离散型随机变量的条件分布律——“学神、学霸”论
    • 3.5 条件分布函数,连续型随机变量的条件概率密度——圆盘上的思考
    • 3.6 两个随机变量的独立性——猜猜他们有办公室恋情吗?
    • 3.7 二维离散型随机变量函数的分布——学府路红绿灯
    • 3.8 二维连续型随机变量函的分布、 和的分布——食堂窗口的个数
    • 3.9 最大与最小值的分布——电路系统的寿命
  • 4 随机变量的数字特征
    • 4.1 期望的概念、离散型随机变量期望的计算——赌金如何分配?
    • 4.2 连续型随机变量期望的计算——如何分辨毒豆芽?
    • 4.3 随机变量函数的期望——中国人的骄傲“乒乓球”
    • 4.4 数学期望的性质——隐藏在七星彩中的秘密
    • 4.5 方差的定义及性质、离散型随机变量方差的计算——哪个方阵更整齐
    • 4.6 连续型随机变量方差的计算——几个常见分布的方差
    • 4.7 协方差及其性质、相关系数的性质 ——你幸福么?
  • 5 大数定律和中心极限定理
    • 5.1 切比雪夫不等式、协方差矩阵——心形的概率
    • 5.2 伯努利大数定律 ——概率论历史上的第一个极限定理
    • 5.3 切比雪夫大数定律——彩票要不要涨价
    • 5.4 中心极限定理——教室应该设置多少座位?
  • 6 数理统计的基本概念
    • 6.1 总体与样本
    • 6.2 统计量与三大分布
    • 6.3 正态总体分布
  • 7 参数估计
    • 7.1 矩估计
    • 7.2 极大似然估计
    • 7.3 评价估计的标准
    • 7.4 区间估计
  • 8 假设检验
    • 8.1 假设检验基本思想
    • 8.2 两个正态总体
      • 8.2.1 单个正态总体均值
      • 8.2.2 单个正态总体方差
    • 8.3 两个正态总体参数
  • 9 软件应用
    • 9.1 4类软件应用案例
    • 9.2 Exel应用_经验分布函数
    • 9.3 R软件
    • 9.4 SPSS软件
    • 9.5 SPSS软件1
    • 9.6 SPSS软件2
    • 9.7 SPSS软件3
    • 9.8 R软件1
    • 9.9 R软件2
    • 9.10 R软件3
    • 9.11 单正态总体均值的区间估计
    • 9.12 双正态总体均值的区间估计
    • 9.13 单正态总体均值的假设检验
    • 9.14 双正态总体均值的假设检验
    • 9.15 单个总体独立性假设检验
    • 9.16 两个总体独立性假设检验
    • 9.17 一元回归分析
    • 9.18 多元回归分析
统计量与三大分布






若n个相互独立的随机变量ξ₁、ξ₂、……、ξn ,均服从标准正态分布(也称独立同分布于标准正态分布),则这n个服从标准正态分布的随机变量的平方和  构成一新的随机变量,其分布规律称为  分布(chi-square distribution),其中参数n称为自由度,正如正态分布中均值或方差不同就是另一个正态分布一样,自由度不同就是另一个  分布。
卡方分布是由正态分布构造而成的一个新的分布,当自由度n很大时,  分布近似为正态分布。
对于任意正整数x, 自由度为 k的卡方分布是一个随机变量X的机率分布。

 



分布不象正态分布那样将所有正态分布的查表都转化为标准正态分布去查,在  分布中得对每个分布编制相应的概率值,这通过  分布表中列出不同的自由度来表示,在  分布表中还需要如标准正态分布表中给出不同 P 值一样,列出概率值,只不过这里的概率值是  值以上  分布曲线以下的概率。由于  分布概率表中要列出很多  分布的概率值,所以  分布中所给出的 P 值就不象标准正态分布中那样给出了400个不同的 P 值,而只给出了有代表性的13个值,因此  分布概率表的精度就更差,不过给出了常用的几个值,足够在实际中使用了。
       查分布概率表时,按自由度及相应的概率去找到对应的  值。如上图所示的单侧概率 0.05(7)=14.1的查表方法就是,在第一列找到自由度7这一行,在第一行中找到概率0.05这一列,行列的交叉处即是14.1。    

表中所给值直接只能查单侧概率值,可以变化一下来查双侧概率值。例如,要在自由度为7的卡方分布中,得到双侧概率为0.05所对应的上下端点可以这样来考虑:双侧概率指的是在上端和下端各划出概率相等的一部分,两概率之和为给定的概率值,这里是0.05,因此实际上上端点以上的概率为0.05/2=0.025,用概率0.025查表得上端点的值为16,记为  0.05/2(7)=16。下端点以下的概率也为0.025,因此可以用0.975查得下端点为1.69,记为  1-0.05/2(7)=1.69。
       当然也可以按自由度及  值去查对应的概率值,不过这往往只能得到一个大概的结果,因为  分布概率表的精度有限,只给了 13 个不同的概率值进行查表。例如,要在自由度为 18 的  分布查找  =30 对应的概率,则先在第一列找到自由度 18,然后看这一行可以发现与 30 接近的有28.9与31.5,它们所在的列是0.05与0.025,所以要查的概率值应于介于0.05与0.025之间,当然这是单侧概率值,它们的双侧概率值界于0.1与0.05之间。如果要更精确一些可以采用插值的方法得到,这在正态分布的查表中有介绍。





关于t 分布的早期理论工作,是英国统计学家威廉 西利 戈塞特(WillamSealy Gosset)在1900年进行的。
      t分布是小样本分布,小样本分布一般是指n<30。t分布适用于当总体标准差R未知时用样本标准差s代替总体标准差R,由样本平均数推断总体平均数以及2个小样本之间差异的显著性检验等。
       从平均值为L、方差为R2的正态总体中抽取容量为n的一个样本,其样本平均数  t分布、2分布和F分布服从平均值为L,方差为R2 /n的正态分布,因此,t分布、2分布和F分布 。但是总体方差R2总是未知的,从而只能用s2来代替,
     (1)如果n很大,那么,s2就是R2的一个较好的估计量, t分布、2分布和F分布仍然是一个近似的标准正态分布;
     (2)如果n较小, s2常常与R2的差异较大,因此,统计量 t分布、2分布和F分布就不再是一个标准正态分布,而是服从t分布。

     (一)t分布的性质
1、t分布是对称分布,且其均值为0。
2、当样本容量n较小时,t分布的方差大于1;当n增大到大于或等于30时,t分布的方差就趋近于1,t分布也就趋近于标准正态分布。
3、t分布是一个分布族,对于不同的样本容量都对应不同的分布,且其均值都为0。
4、与标准正态分布相比,t分布的中心部分较低,2个尾部较高。
5、变量t的取值范围在  t分布、2分布和F分布与t分布、2分布和F分布的博客之间。
     (二)t分布的自由度
样本中独立观察值的个数(即样本容量)n减去1(由于样本要估计的总体参数的个数为1,即R2)。
如果用一个样本容量为n=20的样本估计总体平均数,那就要用14个自由度,以便选择适当的t分布。
     (三) t分布表的使用
在使用t分布表时,必须同时具备置信度和自由度2 个条件。
置信度表示被估计的总体参数落入置信区间的概率。然而,t分布给出的是A值,即表示所估计的总体参数不落入置信区间的概率,或落入置信区间以外的可能性。 A的数值是由100%减去给定的置信度后得到的。查表时还要指定自由度。
t分布表使用的一个例子:
在99%的置信度下,对容量为14的样本作出一个估计。