分享免费的编程资源和教程

网站首页 > 技术教程 正文

方差分析:F检验

goqiw 2025-01-09 12:35:36 技术教程 83 ℃ 0 评论

方差分析主要是利用F检验来评估三组或更多组数据的均值情况。这篇文章主要聚焦以下问题:

① F统计量

② F值

③ F分布

④ F检验

⑥ 为何用方差分析来检验均值

在「六西格玛管理统计指南-Minitab使用指南」中,有这样一道例题:

考察温度对烧碱产品得率的影响,选了4种不同的温度进行试验,在同一温度下进行了5次试验。希望在显著性水平a=0.05下,判断温度对烧碱产品得率是否有显著影响。

图 1

在Minitab中,使用方差分析可以得到:

从上图可以看出:P=0.002<0.05,说明温度对烧碱产品得率有显著性影响。如何理解上图呢?往下看。

01 F统计量

F统计量,是一个比值,是没有量纲的。该统计量是以Ronal Fisher的名字来命名的。

以单因素方差分析为例,F统计量的公式为:

① 组间波动

衡量数据波动的统计量,常用的有3个:方差、标准差和极差。在方差分析中,当然是采用「方差」作为衡量波动的统计量。

方差的计算公式中,包含了两部分,一部分是「离差平方和,蓝色」和「自由度,绿色」


图1中,根据温度的不同,分了4个组:60度、65度、70度和75度。各组数据的平均值是:90.2、93.2、95、90.2,这些平均值都是围绕在总平均「92.15」的周围。

所谓「组间波动」,就是看各组数据的平均值围绕总平均的波动程度。根据方差的计算公式,平均值距离总平均值越远的组,波动越大。当各组的均值距离总体均值越远时,更容易得到各组均值之间存在显著性差异的结论。下图是四个组数据的点图,可以粗略知道数据的分散情况。

组间波动,可以用各组均值与总体均值的离差平方和来衡量吗?如下图的公式。

当然不行,因为在收集样本时,每组的样本大小是5个数据,但上面公式没有体现出样本量的作用。要把每组中的每个一个数据的信息都用上,必须在公式中把样本量的信息补上。

最终,组间波动的计算公式如下。这个公式中,即包含了每组样本量的信息,也有组数信息,也包含了每组均值的信息。

b. 组内波动

导致各组数据波动的原因,一种是系统原因,比如这里的温度。另外一种是偶然原因,或随机原因。

为了分析出各组「60度、65度、70度、75度」的均值是否有显著性差异,除了系统原因(温度)外,还要考虑由于偶然的、随机的原因导致的随机误差。

问题来了,随机误差如何来衡量呢?似乎很难。这里认为,各组数据的组内波动,是由于随机原因导致的,就当做是随机误差。现在有四个组,先求各组的组内误差平方和,再将所有组的误差平方和求和,公式如下。

得到SSA和SSE后,F统计量是不是就是下面的公式呢?

当然不是。这个公式没有考虑到一个问题,就是随着组数的增加,或每组样本数量的增多,SSA和SSE都是会随着增大的,且这种增大不是线性的。

如果有更大的样本,则有更多的离差平方和相加,结果是,离差平方和变得越来越大。所以要引入自由度,否则,方差不具有可比性,F统计量也没有意义。综合以上,F统计量的计算公式如下:

要得出均值不相等的结论,我们需要较小的组内波动。这是因为组内波动是没有被解释的波动,就是说造成组内波动的原因是不清楚,是偶然原因导致的随机误差。随着随机误差的增加,组均值之间的差异更有可能是由随机误差引起的,而不是由总体水平的实际差异。所以,我们希望随机误差越小越好。

02 求F值

为了演示F值的求解过程,下面用EXCEL进行演示。

F统计值越小,说明组内波动更紧密地聚集在一起,相对于每个组中的随机误差,均值之间的距离很小,不能得出均值之间存在显著差异的结论。

F统计值越大,意味着组间波动远大于组内波动,在这种情况下,各组均值之间的观测差异,更有可能反应出总体水平的差异。


05 F分布

单看F值,是得不出结论的。要结合F值在F分布中的位置,才能得出结论。

F分布,是一种抽样分布。结合案例说明,我们在60度、65度、70度、75度时,各得到了5个样本数据,现在假设这样不停的做实验10万次,那么每次实验都可以计算得到一个F值,10万个F值,根据频数,就可以得到一个分布,这就是F分布。

当然,现在我们不需要一次次的做实验,再去确定F分布了。由于统计学家的贡献,F分布只与因子的自由度和随机误差的自由度有关。在这个案例中,因子的自由度dfA=3,误差的自由度dfE=16,概率图如下:

从图中可以看出,F分布是右偏分布。


06 F检验

建立一对假设:原假设H0:温度对得率没有影响(所有均值均相等)备择假设H1:温度对得率有影响(至少有一对均值不等)

可以发现P值=0.002<0.05,说明要拒绝原假设,不同温度对烧碱产品的得率是有影响的。


07 最后

为什么可以用分析方差的方式来来检验均值的差异呢?

不知道注意到没有,无论是计算因子的离差平方和,还是误差的离差平方和,在计算公式中,都是涉及到了「总平均」、「组平均」,考量的都是组平均的波动,这使得我们可以分析出组与组之间的差异。

虽然,通过方差分析可以得出各组的均值不一样,但具体是哪几组不一样,这还要通过其他的均值检验来分析。另外,还要强调一点,方差分析对样本的方差是很敏感的,进行方差分析前,要进行等方差检验。

以上,是小林的分享。


最后:

大家好,我是小林,定期分享质量、职场和成长的原创文章。觉得有用,请关注本人公众号,点赞、转发!

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表