网站首页 > 技术教程 正文
方差分析主要是利用F检验来评估三组或更多组数据的均值情况。这篇文章主要聚焦以下问题:
① F统计量
② F值
③ F分布
④ F检验
⑥ 为何用方差分析来检验均值
在「六西格玛管理统计指南-Minitab使用指南」中,有这样一道例题:
考察温度对烧碱产品得率的影响,选了4种不同的温度进行试验,在同一温度下进行了5次试验。希望在显著性水平a=0.05下,判断温度对烧碱产品得率是否有显著影响。
图 1
在Minitab中,使用方差分析可以得到:
从上图可以看出:P=0.002<0.05,说明温度对烧碱产品得率有显著性影响。如何理解上图呢?往下看。
01 F统计量
F统计量,是一个比值,是没有量纲的。该统计量是以Ronal Fisher的名字来命名的。
以单因素方差分析为例,F统计量的公式为:
① 组间波动
衡量数据波动的统计量,常用的有3个:方差、标准差和极差。在方差分析中,当然是采用「方差」作为衡量波动的统计量。
方差的计算公式中,包含了两部分,一部分是「离差平方和,蓝色」和「自由度,绿色」
图1中,根据温度的不同,分了4个组:60度、65度、70度和75度。各组数据的平均值是:90.2、93.2、95、90.2,这些平均值都是围绕在总平均「92.15」的周围。
所谓「组间波动」,就是看各组数据的平均值围绕总平均的波动程度。根据方差的计算公式,平均值距离总平均值越远的组,波动越大。当各组的均值距离总体均值越远时,更容易得到各组均值之间存在显著性差异的结论。下图是四个组数据的点图,可以粗略知道数据的分散情况。
组间波动,可以用各组均值与总体均值的离差平方和来衡量吗?如下图的公式。
当然不行,因为在收集样本时,每组的样本大小是5个数据,但上面公式没有体现出样本量的作用。要把每组中的每个一个数据的信息都用上,必须在公式中把样本量的信息补上。
最终,组间波动的计算公式如下。这个公式中,即包含了每组样本量的信息,也有组数信息,也包含了每组均值的信息。
b. 组内波动
导致各组数据波动的原因,一种是系统原因,比如这里的温度。另外一种是偶然原因,或随机原因。
为了分析出各组「60度、65度、70度、75度」的均值是否有显著性差异,除了系统原因(温度)外,还要考虑由于偶然的、随机的原因导致的随机误差。
问题来了,随机误差如何来衡量呢?似乎很难。这里认为,各组数据的组内波动,是由于随机原因导致的,就当做是随机误差。现在有四个组,先求各组的组内误差平方和,再将所有组的误差平方和求和,公式如下。
得到SSA和SSE后,F统计量是不是就是下面的公式呢?
当然不是。这个公式没有考虑到一个问题,就是随着组数的增加,或每组样本数量的增多,SSA和SSE都是会随着增大的,且这种增大不是线性的。
如果有更大的样本,则有更多的离差平方和相加,结果是,离差平方和变得越来越大。所以要引入自由度,否则,方差不具有可比性,F统计量也没有意义。综合以上,F统计量的计算公式如下:
要得出均值不相等的结论,我们需要较小的组内波动。这是因为组内波动是没有被解释的波动,就是说造成组内波动的原因是不清楚,是偶然原因导致的随机误差。随着随机误差的增加,组均值之间的差异更有可能是由随机误差引起的,而不是由总体水平的实际差异。所以,我们希望随机误差越小越好。
02 求F值
为了演示F值的求解过程,下面用EXCEL进行演示。
F统计值越小,说明组内波动更紧密地聚集在一起,相对于每个组中的随机误差,均值之间的距离很小,不能得出均值之间存在显著差异的结论。
F统计值越大,意味着组间波动远大于组内波动,在这种情况下,各组均值之间的观测差异,更有可能反应出总体水平的差异。
05 F分布
单看F值,是得不出结论的。要结合F值在F分布中的位置,才能得出结论。
F分布,是一种抽样分布。结合案例说明,我们在60度、65度、70度、75度时,各得到了5个样本数据,现在假设这样不停的做实验10万次,那么每次实验都可以计算得到一个F值,10万个F值,根据频数,就可以得到一个分布,这就是F分布。
当然,现在我们不需要一次次的做实验,再去确定F分布了。由于统计学家的贡献,F分布只与因子的自由度和随机误差的自由度有关。在这个案例中,因子的自由度dfA=3,误差的自由度dfE=16,概率图如下:
从图中可以看出,F分布是右偏分布。
06 F检验
建立一对假设:原假设H0:温度对得率没有影响(所有均值均相等)备择假设H1:温度对得率有影响(至少有一对均值不等)
可以发现P值=0.002<0.05,说明要拒绝原假设,不同温度对烧碱产品的得率是有影响的。
07 最后
为什么可以用分析方差的方式来来检验均值的差异呢?
不知道注意到没有,无论是计算因子的离差平方和,还是误差的离差平方和,在计算公式中,都是涉及到了「总平均」、「组平均」,考量的都是组平均的波动,这使得我们可以分析出组与组之间的差异。
虽然,通过方差分析可以得出各组的均值不一样,但具体是哪几组不一样,这还要通过其他的均值检验来分析。另外,还要强调一点,方差分析对样本的方差是很敏感的,进行方差分析前,要进行等方差检验。
以上,是小林的分享。
最后:
大家好,我是小林,定期分享质量、职场和成长的原创文章。觉得有用,请关注本人公众号,点赞、转发!
- 上一篇: 单因素方差分析
- 下一篇: SPSS 单因素方差分析全流程总结
猜你喜欢
- 2025-01-09 单因素方差分析+作图
- 2025-01-09 描述性统计分析 之 均值分析
- 2025-01-09 86:重复性和再现性分析GRR(2)-GRR均值极差分析法和方差分析法
- 2025-01-09 SPC如何做方差分析,意义又在哪里?
- 2025-01-09 MedSPSS小课堂——多因素方差分析
- 2025-01-09 MedSPSS小课堂——双因素方差分析
- 2025-01-09 SPSS单因素方差分析的操作步骤及结果解读,陈老师SPSS数据分析
- 2025-01-09 14单因素方差分析:One-Way ANOVA
- 2025-01-09 【Python特征工程系列】基于方差分析的特征重要性分析
- 2025-01-09 ANOVA方差分析
你 发表评论:
欢迎- 04-26偶尔摸鱼18--招新海报
- 04-26一张还不知道能不能被采用的海报
- 04-26美工技巧:如何快速找素材找灵感?
- 04-26收集24个学好PPT的网站,拿走不谢
- 04-26美工设计必备的国内外素材网站大全
- 04-26电商设计师必备的国内外素材网站大全!
- 04-26安全防护标准化高清图,安全文明施工必备
- 04-26图说筏板基础施工那些事儿
- 最近发表
- 标签列表
-
- sd分区 (65)
- raid5数据恢复 (81)
- 地址转换 (73)
- 手机存储卡根目录 (55)
- tcp端口 (74)
- project server (59)
- 双击ctrl (55)
- 鼠标 单击变双击 (67)
- debugview (59)
- 字符动画 (65)
- flushdns (57)
- ps复制快捷键 (57)
- 清除系统垃圾代码 (58)
- web服务器的架设 (67)
- 16进制转换 (69)
- xclient (55)
- ps源文件 (67)
- filezilla server (59)
- 句柄无效 (56)
- word页眉页脚设置 (59)
- ansys实例 (56)
- 6 1 3固件 (59)
- sqlserver2000挂起 (59)
- vm虚拟主机 (55)
- config (61)
本文暂时没有评论,来添加一个吧(●'◡'●)