分享免费的编程资源和教程

网站首页 > 技术教程 正文

一文读懂方差分析统计学中的LSD与HSD,让统计变得更简单

goqiw 2025-01-09 12:35:12 技术教程 2 ℃ 0 评论

统计思维总有一天会像读与写一样成为一个有效率公民的必备能力

——H.G.Wells


先前在P&G任职研究员时,每天会面临大量的统计学计算问题,但像P&G这种有着深厚历史积淀的公司,它具备了一系列系统化,标准化的方法与流程,拿简单的AB测试来讲,每次将拿到的实验结果输入预定模板工具,该工具会自动计算出相应结果及差异的显著性,而在这个过程中我遇到的最多的统计量便是LSD与HSD值,这就让整个统计计算过程变得清晰明了,我与统计学结缘也是基于对这两个统计量的研究,以致我了解到更多的统计学魅力,为此专门系统学习了统计学知识。

下面我详细介绍下假设检验中这两个统计量的具体含义及应用场景。

LSD叫做最小显著性差异,英文为Least Significant Difference,由统计学家Fisher提出。很多人猜测HSD是Highest Significant Difference,其实不然,其真正的英文名称是Honestly significant difference,翻译过来叫真实显著性差异,最初是由Turkey提出,后来被Kramer改进,适用条件更宽了,也被更多的人所接受。

讲这之前,先跟大家回顾下方差分析,这两个值其实是为方差分析服务的。通俗地讲,方差分析,可以叫归因分析,就是从方差的角度分析一个事件发生的原因。举个例子,我拿A,B,C,D四个产品去做消费者测试,得到一个消费者评价结果,那结果为什么是这样,需要取分析有哪些因素会影响到最终结果。首先,不同的产品可能会造成不同的测试结果(处理效应),其次即便同一种产品,消费者评价的结果也可能不同,这便是随机误差(随机效应)。在统计中,这种效应或者误差通常用平方和来表示:

  • 全部数据整体的误差平方和称为总平方和SST(sum of squares for total),
  • 不同产品间误差大小的平方和称为误差平方和SSA(treatment sum of squares, 反应因素A对观测数据的效应),
  • 反应随机误差大小的平方和成为误差平方和SSE(sum of squares for error)。

三者的关系为:

所以方差分析的基本原理就是找原因,即看看总误差中有没有处理误差。如果处理误差对于总误差没有显著影响(不同产品得到的消费者评价相同),则意味着没有处理误差,也就是说消费者对于各个产品的评价没有显著性差异。相反如果存在,则各个产品之间至少有一对产品间存在显著性差异,则可以进行以下假设检验:

  • 原假设H0: uA=uB=uC=uD;
  • 备择假设H1: uA, uB, uC, uD 不全相等。

按照我们在假设检验中讲到的的步骤,接下来应该确定检验统计量,在单因素方差分析中,检验统计量的构造方法为(F值):

对于具体的计算,此处暂不展开,仅先从原理角度让大家明白。最后根据F的P值便可做出决策。

此时我们已经完成了效应检验,可以得出不同的产品对于消费者评价是不是有显著性影响。但事实上,这样的结论远没有达到我们的目的,上面只能告诉我们产品间是不是存在差异,但不能告诉我们哪些产品间存在或者不存在差异,即我们常常想看看不同产品之间是不是有差异,以上的检验并不能给出回答,所以我们还需要进行不同产品间的比较,这就是多重比较,它是通过均值之间的配对检验来找到哪些产品之间存在显著性差异。

多重比较有两种常用的方法,也就是我们这篇文章的主角:LSD和HSD

LSD的适用场景:研究者事先计划对某对或某几对均值进行比较。比如我想看一下消费者对于A与B两个产品的喜好,则可以选择LSD进行假设检验。LSD依据为t分布,假设检验的基本步骤为:

1. 提出假设

§ H0: uA=uB (产品A的均值等于产品B的均值)

§ H1: uA=/uB (产品A的均值不等于产品B的均值)

2. 计算检验统计量:Xi平均-Xj平均

3. 计算LSD:


4. 做出决策。比较差值与LSD的大小决定是否拒绝原假设。

HSD适用场景:事先并未计划进行多重比较,只是在方差分析拒绝原假设后对任意两个处理的均值进行比较。即先确认产品的不同会引起消费者评价的不同,然后再分析哪两个产品之间存在不同。该方法最初由Jone W. Tukey提出,Turkey的HSD方法要求各处理的样本量相同,当样本量不同时,该方法不再适用。后来C.K.Kramer对其进行修正,使其适用于样本量不同的情形。

HSD方法依据的不是t分布,而是学生化极差分布,该分布包括两个参数,I与(N-I),该方法用自由度为I和(N-I)的学生化极差分布的1-a分位数作为临界值,记为qa(I, N-I)。具体的计算公式此处未给出,可以通过软件进行计算,检验的原理与LSD相同,只要计算出HSD,即可将HSD与两个处理均值之差的绝对值进行比较,做出决策。以上就是方差分析中多重比较的全部内容。重点是大家要明确分析的原理及思路。后面还会有关于多因素的方法分析,以及有无交互作用的情况。其实思路是相同的。明白了上面的内容,后面内容的理解就会相对容易。

以上便是对于LSD与HSD的全部讲解,在方差分析中占据重要的位置,实际业务场景下也得到了广泛应用。喜欢统计或数据分析方向的同学欢迎留言关注,共同学习进步。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表