分享免费的编程资源和教程

网站首页 > 技术教程 正文

一文教会你多元线性回归分析

goqiw 2025-01-08 13:36:32 技术教程 4 ℃ 0 评论

多元线性回归分析是当前使用最为成熟、应用最广泛、使用最多的回归分析方法之一。但是很多同学并不能很好的掌握其分析流程,包括多元线性回归的前提条件、软件操作、结果解读等。本文通过一个案例,探讨一下多元线性回归分析流程。

一、多元线性回归方程

多元线性回归是研究多个自变量X对一个因变量Y的影响情况。多元线性回归方程的参数估计方法采用最小二乘法,回归方程的数学模型为:

β0为常数项,又称为截距;βi(i=1,2,...,p)表示除Xi以外的其他自变量固定的情况下,Xi变化一个单位,相应Y的平均变化值,也表示每个自变量对因变量的影响程度。ε为随机误差项,又称残差,是因变量Y的变化中不能用自变量X解释的部分。

二、前提条件

多元线性回归模型的应用需要满足如下前提条件:

①因变量Y为定量数据;
②自变量X个数大于等于2(定量数据和定类数据均可);
③自变量X与因变量Y之间存在线性关系;
④自变量之间不存在多重共线性;

⑤各观测值之间相互独立,即残差之间不存在自相关;

⑥残差服从均值为0,方差为σ^2的正态分布(残差服从正态分布和方差齐)。

条件①②与研究设计有关,条件③-⑥需要使用软件进行验证。

提特别示:当自变量为定类数据时,比如专业(共分为‘理科类’,‘工科类’和‘文科类’)通常需要进行哑变量处理,然后再进行回归分析等。

  • 原因:自变量为定类数据时,不能得到X越如何,Y越如何的结论。进行虚拟变量设置后,定类数据的回归分析才有意义,比如得到“相对于文科类专业(数字0);非文科类专业(1)工资越高”这样的结论。

  • 参照项:专业为3类,进行哑变量处理后,在回归模型中,只能放入2个哑变量,因为需要留一个专业作为参照项。比如将文科类作为参照项,后续可以得到“相对于文科类专业,理科or工科类怎样怎样”的结论。并且从数学角度来讲,如果专业对应的3个虚拟变量都放入模型,一定会出现‘多重共线性问题’。

接下来,通过一个案例,介绍如何使用软件进行多元线性回归分析,以及分析结果应该如何解读。

三、案例实战

案例背景:当前有一家公司,想要研究员工的初始工资、工作时间、教育程度、工作经验是否会影响员工的当前工资,如果有影响,各个因素对当前工资的影响大小如何,故通过多元线性回归进行分析。

1前提条件检验

条件③:自变量X与因变量Y之间存在线性关系;

多元线性回归分析要求自变量X与因变量Y之间存在线性关系,可以通过绘制散点图或者查看变量之间的相关系数的方式进行。本案例使用散点图用于直观展示自变量X与因变量Y之间的关系情况,利用SPSSAU可视化->散点图进行分析,操作如下:

SPSSAU输出散点图如下:

以初始工资、教育程度、工作经验、工作时间为X轴,工资为Y轴得到的散点图,从散点图可以看出,工资与初始工资、教育程度、工作经验之间的关系有线性趋势,但是工作时间与工资之间并没有明显的关系;故可以将工作时间这一自变量从模型中剔除。

条件④:自变量之间不存在多重共线性;

共线性是指在线性回归分析时,出现的自变量之间彼此相关的现象。使用SPSSAU进行多元线性回归时,分析结果会自动输出VIF值,用来判断是否存在共线性。一般VIF值大于10(严格大于5),则认为存在严重的共线性。有些文献也以容忍度作为判断共线性的指标,容忍度为VIF值的倒数,容忍度大于0.1则说明没有共线性(严格是大于0.2)。研究时二者选其一即可,一般描述VIF值。
SPSSAU输出结果如下:

从上表可以看出,VIF值均小于10,说明不存在共线性问题,满足条件④。如果数据存在共线性,可以手动移除相关性非常高的变量,或者改用逐步回归、岭回归等方法进行分析。多重共线性检验及其处理方法可以参考下面这篇文章:

多重共线性检验及处理方法(附案例教程)

条件⑤:各观测值之间相互独立,即残差之间不存在自相关

如果模型的残差项违背了相互独立的基本假设,称为存在自相关性。自相关性可以使用D-W检验(杜宾-瓦特森检验)进行分析。一般认为,如果D-W值在2附近,说明不存在自相关性,模型构建比较好;如果D-W值明显偏离2,说明模型具有自相关性,模型构建较差
SPSSAU在进行线性回归分析时,输出D-W值如下:

从上表可知,本案例D-W值为1.6879接近2,所以可以认为残差不存在自相关,各观察值之间相互独立,满足条件⑤。

条件⑥:残差服从均值为0,方差为σ^2的正态分布(残差服从正态分布和方差齐)。

在进行分析时,勾选【保存预测和残差值】选项,SPSSAU会输出残差值和预测值。

  • 残差正态性检验

可通过标准化残差直方图来判断残差的正态性,SPSSAU可视化->直方图,结果如下:

从直方图可以判断,基本满足“中间高,两头低”的钟形分布形态,可以认为标准化残差值满足正态分布。

  • 残差方差齐检验

残差的方差齐性,可通过标准化残差值与标准化预测值的散点图来判断方差齐性。以标准化残差为Y轴,标准化预测值为X轴绘制散点图,如果所有点均匀分布在直线Y=0的两侧,则可以认为满足方差齐性,散点图结果如下:

从散点图可以发现数据大致均匀分布在Y=0的两侧,所以可认为残差满足方差齐性。综上所述,数据满足回归分析的前提假设,可以进行多元线性回归。

2多元线性回归分析结果解读


1)总体显著性检验

多个自变量与因变量这个整体的显著性检验,是使用F检验进行的,可以判断多元线性回归方程是否成立。SPSSAU多元线性回归分析F检验输出结果如下:


从上表可以看出,统计量F=6075.9224,对应的p值小于0.05,所以多元线性回归通过总体显著性检验,回归模型是具有统计学意义的。
接下来查看每个自变量对因变量影响的显著性,即回归系数显著性检验。

2)回归系数显著性检验

回归系数显著性检验是指每个自变量对因变量影响的显著性检验,使用t检验进行。SPSSAU输出每个自变量对因变量影响的t检验结果如下:

从上表可以看出,初始工资、教育程度与工作经验三个自变量对应t检验的p值均小于0.05,呈现出显著性特征。说明三个自变量X对因变量Y(工资)均有显著影响。


3R方与调整后R

R方用于分析模型的拟合优度,又称决定系数。R方的值介于0~1之间,代表模型的拟合程度,一般认为越大越好。例如R方为0.5,说明自变量可以解释因变量50%的变化原因。但是实际研究中并不会过多关注R方的大小,因为进行回归分析更多的主要关注自变量对因变量是否具有影响关系。调整后R方并没有实际意义,通常在进行模型调整(增加或者减少变量个数时)使用,用于判断你的模型中该不该加入你想加入的变量。

从上表可以看出,R方=0.973,说明自变量可以解释因变量97.3%的变化原因,模型拟合较好。当进行模型调整时,可以关注调整后R方的变化。

4)模型公式

从上表可知,将工作经验,初始工资,教育程度作为自变量,而将工资作为因变量进行线性回归分析,从上表可以看出,模型公式为:工资=18473.846+ 145.782*工作经验+ 0.333*初始工资-274.265*教育程度


特别提示:构建回归模型使用非标准化回归系数,它是方程中不同自变量对应的原始回归系数,反映了在其他自变量不变的情况下,该自变量每变化一个单位对因变量作用的大小。通过非标准化回归系数构建的回归方程,才可以对因变量进行预测。

5)自变量影响大小比较

从线性回归结果可以看出,工作经验、初始工资、教育程度的标准化回归系数分别是:0.8929、0.1536、-0.0463;所以工作经验对工资的影响最大,其次是初始工资,影响最小的是教育程度,且初始工资与工作经验对工资的影响是显著正向的,而教育程度对工资的影响是显著负向的。


特别提示:自变量对因变量影响大小的比较是通过标准化回归系数进行比较的。标准化回归系数的绝对值越大,说明该自变量对因变量的影响越大。标准化回归系数,是对自变量和因变量同时进行标准化处理后所得到的回归系数,数据经过标准化处理后消除了量纲、数量级等差异的影响,使得不同变量之间具有可比性。
本案例多元线性回归分析至此结束。

四、总结

总结一下多元线性回归分析的过程:

1、确定研究目的;多元线性回归分析用于研究哪些自变量会对因变量Y产生影响,得到回归方程,还可以通过方程进行预测,确定方法选择正确。

2、多元线性回归分析共有6个前提条件,满足后可进行分析,如果不满足需要对数据进行一定的修正,或者改用其他方法进行分析。

3、F检验用于判断模型总体显著性,显著说明模型有意义,可以继续进行后续分析。

4、t检验用于判断各个回归系数显著性,检验各自变量对因变量影响是否显著。

5、R用于判断模型的拟合优度,通常越大越好。

6、构造多元线性回归模型使用非标准化回归系数,由此得到的回归模型才能用来预测。

7、比较自变量对因变量影响大小使用标准化回归系数,绝对值越大,影响越大。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表