线性回归是一种常用的统计分析方法,用于建立自变量和因变量之间的线性关系模型。当知道两个变量间存在相关关系时,我们时常想进一步去探讨是否可以通过其中一个变量的数值定量的去预测另外一个变量的数值。
如何利用线性回归开展影响因素分析
|
实际中,许多人习惯性使用SPSS开展线性回归,但是SPSS无法进行批量单因素分析,还需要手动绘制三线表,费时又费力。而R语言虽然可以解决以上难点但具有一定的门槛,因此,这里结合一份实操数据为大家介绍一个智能在线免费统计分析平台——风暴统计。
线性回归具体网址:https://shiny.medsta.cn/line1/
或者百度、必应Bing搜索“风暴统计”
本平台上线的所有工具都是免费的
这里我们不再赘述数据的导入与整理过程,详细教程大家可以点击下方链接:
1.线性回归基本过程介绍
在线性回归分析前,一般建议对数据进行一些探索性的相关分析,因此在导入整理好数据后,可以通过散点图看看线性趋势。
进入“相关分析与散点图”模块后,仅需要选入x轴变量,y轴变量,以及是否要在图中显示相关系数与拟合趋势线!
接着右侧就生成了对应的散点图!
图形中的点、线、置信区间颜色均支持修改,默认情况下三者都是黑色。
完成相关分析与绘制散点图之后,我们就可以进行多重线性回归了!
2.线性回归自变量筛选
首先,选入变量,包括因变量、定量自变量、分类自变量
其次,选择自变量的筛选方式,包括P阈值,回归方法。
P阈值决定了单因素分析时,P值小于多少会进入多因素回归,一般为0.05,在变量过少时,也可以放宽要求,0.1,0.2也是有的。
回归方法有先单后多(选"否"),双向逐步回归,向前逐步回归,向后逐步回归,根据P<0.05筛选。
3.开展先单后多方法分析
根据研究需要,如果需要开展先单后多的自变量筛选方式,那么“是否开展逐步回归分析”选择“否”。P阈值自行选择,当选择不限制时,选入的全部变量都将纳入多因素回归分析。
4.开展逐步回归方法分析
逐步回归方法,平台也提供了多种选择:双向逐步回归,向前逐步回归,向后逐步回归以及考虑到有时P值大于阈值的变量在逐步回归时也会留在模型中,新增了根据P<0.05的原则开展逐步回归!
注:先单后多与逐步回归是两种不同的自变量筛选方式,先单后多主要根据单因素P阈值进行筛选;逐步回归则是通过变量的逐个纳入与剔除,以AIC值最小作为最优模型选择准则。因此有些变量P值大于预设的阈值但仍保留在逐步回归模型中也是正常的哦,想要避免这种情况的发生,可以选择“根据P<0.05筛选”的逐步回归!
5.下载结果
平台给出了多种结果展示,仅展示单因素回归结果,仅展示多因素回归结果,单因素+多因素显示在同一张表格中!
然后也可以选择小数位数,默认情况下,P值为3位小数,其他统计量为2位小数。指定小数位数后,P值与统计量的小数位数将会统一。调整完成后,下载最终的三线表结果!
6.查看R语言分析源码
目前风暴统计平台还会给出R语言输出结果,回归残差分析图,方差膨胀因子(VIF)。
这里简单解释一下方差膨胀因子:方差膨胀因子是检验自变量间共线性问题的常用方法,如果自变量间共线性过强,会导致分析结果不稳定,还可能出现回归系数的符号与实际情况完全相反的情况。
当0<VIF<5,没有共线性; 当5<VIF<10,弱共线性; 当10<VIF<100,中等共线性; 当VIF>100,严重共线性。 |
以上就是使用风暴统计一站式进行线性回归分析的详细说明啦!目前平台建设之初,还有许多不足之处,欢迎大家多多提意见!