excel可做回归分析,且非常容易得到分析的结果。但对于结果却不太容易解读,以下是对excel进行简单讲解,加粗部分的内容请注意了解下。
表1:
Multiple R:相关系数R,值在-1与1之间,越接近-1,代表越高的负相关,反之,代表越高的正相关关系。
R Square:测定系数,也叫拟合优度。是相关系数R的平方,同时也等于表2中回归分析SS/(回归分析SS+残差SS),这个值在0~1之间,越大,代表回归模型与实际数据的拟合程度越高。
Adjusted R Square:校正的测定系数,对两个具有不同个数的自变量的回归方程进行比较时,还必须考虑方程所包含的自变量个数的影响,为此提出,所谓“最优”回归方程是指校正的决定系数最大者。(该释义来自百度百科)由于小编没有碰到过这种情况,所以还不知道该值的实际作用。
标准误差:等于表2中残差SS / 残差df 的平方根。这个与测定系数一样都能描述回归模型与实际数据的拟合程度,它代表的是实际值与回归线的距离,当然这个值越小越好,不过具体小到什么程度?由于这个值实在没有范围,因此还很难界定。
观测值:有多少组自变量的意思。
表2:
回归分析df:回归分析模型的自由度,以样本来估计总体时,样本中独立或能自由变化的个数。见上表,数据自由度等于样本组数减1,回归分析模型的自由度是1,即这个回归模型有1个参数,残差自由度等于总自由度减去回归分析模型的自由度。
回归分析SS:回归平方和SSR,等于回归预测Y值(表4)与实际Y均值的平方和。表4 残差等于实际Y值减预测Y值,残差SSE,即表4残差平方和。
MS:均方差,等于SS/df。
F:回归分析MS/残差MS。
Significance F:是在显著性水平下的Fα临界值,即F检验的P值,代表弃真概率,这个值一般要小于0.05的,且越小越好,1-本值即为置信度,本例回归模型的置信度未达95%。
表3:
Intercept Coefficients:截距的回归值,X Variable 1 Coefficients:斜率的回归值。本例即Y=1.71090452252935X+9500.11761339365。
标准误差不必多说,越小参数精度越高。
t Stat:回归系数/标准误差,对于一元线性回归,F值与t值都与相关系数R代表差不多的意思,但是,对于多元线性回归,t检验是有必要的。
表1:
Multiple R:相关系数R,值在-1与1之间,越接近-1,代表越高的负相关,反之,代表越高的正相关关系。
R Square:测定系数,也叫拟合优度。是相关系数R的平方,同时也等于表2中回归分析SS/(回归分析SS+残差SS),这个值在0~1之间,越大,代表回归模型与实际数据的拟合程度越高。
Adjusted R Square:校正的测定系数,对两个具有不同个数的自变量的回归方程进行比较时,还必须考虑方程所包含的自变量个数的影响,为此提出,所谓“最优”回归方程是指校正的决定系数最大者。(该释义来自百度百科)由于小编没有碰到过这种情况,所以还不知道该值的实际作用。
标准误差:等于表2中残差SS / 残差df 的平方根。这个与测定系数一样都能描述回归模型与实际数据的拟合程度,它代表的是实际值与回归线的距离,当然这个值越小越好,不过具体小到什么程度?由于这个值实在没有范围,因此还很难界定。
观测值:有多少组自变量的意思。
表2:
回归分析df:回归分析模型的自由度,以样本来估计总体时,样本中独立或能自由变化的个数。见上表,数据自由度等于样本组数减1,回归分析模型的自由度是1,即这个回归模型有1个参数,残差自由度等于总自由度减去回归分析模型的自由度。
回归分析SS:回归平方和SSR,等于回归预测Y值(表4)与实际Y均值的平方和。表4 残差等于实际Y值减预测Y值,残差SSE,即表4残差平方和。
MS:均方差,等于SS/df。
F:回归分析MS/残差MS。
Significance F:是在显著性水平下的Fα临界值,即F检验的P值,代表弃真概率,这个值一般要小于0.05的,且越小越好,1-本值即为置信度,本例回归模型的置信度未达95%。
表3:
Intercept Coefficients:截距的回归值,X Variable 1 Coefficients:斜率的回归值。本例即Y=1.71090452252935X+9500.11761339365。
标准误差不必多说,越小参数精度越高。
t Stat:回归系数/标准误差,对于一元线性回归,F值与t值都与相关系数R代表差不多的意思,但是,对于多元线性回归,t检验是有必要的。
三、用Excel做回归分析
我们研究销售额Y和推广费用X1之间的关系,数据如下:首先我们用数据分析—相关系数分析计算一下自变量和因变量之间的相关系数为0.95157,为强相关。
四、线性回归方程的检验
评价回归拟合程度好坏(重要)1、 先看回归统计表,Multiple R即相关系数R的值,和我们之前做相关分析得到的值一样,大于0.8表示强正相关。
2、 回归统计表中的R Square是R平方值,R平方即R的平方,又可以叫判定系数、拟合优度,取值范围是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不错,60%以下的就需要修正模型了。这个案例里R平方0.9054,相当不错。3、 Adjusted R是调整后的R方,这个值是用来修正因自变量个数增加而导致模型拟合效果过高的情况,多用于衡量多重线性回归。
4、 第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,Significance F是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即Significance F值,F检验主要是检验因变量与自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当,越小越显著。这个案例里F值很小,说明因变量与自变量之间显著。
5、 残差是实际值与预测值之间的差,残差图用于回归诊断,回归模型在理想条件下的残差图是服从正态分布的。
6、 第三张表我们重点关注P-value,也就是P值,用来检验回归方程系数的显著性,又叫T检验,T检验看P值,是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义,如果0.01
我们研究销售额Y和推广费用X1之间的关系,数据如下:首先我们用数据分析—相关系数分析计算一下自变量和因变量之间的相关系数为0.95157,为强相关。
四、线性回归方程的检验
评价回归拟合程度好坏(重要)1、 先看回归统计表,Multiple R即相关系数R的值,和我们之前做相关分析得到的值一样,大于0.8表示强正相关。
2、 回归统计表中的R Square是R平方值,R平方即R的平方,又可以叫判定系数、拟合优度,取值范围是[0,1],R平方值越大,表示模型拟合的越好。一般大于70%就算拟合的不错,60%以下的就需要修正模型了。这个案例里R平方0.9054,相当不错。3、 Adjusted R是调整后的R方,这个值是用来修正因自变量个数增加而导致模型拟合效果过高的情况,多用于衡量多重线性回归。
4、 第二张表,方差分析表,df是自由度,SS是平方和,MS是均方,F是F统计量,Significance F是回归方程总体的显著性检验,其中我们主要关注F检验的结果,即Significance F值,F检验主要是检验因变量与自变量之间的线性关系是否显著,用线性模型来描述他们之间的关系是否恰当,越小越显著。这个案例里F值很小,说明因变量与自变量之间显著。
5、 残差是实际值与预测值之间的差,残差图用于回归诊断,回归模型在理想条件下的残差图是服从正态分布的。
6、 第三张表我们重点关注P-value,也就是P值,用来检验回归方程系数的显著性,又叫T检验,T检验看P值,是在显著性水平α(常用取值0.01或0.05)下F的临界值,一般以此来衡量检验结果是否具有显著性,如果P值>0.05,则结果不具有显著的统计学意义,如果0.01
7、 从第三张表的第一列我们可以得到这个回归模型的方程:y=4361.486+1.198017x,此后对于每一个输入的自变量x,都可以根据这个回归方程来预测出因变量Y。
《相关系数与相关指数的区别?》相关系数与相关指数的区别为:表示不同、取值范围不同、顺序不同。 一、表示不同 1、相关系数:相关系数是用以反映变量之间相关关系密切程度的统计指标。 2、相关指数:相关指数表示一元多项式回归方程拟合度的高低,或者说表示一元多项式回归方程估测的可靠程度的高低。 二、取值范围不同 1、相关系数:相关系数的取值范围为[-1,1],越接近1,说明存在线性关系,相关程度越高。 2、相关指数:相关指数的取值范围为[0,1],越接近1,说明实际观测点离样本线越近,拟合优度越高。 三、顺序不同 1、相关系数:先求相关系数,分析相关性的强弱。 2、相关指数:分析相关性的强弱后,然后求回归方程,最后求出相关指数,分https://t.cn/A6tKw33c
✋热门推荐