-
理論依據(jù)
【基本思想】
1.多元線性回歸分析的基本原理
多元線性回歸模型是指含有多個(gè)自變量的線性回歸模型,用于解釋因變量與其他多個(gè)自變量之間的線性關(guān)系。多元線性回歸模型數(shù)學(xué)表達(dá)式為:

式中,因變量y的變化可由兩個(gè)部分解釋:一是由k個(gè)自變量x的變化引起的y的變化部分;二是由其他隨機(jī)因素引起的y的變化部分。
2.回歸系數(shù)的檢驗(yàn)
多元線性回歸分析中,回歸系數(shù)顯著性檢驗(yàn)的原假設(shè)為

,即第i個(gè)偏回歸系數(shù)與0無顯著差異。
3.回歸方程的檢驗(yàn)
多元線性回歸方程顯著性檢驗(yàn)的原假設(shè)為

,式中,k為解釋變量的個(gè)數(shù),n為樣本數(shù)。SPSS自動將F值與概率P值相對應(yīng),如果P值小于給定的顯著性水平α,則拒絕原假設(shè)。
4.多元線性回歸分析的基本步驟
(1)確定因變量與自變量,并初步設(shè)定多元線性回歸方程。
(2)估計(jì)參數(shù),確定估計(jì)多元線性回歸方程。
(3)利用檢驗(yàn)統(tǒng)計(jì)量對回歸預(yù)測模型進(jìn)行各項(xiàng)顯著性檢驗(yàn)。
(4)檢驗(yàn)通過后,可利用回歸模型進(jìn)行預(yù)測,分析評價(jià)預(yù)測值。
【實(shí)驗(yàn)?zāi)康摹?/p>
1.準(zhǔn)確理解多元線性回歸分析的方法原理。
2.熟練掌握多元線性回歸分析的SPSS操作。
3.掌握樣本回歸系數(shù)和回歸方程顯著性檢驗(yàn)的方法。
4.掌握如何利用回歸方程進(jìn)行預(yù)測。
5.培養(yǎng)運(yùn)用多元線性回歸分析方法解決身邊實(shí)際問題的能力。
-
實(shí)驗(yàn)內(nèi)容
大家都知道,軟飲料需求受價(jià)格、人均收入和季節(jié)的影響。因此,可以用經(jīng)驗(yàn)數(shù)據(jù)(時(shí)間序列數(shù)據(jù)或截面數(shù)據(jù))建立回歸方程對需求進(jìn)行估計(jì),從而針對不同的收入人群、在不同的季節(jié)制定不同的生產(chǎn)和銷售計(jì)劃。數(shù)據(jù)集“data15-1. sav”列出的是美國48個(gè)鄰近州的截面數(shù)據(jù)。
此數(shù)據(jù)集包含州(z)、罐/(人·年)(Y)、6罐裝飲料價(jià)格(P)、收入/人(I)、平均氣溫(T)5個(gè)變量的48條觀測。罐/(人·年)(Y)是每年每人的軟飲料需求量,6罐裝飲料價(jià)格(P)是6罐裝飲料的價(jià)格,收入/人(I)是人均年收入,平均氣溫(T)是平均氣溫,這4個(gè)變量均為數(shù)值型變量。
下面以每年每人的軟飲料需求量為因變量,以6罐裝飲料的價(jià)格、人均收入、平均氣溫為自變量建立多元線性回歸模型,來研究三種影響因素對因變量的影響程度,計(jì)算軟飲料需求的價(jià)格彈性,估計(jì)解釋變量發(fā)生變化時(shí),軟飲料需求的變動。
-
操作步驟
(1)確定因變量與自變量,初步設(shè)定回歸方程
以每年每人的軟飲料需求量為因變量Y,以6罐裝飲料的價(jià)格P、人均收入I、平均氣溫T為自變量建立多元線性回歸模型:

(2)估計(jì)參數(shù),建立回歸預(yù)測模型
1)打開數(shù)據(jù)集“data15-1. sav”,選擇菜單:【Analyze】→【Regression】→【Linear】。

圖7-1:選擇菜單步驟
2)彈出如圖7-2所示的對話框,在此對話框中選擇罐/(人·年)[Y]進(jìn)入“Dependent”框內(nèi);選擇6罐裝飲料價(jià)格[P]、收入/人[I]、平均氣溫[T]進(jìn)入“Independent(s)”框內(nèi)。需要注意的是,可以通過點(diǎn)擊“Previous”與“Next”按鈕切換,選擇不同的自變量構(gòu)建模型,每個(gè)模型中可以對不同的自變量采用不同的方法進(jìn)行回歸。

圖7-2:“Linear”對話框
3)在“Method”下拉框中有5個(gè)選項(xiàng),代表著5種回歸方法。
①“Enter”選項(xiàng)是強(qiáng)行進(jìn)入法,即所選變量全部進(jìn)入回歸模型,該選項(xiàng)是默認(rèn)方法。
②“Remove”選項(xiàng)是消去法,建立回歸方程時(shí)根據(jù)設(shè)定的條件剔除部分自變量。
③“Forward”選項(xiàng)是向前選擇法,從模型中無自變量開始,然后依據(jù)在“Options”對話框中所設(shè)定的內(nèi)容,每次將一個(gè)最符合條件的變量引入模型,直至所有符合判斷依據(jù)的變量都進(jìn)入模型為止。第一次進(jìn)入回歸模型的變量應(yīng)該是與因變量的相關(guān)系數(shù)絕對值最大的變量。如果指定的判斷依據(jù)是F值,每次將方差分析的F值最大的變量引入模型。
④“Backward”選項(xiàng)是向后剔除法,先建立全模型,然后根據(jù)在“Options”對話框中所設(shè)定的判斷依據(jù),每次剔除一個(gè)最不符合進(jìn)入模型判斷依據(jù)的變量,直到回歸方程中不再含有不符合判斷依據(jù)的自變量為止。
⑤“Stepwise”選項(xiàng)是逐步回歸法,它是向前選擇法與向后剔除法的結(jié)合。根據(jù)在“Options”對話框中所設(shè)定的判據(jù),選擇符合條件且對因變量貢獻(xiàn)最大的自變量進(jìn)入回歸方程。然后根據(jù)向后剔除法,將模型中F值最小且符合剔除判據(jù)的變量剔除出模型,重復(fù)進(jìn)行,直到回歸方程中的自變量均符合進(jìn)入模型的依據(jù),模型外的變量均不符合進(jìn)入模型判據(jù)為止。
這幾種回歸方法均可選擇,最后所得出的有效回歸方程表達(dá)式應(yīng)當(dāng)是相同的。本實(shí)驗(yàn)中選擇“Stepwise”選項(xiàng)(如圖7-2所示)。
點(diǎn)擊“Statistics”按鈕,彈出如圖7-3所示的對話框,輸出各種常用判別統(tǒng)計(jì)量。

圖7-3:“Statistics”對話框
①在“Regression Coefficients”框中,選擇“Estimates”,輸出回歸系數(shù)、回歸系數(shù)的標(biāo)準(zhǔn)差、對回歸系數(shù)檢驗(yàn)的t統(tǒng)計(jì)量及P值。
②選擇“Confidence intervals”,輸出每個(gè)非標(biāo)準(zhǔn)化回歸系數(shù)的95%的置信區(qū)間。
③選擇“Covariance matrix”,輸出非標(biāo)準(zhǔn)化回歸系數(shù)的協(xié)方差矩陣、各變量的相關(guān)系數(shù)矩陣。
④選擇“Model fit”,輸出各種默認(rèn)值:判定系數(shù)、調(diào)整的判定系數(shù)、回歸方程的標(biāo)準(zhǔn)誤差、回歸方程顯著的F檢驗(yàn)的方差分析表。
⑤選擇“R squared change”復(fù)選項(xiàng),輸出當(dāng)回歸方程中引入或剔除一個(gè)變量后R2的變化,如果該變化較大,說明進(jìn)入和從方程中剔除的可能是一個(gè)較好的回歸自變量。
⑥選擇“Descriptives”選項(xiàng)輸出的是合法觀測量的數(shù)量、變量的平均值、標(biāo)準(zhǔn)差、相關(guān)系數(shù)矩陣及單側(cè)檢驗(yàn)顯著性水平矩陣。
⑦選擇“Part and partial correlations”選項(xiàng),輸出部分相關(guān)系數(shù)、偏相關(guān)系數(shù)與零階相關(guān)系數(shù)。
⑧選擇“Collinearity diagnostics”選項(xiàng),輸出用來診斷自變量共線性的各種統(tǒng)計(jì)量,如容忍度、方差膨脹因子、特征值、條件指標(biāo)、方差比例等。其中,容忍度Tolerance越接近于0,表示復(fù)共線性越強(qiáng),越接近于1,復(fù)共線性越弱。方差膨脹因子VIF的值越接近于1,解釋變量之間的多重共線性越弱,如果VIF值大于或等于10,說明一個(gè)解釋變量與其他解釋變量之間有嚴(yán)重的多重共線性。
⑨在“Residuals”框中,選擇“Durbin-Watson”選項(xiàng),判斷相鄰殘差序列的相關(guān)性(截面數(shù)據(jù)一般不存在序列相關(guān)性)。
⑩選擇“Casewise diagnostics”選項(xiàng),要求進(jìn)行樣本奇異值判斷,并在“Outliersoutside”的參數(shù)框中鍵入3,設(shè)置觀測標(biāo)準(zhǔn)差大于等于3的奇異值。
5)點(diǎn)擊“Continue”,返回主對話框。
6)在主對話框中點(diǎn)擊“Plots”按鈕,彈出如圖7-4的對話框,該對話框主要通過圖形進(jìn)行殘差序列分析。

圖7-4:“Plots”對話框
①選取“ZRESID”為Y軸,“ZPRED”為X軸繪制圖形,研究觀測變量的分布規(guī)律、異常值,點(diǎn)擊“Next”可以選擇其他組合進(jìn)行觀測。
②在“Standardized Residual Plots”框中選擇“Histogram”,輸出帶有正態(tài)曲線的標(biāo)準(zhǔn)化殘差的直方圖。
③選擇“Normal probability plot”輸出標(biāo)準(zhǔn)化殘差圖,觀測殘差波動幅度。
7)點(diǎn)擊“Continue”返回主對話框。
8)在主對話框中點(diǎn)擊“Save”按鈕,彈出如圖7-5所示的對話框,該對話框的操作主要是保存一些統(tǒng)計(jì)量值。

圖7-5:“Save”對話框
①在“Predicted Values”框中選擇“Unstandardized”,輸出由方程計(jì)算出的因變量的非標(biāo)準(zhǔn)化預(yù)測值。
②在“Distances”框中,選擇“Mahalanobis”,計(jì)算馬氏距離;選擇“Cook's”,計(jì)算Cook距離;選擇“Leverage values”,計(jì)算中心化杠桿值。由這些距離的計(jì)算找到強(qiáng)影響點(diǎn)和高杠桿點(diǎn)。
③在“Prediction Intervals”框下選擇輸出預(yù)測區(qū)間。選擇“Individual”項(xiàng),將輸出個(gè)別值預(yù)測區(qū)間。
④在“Residuals”框中,選擇“Unstandardized”項(xiàng),輸出非標(biāo)準(zhǔn)化殘差。
⑤通過“Influence Statistics”框中的選項(xiàng),輸出強(qiáng)影響點(diǎn)的統(tǒng)計(jì)量,選擇“DfBeta(s)”觀測因排除一個(gè)特定的觀測值所引起的回歸系數(shù)的變化值。一般情況下,如果此值大于臨界值2/n,則認(rèn)為被排除的觀測值有可能是影響點(diǎn)。
⑥選擇“Save to New File”,將回歸系數(shù)保存在一個(gè)指定的文件中。
⑦選擇“Export model information to XML file”,可將模型的信息輸出到指定的文件夾中。
9)點(diǎn)擊“Continue”按鈕,返回主對話框。
10)在主對話框中點(diǎn)擊“Options”按鈕,彈出如圖7-6所示的對話框。

圖7-6:“Statistics”對話框
①在“Stepping Method Criteria”框中,選擇“Use probability of F”項(xiàng),采用F檢驗(yàn)的概率值作為依據(jù)。系統(tǒng)默認(rèn)的Entry值為0.05, Removal值為0.10。當(dāng)一個(gè)變量的Sig值≤Entry值時(shí),該變量被引入方程,當(dāng)一個(gè)變量的Sig值≥Removal值時(shí),該變量從方程中剔除。
②選擇“Include constant in equation”選項(xiàng),在回歸方程中加入常數(shù)項(xiàng)。
③在“Missing Values”框中,選擇“Exclude cases listwise”項(xiàng),排除缺失值。
11)點(diǎn)擊【Continue】→【OK】,系統(tǒng)輸出全部結(jié)果。
-
結(jié)果分析
從描述統(tǒng)計(jì)表中可以看出,模型因變量飲料需求量和自變量收入、平均氣溫的平均值、方差、個(gè)案數(shù)。
表7-1:描述統(tǒng)計(jì)表
Descriptive Statistics | |||
Mean |
Std. Deviation |
N |
|
罐/(人/年) |
158.21 |
67.367 |
48 |
收入/人 |
16.144 |
3.7748 |
48 |
平均氣溫 |
53.60 |
9.243 |
48 |
從模型變量相關(guān)系數(shù)表中可以看出,飲料需求量、收入、平均氣溫之間的相關(guān)系數(shù)及檢驗(yàn)值,其中各變量之間的相關(guān)系數(shù)顯著性P值均小于0.05,因此相關(guān)關(guān)系顯著。其中,自變量收入與因變量飲料需求量呈負(fù)相關(guān),相關(guān)系數(shù)為-0.334;自變量平均氣溫與因變量飲料需求量呈正相關(guān),相關(guān)系數(shù)為0.685。
表7-2:模型變量相關(guān)系數(shù)表
Correlations | ||||
罐/(人/年) |
收入/人 |
平均氣溫 |
||
Pearson Correlation |
罐/(人/年) |
1.000 |
-.334 |
.685 |
收入/人 |
-.334 |
1.000 |
-.321 |
|
平均氣溫 |
.685 |
-.321 |
1.000 |
|
Sig. (1-tailed) |
罐/(人/年) |
. |
.010 |
.000 |
收入/人 |
.010 |
. |
.013 |
|
平均氣溫 |
.000 |
.013 |
. |
|
N |
罐/(人/年) |
48 |
48 |
48 |
收入/人 |
48 |
48 |
48 |
|
平均氣溫 |
48 |
48 |
48 |
從回歸方法輸入變量表中可以看出,模型采用逐步回歸法(Stepwise),剔除變量收入I,保留變量平均氣溫T。
表7-3:回歸方法輸入變量
Variables Entered/Removeda | |||
Model |
Variables Entered |
Variables Removed |
Method |
1 |
平均氣溫 |
. |
Stepwise (Criteria: Probability-of-F-to-enter <= .050, Probability-of-F-to-remove >= .100). |
a. Dependent Variable: 罐/(人/年) |
從模型摘要表7-4中可以看出,模型的復(fù)相關(guān)系數(shù)R、R2、調(diào)整的R2,調(diào)整后模型解釋度為45.8%,解釋變量與被解釋變量之間線性關(guān)系明顯。F檢驗(yàn)統(tǒng)計(jì)量為40.709,顯著性P值為0.000 < 0.05,因此通過F檢驗(yàn),即認(rèn)為線性回歸整體顯著。其中DW統(tǒng)計(jì)量為2.118,其中當(dāng)k=2(包括截距),n>=45時(shí),dl=1.43,du=1.615。又因?yàn)镈W大于等于du,小于等于4-du。因此可以認(rèn)為隨機(jī)擾動項(xiàng)不存在序列相關(guān)問題。
表7-4:模型摘要
Model Summaryb | ||||||||||
Model |
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
Change Statistics |
Durbin-Watson |
||||
R Square Change |
F Change |
df1 |
df2 |
Sig. F Change |
||||||
1 |
.685a |
.469 |
.458 |
49.598 |
.469 |
40.709 |
1 |
46 |
.000 |
2.118 |
a. Predictors: (Constant), 平均氣溫 | ||||||||||
b. Dependent Variable: 罐/(人/年) |
線性回歸分析不應(yīng)只關(guān)注R方和線性回歸方程,要重視數(shù)據(jù)檢驗(yàn)。首先是ANOVA表,通過ANOVA表中的F檢驗(yàn),我們可以了解線性回歸分析是否具有統(tǒng)計(jì)學(xué)意義。下表為回歸變量的方差分析,其中F檢驗(yàn)的P值為0.000 < 0.05,表明線性關(guān)系整體顯著,即通過F檢驗(yàn),可以認(rèn)為回歸整體線性顯著,具有統(tǒng)計(jì)學(xué)意義。
表7-5:回歸模型方差分析表
ANOVAa | ||||||
Model |
Sum of Squares |
df |
Mean Square |
F |
Sig. |
|
1 |
Regression |
100142.753 |
1 |
100142.753 |
40.709 |
.000b |
Residual |
113159.164 |
46 |
2459.982 |
|||
Total |
213301.917 |
47 |
||||
a. Dependent Variable: 罐/(人/年) | ||||||
b. Predictors: (Constant), 平均氣溫 |
從表7-6中可以得到非標(biāo)準(zhǔn)化的回歸系數(shù)、標(biāo)準(zhǔn)化的回歸系數(shù)、t檢驗(yàn)、顯著性、置信區(qū)間、相關(guān)性等。其中平均氣溫的t檢驗(yàn)顯著性為0.000 < 0.05,說明回歸系數(shù)顯著,通過t檢驗(yàn),其中平均氣溫的95%的置信區(qū)間給出了自變量為(3.418,6.569)的范圍。同時(shí)自變量與因變量相關(guān)系數(shù)為0.685 > 0,說明兩者呈顯著正相關(guān)。從多重共線性檢驗(yàn)的角度看,模型容忍度為1.000 > 0.1,其倒數(shù)為1.000 < 10,因此模型不存在多重共線性問題。
最終,得到模型表達(dá)式為:

表7-6:回歸系數(shù)及t檢驗(yàn)表
Coefficientsa | |||||||||||||
Model |
Unstandardized Coefficients |
Standardized Coefficients |
t |
Sig. |
95.0% Confidence Interval for B |
Correlations |
Collinearity Statistics |
||||||
B |
Std. Error |
Beta |
Lower Bound |
Upper Bound |
Zero-order |
Partial |
Part |
Tolerance |
VIF |
||||
1 |
(Constant) |
-109.486 |
42.563 |
-2.572 |
.013 |
-195.160 |
-23.812 |
||||||
平均氣溫 |
4.994 |
.783 |
.685 |
6.380 |
.000 |
3.418 |
6.569 |
.685 |
.685 |
.685 |
1.000 |
1.000 |
|
a. Dependent Variable: 罐/(人/年) |
從表中可以得到未選入模型的變量I的標(biāo)準(zhǔn)化的回歸系數(shù)、t檢驗(yàn)、顯著性、相關(guān)性、多重共線性檢驗(yàn)等統(tǒng)計(jì)量。其中收入與飲料需求呈負(fù)相關(guān),但收入的t檢驗(yàn)顯著性為0.264 > 0.05,說明回歸系數(shù)不顯著,未通過t檢驗(yàn)。因此不引入變量收入。
表7-7:未選入變量的回歸系數(shù)及t檢驗(yàn)表
Excluded Variablesa | ||||||||
Model |
Beta In |
t |
Sig. |
Partial Correlation |
Collinearity Statistics |
|||
Tolerance |
VIF |
Minimum Tolerance |
||||||
1 |
收入/人 |
-.128b |
-1.132 |
.264 |
-.166 |
.897 |
1.115 |
.897 |
a. Dependent Variable: 罐/(人/年) | ||||||||
b. Predictors in the Model: (Constant), 平均氣溫 |
從下表7-8中可以得到診斷回歸模型的共線性診斷表,從表中可以知道方差比例和條件指數(shù)。從方差比例來看,某個(gè)特征值能夠解釋的方差比例不全都超過50%,因此不存在多重共線性現(xiàn)象。從條件指數(shù)來看,模型解釋變量對應(yīng)的條件指數(shù)都不是很大(均在12以下),這也印證了模型不存在多重共線性現(xiàn)象。
表7-8:共線性診斷表
Collinearity Diagnosticsa | |||||
Model |
Dimension |
Eigenvalue |
Condition Index |
Variance Proportions |
|
(Constant) |
平均氣溫 |
||||
1 |
1 |
1.986 |
1.000 |
.01 |
.01 |
2 |
.014 |
11.806 |
.99 |
.99 |
|
a. Dependent Variable: 罐/(人/年) |
從下表7-9中可以得到回歸模型的殘差統(tǒng)計(jì)表,從表中可以知道預(yù)測因變量、預(yù)測標(biāo)準(zhǔn)差、預(yù)測值的標(biāo)準(zhǔn)誤差、調(diào)整的預(yù)測值等統(tǒng)計(jì)量的最大值、最小值、平均值、方差、個(gè)案數(shù)。
表7-9:殘差統(tǒng)計(jì)表
Residuals Statisticsa | |||||
Minimum |
Maximum |
Mean |
Std. Deviation |
N |
|
Predicted Value |
65.30 |
300.01 |
158.21 |
46.159 |
48 |
Std. Predicted Value |
-2.013 |
3.072 |
.000 |
1.000 |
48 |
Standard Error of Predicted Value |
7.166 |
23.350 |
9.636 |
3.138 |
48 |
Adjusted Predicted Value |
51.91 |
333.05 |
158.59 |
48.659 |
48 |
Residual |
-116.015 |
144.845 |
.000 |
49.068 |
48 |
Std. Residual |
-2.339 |
2.920 |
.000 |
.989 |
48 |
Stud. Residual |
-2.651 |
2.962 |
-.004 |
1.024 |
48 |
Deleted Residual |
-149.050 |
149.031 |
-.382 |
52.740 |
48 |
Stud. Deleted Residual |
-2.849 |
3.257 |
.004 |
1.064 |
48 |
Mahal. Distance |
.002 |
9.438 |
.979 |
1.603 |
48 |
Cook's Distance |
.000 |
1.001 |
.040 |
.151 |
48 |
Centered Leverage Value |
.000 |
.201 |
.021 |
.034 |
48 |
a. Dependent Variable: 罐/(人/年) |
下圖為回歸標(biāo)準(zhǔn)化殘差直方圖,橫軸表示與回歸相聯(lián)系的標(biāo)準(zhǔn)化殘差,縱軸表示殘差的評率,并且右上可以看到標(biāo)準(zhǔn)差和平均值。本題數(shù)據(jù)符合正態(tài)分布假設(shè)。

圖7-7:回歸標(biāo)準(zhǔn)化殘差直方圖
下圖為殘差P-P圖,橫軸是實(shí)測累計(jì)概率,縱軸表示預(yù)期累計(jì)概率。由圖可見所有散點(diǎn)均勻分布在正方形斜對角附近,表明模型滿足隨機(jī)擾動項(xiàng)服從正態(tài)分布這一假設(shè)。

圖7-8:殘差P-P圖
下圖為殘差散點(diǎn)圖,本例中反映了飲料需求作為因變量其散點(diǎn)圖的標(biāo)準(zhǔn)化殘差。以縱軸0點(diǎn)為對稱軸,各散點(diǎn)平均分布在其附近,沒有明顯的偏正或偏負(fù),也沒有表現(xiàn)出明顯的規(guī)律性,因此可以認(rèn)為隨機(jī)擾動項(xiàng)不存在序列相關(guān)和異方差問題。文章來源:http://www.zghlxwxcb.cn/news/detail-468335.html

圖7-9:殘差散點(diǎn)圖文章來源地址http://www.zghlxwxcb.cn/news/detail-468335.html
到了這里,關(guān)于多元線性回歸分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!