溫馨提示:
本文共有9683字,閱讀并理解全文需要半小時左右
一、回歸系數(shù)的解釋
書接上文,上文談到內(nèi)生性的解決之后,我們對回歸問題的探究還沒有完。
比如下面這個問題:
我們說線性回歸他的表達(dá)式可以是廣義的,可以含有二次項(xiàng),可以含有對數(shù)項(xiàng),那么含有對數(shù)項(xiàng)的模型中的β怎么解釋他的具體意義呢?
弄清楚這個問題之前,我們首先要明白什么情況下我們會偏向于對自變量進(jìn)行取對數(shù)的處理:
伍德里奇的《計量經(jīng)濟(jì)學(xué)導(dǎo)論,現(xiàn)代觀點(diǎn)》里,第六章176-177頁有詳細(xì)的論述;
取對數(shù)意味著原被解釋變量對解釋變量的彈性,即百分比的變化而不是數(shù)值的變化;
目前,對于什么時候取對數(shù)還沒有固定的規(guī)則,但是有一些經(jīng)驗(yàn)法則:
- 與市場價值相關(guān)的,例如,價格、銷售額、工資等都可以取對數(shù);
- 以年度量的變量,如受教育年限、工作經(jīng)歷等通常不取對數(shù);
- 比例變量,如失業(yè)率、參與率等,兩者均可;
- 變量取值必須是非負(fù)數(shù),如果包含0,則可以對y取對數(shù)ln(1+y);
取對數(shù)的好處:
- 減弱數(shù)據(jù)的異方差性
- 如果變量本身不符合正態(tài)分布,取 了對數(shù)后可能漸近服從正態(tài)分布
- 模型形式的需要,讓模型具有經(jīng)濟(jì)學(xué)意義。
以下是一些取對數(shù)情況的回歸系數(shù)的解釋:
一元線性回歸:?? = ?? + ???? + ??,x每增加1個單位,y平均變化b個單位:
雙對數(shù)模型:?????? = ?? + ???????? + ??,x每增加1%,y平均變化b%:
半對數(shù)模型:??=a+blnx+μ,x每增加1%,y平均變化b/100個單位:
半對數(shù)模型:??????=a+bx+μ,x每增加1個單位,y平均變化(100b)%:
對于多元回歸模型,我們就加一句“在控制其他變量不變的情況下”,然后逐一的套用上面的話即可。
二、虛擬變量X
如果自變量中有定性變量,例如性別、地域等,在
回歸中要怎么處理呢?
例如:我們要研究性別對于工資的影響(性別歧視)
方法就是將這個變量定義為一個虛擬變量,比如說定義female這個變量表示性別,然后取1表示女性,取0表示男性。
那么如何解釋虛擬變量前面的那個回歸系數(shù)呢?
方法如下圖:
求y對female的期望之后,構(gòu)造出這個回歸變量,即可看出他的意義是:
在其他自變量給定的情況下,女性的平均工資與男性的平均工資的差異。
三、回歸實(shí)例
現(xiàn)有某電商平臺846條關(guān)于嬰幼兒奶粉的銷售信息,每條信息由11個指
標(biāo)組成。其中,評價量可以從一個側(cè)面反映顧客對產(chǎn)品的關(guān)注度。
請對所給數(shù)據(jù)進(jìn)行以下方面的分析,要求最終的分析將不僅僅有益于
商家,更有益于寶媽們?yōu)閷氊愡x擇適合自己的奶粉。
- 以評價量為因變量,分析其它變量和評價量之間的關(guān)系;
- 以評價量為因變量,研究影響評價量的重要因素
一般使用Stata這個軟件進(jìn)行回歸分析比較方便。
關(guān)于Stata這個軟件的安裝有時間我會再寫一篇指導(dǎo)安裝的文章。
詳情請看這篇文章:
【番外】Stata軟件安裝教程
下面我們直接應(yīng)用:
首先我們導(dǎo)入需要的數(shù)據(jù);
點(diǎn)擊“確定”后軟件會產(chǎn)生一行代碼,我們只需把這行代碼復(fù)制到控制臺運(yùn)行即可完成導(dǎo)入。
導(dǎo)入成功的標(biāo)志就是右邊的變量存儲區(qū)會有變量顯示出來:
由于下面的控制臺只負(fù)責(zé)運(yùn)行代碼,而不會保存代碼。所以如果想將代碼保存(就像Matlab的m文件一樣),那么可以照如下操作:
新建一個do文件,在新建的文件中粘貼剛才的代碼,然后保存到你常用的路徑中即可:
下次直接打開該do文件點(diǎn)擊運(yùn)行即可。
那么回到正題,我們將數(shù)據(jù)導(dǎo)入之后做什么呢?
Stata提供了豐富的函數(shù)供我們對數(shù)據(jù)進(jìn)行處理:
Stata數(shù)據(jù)的描述性統(tǒng)計
1.定量數(shù)據(jù)
summarize 變量1 變量2 … 變量n
注:
- 這后面的變量可以手寫,也可以直接雙擊右側(cè)變量區(qū)的變量直接添加
- summarize可以簡寫作sum,后面加變量名,也可以達(dá)到一樣的效果
- 該函數(shù)只適用于對定量數(shù)據(jù),即數(shù)值數(shù)據(jù)進(jìn)行統(tǒng)計描述,一定不能把定性數(shù)據(jù)的變量放進(jìn)去。
- 不要把結(jié)果直接截圖放到論文中。因?yàn)樵谡撐闹袝驗(yàn)榉直媛蕟栴}變得模糊,很影響論文觀感。正確的做法是全選中這里給提供的表格,鼠標(biāo)右擊,點(diǎn)擊”復(fù)制表格“,復(fù)制到Excel中美化一下,然后再復(fù)制到論文中。
2.定性數(shù)據(jù)
tabulate 變量名,gen(A)
返回對應(yīng)的這個變量的頻率分布表,并生成對應(yīng)的虛擬變量(以A開頭)
注:
- 后面的gen(A)可以加可以不加。
- 可以簡寫為tab
如果加上后面的gen(A)是什么效果呢?
我們會發(fā)現(xiàn)統(tǒng)計描述部分并沒有什么區(qū)別,但是再變量存儲區(qū)部分,多了幾個變量:
這些A1,A2等等就是剛剛產(chǎn)生的這些定性變量對應(yīng)的虛擬變量。
我們可以瀏覽一下導(dǎo)入的數(shù)據(jù)來看到產(chǎn)生的變化:
點(diǎn)擊下圖所示的”數(shù)據(jù)瀏覽“按鈕
進(jìn)入到如下界面:
我們可以看到,除了我們的原始數(shù)據(jù)之外,又多了四列變量,分別是A1,A2,A3,A4。他們分別代表的是原先的定性變量”段位“的1段,2段,3段,4段。
何以見得?
比如下圖:
這幾個變量只在相應(yīng)的段位后面顯示1,其余都是0。代表了他們所顯示的段位。結(jié)合我們講過的虛擬變量的定義我們就能很清楚這個關(guān)系了。
3.Stata回歸的語句
regress y x1 x2 … xk
(默認(rèn)使用的OLS:普通最小二乘估計法)
(regress也可以簡寫為reg)
【例】
代碼:regress 評價量 團(tuán)購價元 商品毛重kg
結(jié)果:
- Model:代表的是SSR:回歸平方和
- Residual:代表SSE,誤差平方和
- Total:SST
- df:自由度
- R-squared =1-SSR/SST
- MS=SS/df,是將SS按照自由度平均后的值,這個用的很少,一般不用考慮,一般用的是前面兩項(xiàng)
樣本的個數(shù)n是846個,那么SST的自由度就是n-1=845,SSR對應(yīng)的自由度是等于k,SSE對應(yīng)的自由度是n-k-1。
這個自由度是用來做什么的呢?是最后擬合調(diào)整擬合優(yōu)度的。
這個F(2,843)是一個F統(tǒng)計量構(gòu)造出來的。此F統(tǒng)計量他的第一個自由度是2,第二個自由度是843。實(shí)際上對應(yīng)的就是SSR和SSE的兩個自由度。其檢驗(yàn)值等于15.09。
(你要看一個檢驗(yàn),首先一定要弄清楚這幾個東西:原假設(shè)是什么,構(gòu)造的統(tǒng)計量是什么:F統(tǒng)計量還是什么,還有就是對應(yīng)的檢驗(yàn)值的P值。)
那么此處的H0(原假設(shè))是什么呢?
我們這里有K個自變量,這里的H0就是假設(shè)這K個自變量前面的回歸系數(shù)全部都是0。
假如我們沒有拒絕H0(也就是P值求出來比如說是0.3,他是大于0.05的),那就無法拒絕H0,那次是就要下結(jié)論:無法拒絕原假設(shè),也就是認(rèn)為K個變量的回歸系數(shù)都是0,那此時就認(rèn)為我們的回歸沒有多大意義。因?yàn)榛貧w出來所有的系數(shù)都是0,所以這個模型就沒有任何意義。
而此時我們看我們生成的數(shù)據(jù):P值是0.0000,是明顯小于0.05的,所以此時我們的回歸是有意義的,回歸系數(shù)不全為0。
還有就是這里既有R-squared,也有Adj R-squared,上面已經(jīng)說了R-squared是如何計算的,這個參數(shù)叫做擬合優(yōu)度,在有些情況下我們需要調(diào)整這個擬合優(yōu)度,算出來的改進(jìn)值就是Adj R-squared。
關(guān)于擬合優(yōu)度:
- 回歸分為解釋型回歸和預(yù)測型回歸。 預(yù)測型回歸一般才會更看重
R
2
R^2
R2。
解釋型回歸更多的關(guān)注模型整體顯著性以及自變量的統(tǒng)計顯著性和經(jīng)濟(jì)意義顯著性即可。 - 對于預(yù)測型回歸,如果 R 2 R^2 R2實(shí)在太低,可以對模型進(jìn)行調(diào)整,例如對數(shù)據(jù)取對數(shù)或者平方后再進(jìn)行回歸。
- 數(shù)據(jù)中可能有存在異常值或者數(shù)據(jù)的分布極度不均勻也會導(dǎo)致 R 2 R^2 R2過小
- 補(bǔ)充:關(guān)于擬合優(yōu)度和調(diào)整后的擬合優(yōu)度: 我們引入的自變量越多,擬合優(yōu)度會變大。但我們傾向于使用調(diào)整后的擬合優(yōu)度,如果新引入的自變量對SSE的減少程度特別少,那么調(diào)整后的擬合優(yōu)度反而會減小
什么是預(yù)測型回歸呢?就是你要建立一個模型比如:
y = β ^ 0 + β ^ 1 x 1 + β ^ 1 x 2 + … … + β ^ k x k \begin{align} y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_1x_2+……+\hat{\beta}_kx_k \end{align} y=β^?0?+β^?1?x1?+β^?1?x2?+……+β^?k?xk???
然后我們需要的是你通過模型去預(yù)測每一個y的具體值。這就是預(yù)測型回歸,而解釋型回歸則是要求我們解釋與每個自變量的關(guān)系,就像我們正在處理的這一題一樣。
預(yù)測型回歸更看重 R 2 R^2 R2,如果 R 2 R^2 R2太小,說明這個模型預(yù)測的y和實(shí)際的y相差很大。
而解釋型回歸更看中的是這個擬合模型中變量的顯著性問題。
所以一般在論文中我們一般只用Adj R-squared就可以了。
后面的Root-MSE是均方誤差,這個沒有必要看。
對于下面這張表格:
由于我們的擬合模型是:
y
=
β
^
0
+
β
^
1
x
1
+
β
^
1
x
2
\begin{align} y=\hat{\beta}_0+\hat{\beta}_1x_1+\hat{\beta}_1x_2 \end{align}
y=β^?0?+β^?1?x1?+β^?1?x2???
Coef這一列就是回歸系數(shù)。那么這個表格中的_cons表示的就是
β
^
0
\hat{\beta}_0
β^?0?。
而
β
^
1
\hat{\beta}_1
β^?1?表示的是團(tuán)購價這個變量的回歸系數(shù),就是-35.39873這個值。而商品毛重的回歸系數(shù)就是
β
^
2
\hat{\beta}_2
β^?2?,就是2410.303了。第二列是回歸系數(shù)對應(yīng)的標(biāo)準(zhǔn)誤差。這個標(biāo)準(zhǔn)誤差的作用是構(gòu)造第三列的t統(tǒng)計量的。t統(tǒng)計量就是回歸系數(shù)除以標(biāo)準(zhǔn)誤差構(gòu)造出來的。具體為什么用t檢驗(yàn)統(tǒng)計量,以及這個標(biāo)準(zhǔn)誤差是怎么求的,我之后會單寫一篇文章,這里不做說明。
這里我們只需要知道我們是用t檢驗(yàn)統(tǒng)計量來檢驗(yàn)回歸系數(shù)的就可以了。而后面這一列是t統(tǒng)計量對應(yīng)的P值。
這個值怎么看呢?現(xiàn)在我們有了回歸系數(shù),一般要對這個回歸系數(shù)進(jìn)行顯著性檢驗(yàn):
原假設(shè)是H0:假定
β
1
\beta_1
β1?等于0。(注意,此處我們假定的是
β
1
\beta_1
β1?,而不是
β
^
1
\hat{\beta}_1
β^?1?,因?yàn)?span id="n5n3t3z" class="katex--inline">
β
^
1
\hat{\beta}_1
β^?1?是已知量,就是-35.39873,而
β
1
\beta_1
β1?才是我們要通過
β
^
1
\hat{\beta}_1
β^?1?去估計的量。所以假設(shè)的一定是未知量
β
1
\beta_1
β1?)
然后構(gòu)造出t這個統(tǒng)計量。發(fā)現(xiàn)P值是0.000,顯然小于0.05,所以拒絕原假設(shè),代表在95%置信水平下,該回歸系數(shù)顯著的異于0。
對于
β
2
\beta_2
β2?來說,原假設(shè)也是假定其等于0,而 算出的P值為0.457,顯著的大于0.05,所以我們無法拒絕原假設(shè),也就是說
β
2
\beta_2
β2?是等于0的。所以我們的
β
^
2
\hat{\beta}_2
β^?2?即使等于2411.303這么大也無濟(jì)于事,因?yàn)榧僭O(shè)出來說明他不顯著,分析他也沒有多大的意義。這就是顯著性分析帶給我們的信息,即:把那些不顯著的變量不予考慮。那么照這樣的說法我們可以看出_cons這個變量無疑還是顯著的。
最后這一列是置信區(qū)間,我們一般不太關(guān)注這里的數(shù)值。一般只用前面的回歸系數(shù)即可。
那么上述這些都是對定量數(shù)據(jù)的回歸分析,如何對定量數(shù)據(jù)作定性分析呢?
那么我們可以輸入如下這段帶有定性變量的代碼:regress 評價量 配方
,但是發(fā)現(xiàn)無法運(yùn)行,顯示沒有可用的變量:
這是因?yàn)椤芭浞健笔嵌ㄐ宰兞?,他的變量都是文字類型,無法識別。所以就用到我們剛才講的tabulate函數(shù),將定性變量轉(zhuǎn)化成虛擬變量。然后再用虛擬變量進(jìn)行回歸分析即可。
(小技巧:生成虛擬變量后,在變量窗口中按住Shift不放,可同時選中一列,然后再直接拖動到輸入?yún)^(qū)域)
我們輸入如下代碼: regress 評價量 G1 G2 G3 G4
,然后可看到結(jié)果就出來了。
但是有一行提示:
note: G4 omitted because of collinearity
并且我們看到表中的G4這一項(xiàng)的回歸系數(shù)是0,這是為什么呢?
因?yàn)槎ㄐ宰兞窟@種多變量問題,會存在多重共線性問題,在回歸的時候應(yīng)該挑選變量數(shù)目n-1個變量進(jìn)行回歸分析,而不是把n個全部拿來分析。所以勢必有一個變量就變成了供其他變量進(jìn)行對照的變量。在這里,Stata隨機(jī)選擇了G4作為其他變量的對照變量進(jìn)行回歸分析。也就是Stata會自動檢測數(shù)據(jù)的完全多重共線性問題并幫我們解決。
那么這個表中的數(shù)據(jù)應(yīng)該怎么看呢?
其實(shí)很簡單,每一個變量的回歸系數(shù)已經(jīng)不是絕對的數(shù)值了,而是相對于G4的0來比較的。比如:G1的 -7595.045 其實(shí)是G1-G4的值,除了這個值的來源有變化,其他都和上面所講的是一樣的。
接下來我們就將所有的變量放入回歸分析中:
regress 團(tuán)購價元 評價量 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5
> E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
得到如下的分析結(jié)果:
首先看上半部分是對回歸模型整體的分析,上半部分的右邊那張表是對回歸模型進(jìn)行顯著性檢驗(yàn)。
我們看到F統(tǒng)計量的P值是0.0000,明顯小于0.05。所以說明該統(tǒng)計模型是有意義的。
接下來關(guān)注回歸系數(shù),可以先找一下下面那張表中有哪些回歸系數(shù)是顯著的。
我們可以發(fā)現(xiàn)如下圖框起來的這兩個變量對應(yīng)的回歸系數(shù)的P值較小,團(tuán)購價這一項(xiàng)的P值小于0.05,那么他是在95%的置信水平之下是顯著的,而F1這一項(xiàng)要求放寬一點(diǎn),因?yàn)樗?.05稍大一點(diǎn),基本上滿足在90%的置信水平之下是顯著的。
那么接下來對這些顯著的變量進(jìn)行解釋,不顯著的變量就不用解釋了。
比如“團(tuán)購價”代表:在其他變量不變的情況下,當(dāng)團(tuán)購價每增加一元,會導(dǎo)致評價量平均減少29.77274條。
比如F1代表:由于F1是“分類”里面的“牛奶粉
“的虛擬變量,并且F2是那個因多重共線性忽略的基準(zhǔn)變量,是0。所以F1代表在其他變量不變的情況下,分類為牛奶粉的評價量要比分類為羊奶粉的評價量多14894.55條。
這就是我們這一道題的第一問。
關(guān)于第一問還有一些問題要討論:
我們?nèi)绾伟堰@些生成的回歸參數(shù)的表格放入論文中呢?如果直接放的話可以放在附錄里邊,因?yàn)楸容^冗長。但是實(shí)際上這個表格中很多信息我們是不需要的。此時就可以用Stata自帶的一種函數(shù)生成另一個表格:
由于這個功能其實(shí)是一個插件,所以使用之前需要先安裝。
所以先運(yùn)行以下這行代碼安裝這個功能:
ssc install reg2docx, all replace
如果出現(xiàn)這樣的報錯:
cannot write in directory C:\Users\????\ado
用下面的方式可以解決,親測有效:1.找到你安裝的軟件的文件夾,里面有ado、docs等文件夾。
2.檢查ado文件夾里面有沒有puls子文件夾,沒有的話建立一個。
3.打開stata,創(chuàng)建一個do文檔,輸入下面的命令。
sysdir set PLUS " plus文件夾的路徑 " // 外部命令的存放位置 并將該do文檔保存到安裝軟件的文件夾里面(與ado、docs等文件夾并列),命名為profile.do
4.創(chuàng)新打開stata,下載命令。
安裝好之后運(yùn)行如下代碼:
//下面這一行就是回歸的語句,如果之前運(yùn)行過,此處可以不重復(fù)運(yùn)行
regress 評價量 團(tuán)購價元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
//下面這行語句是把上面回歸產(chǎn)生的結(jié)果保存到名為m2的文件中
est store m2
//下面這行語句是把m2文件中的內(nèi)容用我們剛剛安裝的那個插件reg2docx 來重新處理生成一張我們想要的表格
reg2docx m2 using m2.docx, replace
代碼運(yùn)行完之后如圖所示:
我們點(diǎn)擊紅色框中部分打開生成的表格:
打開后全選,先點(diǎn)擊宋體,然后點(diǎn)擊”New Time Romans“,這樣就可以把所有的漢字變?yōu)樗误w,所有的英文變?yōu)镹ew Time Romans,然后我們在表格的結(jié)尾加這么一句話:*** p<0.01 ** p<0.05 * p<0.1
來有效的展現(xiàn)出顯著性水平的區(qū)分。
這張表比剛才那張表要簡潔許多,我們可以直接放在附錄中。
OK,到此為止我們開始討論第二問:
看題目要求就是要確定這些變量之間誰最重要。那就需要運(yùn)用到另一種回歸:就是標(biāo)準(zhǔn)化回歸。
什么是標(biāo)準(zhǔn)化回歸?
簡單來說就是去量綱后的回歸(因?yàn)槟阋容^不同變量之間的顯著性的大小,那么帶著量綱怎么比,所以先把量綱去掉,然后再比較)
官話:為了更為精準(zhǔn)的研究影響評價量的重要因素(去除量綱的影響),我們可考慮使用標(biāo)準(zhǔn)化回歸系數(shù)。
那么如何進(jìn)行標(biāo)準(zhǔn)化回歸呢?
對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,就是將原始數(shù)據(jù)減去它的均數(shù)后,再除以該變量的標(biāo)準(zhǔn)差,計算得到新的變量值,新變量構(gòu)成的回歸方程稱為標(biāo)準(zhǔn)化回歸方程,回歸后相應(yīng)可得到標(biāo)準(zhǔn)化回歸系數(shù)。 標(biāo)準(zhǔn)化系數(shù)的絕對值越大,說明對因變量的影響就越大(只關(guān)注顯著的回歸系數(shù)哦,不顯著的我們沒必要進(jìn)行比較)
那如何在Stata中實(shí)現(xiàn)標(biāo)準(zhǔn)化回歸呢?
Stata標(biāo)準(zhǔn)化回歸命令
regress y x1 x2 … xk,beta
(1)為什么常數(shù)項(xiàng)沒有標(biāo)準(zhǔn)化回歸系數(shù)?
常數(shù)的均值是其本身,其標(biāo)準(zhǔn)差是0,求不出來標(biāo)準(zhǔn)化的數(shù)。
(2)為啥和之前的回歸結(jié)果完全相同,除了多了最后那一列標(biāo)準(zhǔn)化回歸系數(shù)?
對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理不會影響回歸系數(shù)的標(biāo)準(zhǔn)誤,也不會影響顯著性.
那么我們在原來的回歸代碼基礎(chǔ)上演示一遍標(biāo)準(zhǔn)化回歸:
寫入代碼:
regress 評價量 團(tuán)購價元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4,beta
得到如下的表格:
可以發(fā)現(xiàn)后邊多了一行Beta值,其余的和之前的表格沒有任何差別。
我們只需要看顯著的自變量即可(此處只有兩個變量是顯著的,就是“團(tuán)購價格”和“F1”)
團(tuán)購價格對應(yīng)的Beta系數(shù)的絕對值是0.15,而F1對應(yīng)的Beta的絕對值是0.06。
因?yàn)?.06<0.15,所以可以看出“團(tuán)購價”是影響更顯著的那個變量。
最終全部代碼如下:
?// 按鍵盤上的PageUp可以使用上一次輸入的代碼(Matleb中是上箭頭)
// 清除所有變量
clear
// 清屏 和 matlab的clc類似
cls
// 導(dǎo)入數(shù)據(jù)(其實(shí)是我們直接在界面上粘貼過來的,我們用鼠標(biāo)點(diǎn)界面導(dǎo)入更方便 本條請刪除后再復(fù)制到論文中,如果評委老師看到了就知道這不是你寫的了)
// import excel "C:\Users\hc_lzp\Desktop\數(shù)學(xué)建模\第7講.多元回歸分析\代碼和例題數(shù)據(jù)\課堂中講解的奶粉數(shù)據(jù).xlsx", sheet("Sheet1") firstrow
import excel "課堂中講解的奶粉數(shù)據(jù).xlsx", sheet("Sheet1") firstrow
// 定量變量的描述性統(tǒng)計
summarize 團(tuán)購價元 評價量 商品毛重kg
// 定性變量的頻數(shù)分布,并得到相應(yīng)字母開頭的虛擬變量
tabulate 配方,gen(A)
tabulate 奶源產(chǎn)地 ,gen(B)
tabulate 國產(chǎn)或進(jìn)口 ,gen(C)
tabulate 適用年齡歲 ,gen(D)
tabulate 包裝單位 ,gen(E)
tabulate 分類 ,gen(F)
tabulate 段位 ,gen(G)
// 下面進(jìn)行回歸
regress 評價量 團(tuán)購價元 商品毛重kg
// 下面的語句可幫助我們把回歸結(jié)果保存在Word文檔中
// 在使用之前需要運(yùn)行下面這個代碼來安裝下這個功能包(運(yùn)行一次之后就可以注釋掉了)
// ssc install reg2docx, all replace
// 如果安裝出現(xiàn)connection timed out的錯誤,可以嘗試換成手機(jī)熱點(diǎn)聯(lián)網(wǎng),如果手機(jī)熱點(diǎn)也不能下載,就不用這個命令吧,可以自己做一個回歸結(jié)果表,如果覺得麻煩就直接把回歸結(jié)果截圖。
est store m1
reg2docx m1 using m1.docx, replace
// *** p<0.01 ** p<0.05 * p<0.1
// Stata會自動剔除多重共線性的變量
regress 評價量 團(tuán)購價元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
est store m2
reg2docx m2 using m2.docx, replace
// 得到標(biāo)準(zhǔn)化回歸系數(shù)
regress 評價量 團(tuán)購價元 商品毛重kg, b
// 畫出殘差圖
regress 評價量 團(tuán)購價元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4
rvfplot
// 殘差與擬合值的散點(diǎn)圖
graph export a1.png ,replace
// 殘差與自變量團(tuán)購價的散點(diǎn)圖
rvpplot 團(tuán)購價元
graph export a2.png ,replace
// 為什么評價量的擬合值會出現(xiàn)負(fù)數(shù)?
// 描述性統(tǒng)計并給出分位數(shù)對應(yīng)的數(shù)值
summarize 評價量,d
// 作評價量的概率密度估計圖
kdensity 評價量
graph export a3.png ,replace
// 異方差BP檢驗(yàn)
estat hettest ,rhs iid
// 異方差懷特檢驗(yàn)
estat imtest,white
// 使用OLS + 穩(wěn)健的標(biāo)準(zhǔn)誤
regress 評價量 團(tuán)購價元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r
est store m3
reg2docx m3 using m3.docx, replace
// 計算VIF
estat vif
// 逐步回歸(一定要注意完全多重共線性的影響)
// 向前逐步回歸(后面的r表示穩(wěn)健的標(biāo)準(zhǔn)誤)
stepwise reg 評價量 團(tuán)購價元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pe(0.05)
// 向后逐步回歸(后面的r表示穩(wěn)健的標(biāo)準(zhǔn)誤)
stepwise reg 評價量 團(tuán)購價元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r pr(0.05)
// 向后逐步回歸的同時使用標(biāo)準(zhǔn)化回歸系數(shù)(在r后面跟上一個b即可)
stepwise reg 評價量 團(tuán)購價元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3, r b pr(0.05)
// 補(bǔ)充語法 (大家不需要具體的去學(xué)Stata軟件,掌握我課堂上教給大家的一些命令應(yīng)對數(shù)學(xué)建模比賽就可以啦)
// 事實(shí)上大家學(xué)好Excel,學(xué)好后應(yīng)對90%的數(shù)據(jù)預(yù)處理問題都能解決
// (1) 用已知變量生成新的變量
generate lny = log(評價量)
generate price_square = 團(tuán)購價元 ^2
generate interaction_term = 團(tuán)購價元*商品毛重kg
// (2) 修改變量名稱,因?yàn)橛弥形拿兞棵Q有時候可能容易出現(xiàn)未知Bug
rename 團(tuán)購價元 price
// 注意:代碼文件僅供參考,一定不要直接用于自己的數(shù)模論文中
// 國賽對于論文的查重要求非常嚴(yán)格,代碼雷同也算作抄襲
在運(yùn)行以下幾步時又延伸出一個問題:
// 定量變量的描述性統(tǒng)計
summarize 團(tuán)購價元 評價量 商品毛重kg
// 定性變量的頻數(shù)分布,并得到相應(yīng)字母開頭的虛擬變量
tabulate 配方,gen(A)
tabulate 奶源產(chǎn)地 ,gen(B)
tabulate 國產(chǎn)或進(jìn)口 ,gen(C)
tabulate 適用年齡歲 ,gen(D)
tabulate 包裝單位 ,gen(E)
tabulate 分類 ,gen(F)
tabulate 段位 ,gen(G)
運(yùn)行完這段之后我們就把需要分析的所有定性變量,定量變量都描述分析完了,并且生成了對應(yīng)的虛擬變量。
如何把這些數(shù)據(jù)放入論文中呢?如果把他們都復(fù)制到論文中,顯得太過冗余(因?yàn)檎娴暮芏啵?,一種辦法是放在附錄中,還有一種辦法是用Excel進(jìn)行畫圖,用這種簡練的方式把所有的數(shù)據(jù)呈現(xiàn)出來,既美觀又顯得豐富。
這個我會在另一篇文章里介紹怎么用Excel畫數(shù)據(jù)透視圖。
【番外】利用Excel表格繪制數(shù)據(jù)透視圖文章來源:http://www.zghlxwxcb.cn/news/detail-424621.html
這一期就到這里啦?。?!
下一期再演示一個例題!?。?span toymoban-style="hidden">文章來源地址http://www.zghlxwxcb.cn/news/detail-424621.html
到了這里,關(guān)于【數(shù)學(xué)建模筆記】【第七講】多元線性回歸分析(二):虛擬變量的設(shè)置以及交互項(xiàng)的解釋,以及基于Stata的普通回歸與標(biāo)準(zhǔn)化回歸分析實(shí)例的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!