第一部分:回歸分析的介紹
定義:回歸分析是數(shù)據(jù)分析中最基礎(chǔ)也是最重要的分析工具,絕大多數(shù)的數(shù)據(jù)分析問(wèn)題,都可以使用回歸的思想來(lái)解決?;貧w分析的人數(shù)就是,通過(guò)研究自變量X和因變量Y的相關(guān)關(guān)系,嘗試去解釋Y的形成機(jī)制,進(jìn)而達(dá)到通過(guò)X去預(yù)測(cè)Y的目的。
常見的回歸分析有五類:線性回歸,0-1回歸,定序回歸,計(jì)數(shù)回歸和生存回歸,其劃分的依據(jù)是因變量Y的類型。本講我么你主要學(xué)習(xí)線性回歸。
回歸的思想:
第一個(gè)關(guān)鍵詞:相關(guān)性
相關(guān)性!= 因果性,我們不能因?yàn)槌鰞烧哂邢嚓P(guān)性就得出兩者是由因果關(guān)系的。
第二個(gè)關(guān)鍵詞:Y
第三個(gè)關(guān)鍵詞是:X
0-1回歸的例子(0-1回歸的例子一般只有兩個(gè)答案所以Y只有兩個(gè)值來(lái)表示)
回歸分析的使命:
第二部分:不同數(shù)據(jù)類型的處理方法
?
數(shù)據(jù)的分類:
-
橫截面數(shù)據(jù)
?
?2.?時(shí)間序列數(shù)據(jù):
3.?面板數(shù)據(jù)
-
-
? ??? ? ?不同數(shù)據(jù)類型的處理方法:
-
第三部分:對(duì)于線性回歸的理解以及生性問(wèn)題的研究
一元線性回歸:
存在擾動(dòng)項(xiàng):yi-y^i=yi-B^0-B^1xi
-
對(duì)于線性的理解:
回歸系數(shù)的解釋:
關(guān)于內(nèi)生性的探究:
擾動(dòng)項(xiàng)與所有的自變量不存在相關(guān)性的時(shí)候則模型具有外生性。因此我們需要對(duì)模型的自變量與擾動(dòng)項(xiàng)求其相關(guān)性。
內(nèi)生性的蒙特卡洛模擬:
Matlab實(shí)操:
?
核心解釋變量和控制變量
對(duì)于我們想要求取的因素當(dāng)作變量,其余的因素可以看作擾動(dòng)項(xiàng)。
第四部分:四種模型的解釋,與你變量的設(shè)置以及交互項(xiàng)的解釋
回歸系數(shù)的解釋:
什么時(shí)候取對(duì)數(shù)?
四種模型的回歸系數(shù)解釋:
?
特殊的自變量:虛擬變量、
對(duì)于定性變量我們可以用數(shù)字來(lái)進(jìn)行表示如女性為1,男性為0.
?
多分類的虛擬變量:
為了避免完全多重共線性的影響,引入的虛擬變量的個(gè)數(shù)一般是分類數(shù)減1.
還有交互項(xiàng)(兩個(gè)自變量相乘)的自變量
第五部分:案列引入
Stata軟件的介紹:
文件導(dǎo)入:
?
Stata中一些函數(shù)的作用:// 按鍵盤上的PageUp可以使用上一次輸入的代碼(Matlab中是上箭頭) // 清除所有變量 clear // 清屏 和 matlab的clc類似 cls // 導(dǎo)入數(shù)據(jù)(其實(shí)是我們直接在界面上粘貼過(guò)來(lái)的,我們用鼠標(biāo)點(diǎn)界面導(dǎo)入更方便 本條請(qǐng)刪除后再?gòu)?fù)制到論文中,如果評(píng)委老師看到了就知道這不是你寫的了) // import excel "C:\Users\hc_lzp\Desktop\數(shù)學(xué)建模視頻錄制\第7講.多元回歸分析\代碼和例題數(shù)據(jù)\課堂中講解的奶粉數(shù)據(jù).xlsx", sheet("Sheet1") firstrow import excel "課堂中講解的奶粉數(shù)據(jù).xlsx", sheet("Sheet1") firstrow // 定量變量的描述性統(tǒng)計(jì) summarize 團(tuán)購(gòu)價(jià)元 評(píng)價(jià)量 商品毛重kg // 定性變量的頻數(shù)分布,并得到相應(yīng)字母開頭的虛擬變量 tabulate 配方,gen(A) tabulate 奶源產(chǎn)地 ,gen(B) tabulate 國(guó)產(chǎn)或進(jìn)口 ,gen(C) tabulate 適用年齡歲 ,gen(D) tabulate 包裝單位 ,gen(E) tabulate 分類 ,gen(F) tabulate 段位 ,gen(G) // 下面進(jìn)行回歸 regress 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg // 下面的語(yǔ)句可幫助我們把回歸結(jié)果保存在Word文檔中 // 在使用之前需要運(yùn)行下面這個(gè)代碼來(lái)安裝下這個(gè)功能包(運(yùn)行一次之后就可以注釋掉了) // ssc install reg2docx, all replace // 如果安裝出現(xiàn)connection timed out的錯(cuò)誤,可以嘗試換成手機(jī)熱點(diǎn)聯(lián)網(wǎng),如果手機(jī)熱點(diǎn)也不能下載,就不用這個(gè)命令吧,可以自己做一個(gè)回歸結(jié)果表,如果覺得麻煩就直接把回歸結(jié)果截圖。 est store m1 reg2docx m1 using m1.docx, replace // *** p<0.01? ** p<0.05 * p<0.1 // Stata會(huì)自動(dòng)剔除多重共線性的變量 regress 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4 est store m2 reg2docx m2 using m2.docx, replace // 得到標(biāo)準(zhǔn)化回歸系數(shù) regress 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg, b // 畫出殘差圖 regress 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4 rvfplot // 殘差與擬合值的散點(diǎn)圖 graph export a1.png ,replace // 殘差與自變量團(tuán)購(gòu)價(jià)的散點(diǎn)圖 rvpplot? 團(tuán)購(gòu)價(jià)元 graph export a2.png ,replace // 為什么評(píng)價(jià)量的擬合值會(huì)出現(xiàn)負(fù)數(shù)? // 描述性統(tǒng)計(jì)并給出分位數(shù)對(duì)應(yīng)的數(shù)值 summarize 評(píng)價(jià)量,d // 作評(píng)價(jià)量的概率密度估計(jì)圖 kdensity 評(píng)價(jià)量 graph export a3.png ,replace // 異方差BP檢驗(yàn) estat hettest ,rhs iid // 異方差懷特檢驗(yàn) estat imtest,white // 使用OLS + 穩(wěn)健的標(biāo)準(zhǔn)誤 regress 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A2 A3 B1 B2 B3 B4 B5 B6 B7 B8 B9 C1 C2 D1 D2 D3 D4 D5 E1 E2 E3 E4 F1 F2 G1 G2 G3 G4, r est store m3 reg2docx m3 using m3.docx, replace // 計(jì)算VIF estat? vif // 逐步回歸(一定要注意完全多重共線性的影響) // 向前逐步回歸(后面的r表示穩(wěn)健的標(biāo)準(zhǔn)誤) stepwise reg 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,? r pe(0.05) // 向后逐步回歸(后面的r表示穩(wěn)健的標(biāo)準(zhǔn)誤) stepwise reg 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,? r pr(0.05) // 向后逐步回歸的同時(shí)使用標(biāo)準(zhǔn)化回歸系數(shù)(在r后面跟上一個(gè)b即可) stepwise reg 評(píng)價(jià)量 團(tuán)購(gòu)價(jià)元 商品毛重kg A1 A3 B1 B2 B3 B4 B5 B6 B7 B9 C1 D1 D2 D3 D4 E1 E2 E3 F1 G1 G2 G3,? r b pr(0.05) // 補(bǔ)充語(yǔ)法 (大家不需要具體的去學(xué)Stata軟件,掌握我課堂上教給大家的一些命令應(yīng)對(duì)數(shù)學(xué)建模比賽就可以啦) // 事實(shí)上大家學(xué)好Excel,學(xué)好后應(yīng)對(duì)90%的數(shù)據(jù)預(yù)處理問(wèn)題都能解決 // (1) 用已知變量生成新的變量 generate lny = log(評(píng)價(jià)量)? generate price_square = 團(tuán)購(gòu)價(jià)元 ^2 generate interaction_term = 團(tuán)購(gòu)價(jià)元*商品毛重kg // (2) 修改變量名稱,因?yàn)橛弥形拿兞棵Q有時(shí)候可能容易出現(xiàn)未知Bug rename 團(tuán)購(gòu)價(jià)元 price
-
案列中的各指標(biāo)介紹:
Stata中的回歸語(yǔ)句:
表中的Model對(duì)應(yīng)SSR,Residual對(duì)應(yīng)SSE,Total對(duì)應(yīng)SST
Df(自由度)那一列分別是:k,n-k-1,n-1。
看prob若<0.1(假設(shè)為90%)通過(guò)。
擬合優(yōu)度較低怎么辦:
擬合出現(xiàn)負(fù)值的原因:
標(biāo)準(zhǔn)化回歸系數(shù):
Stata標(biāo)準(zhǔn)化回歸命令:
?
第六部分異方差多重共線性以及交互項(xiàng)的解釋:
擾動(dòng)項(xiàng)要滿足的條件:、
異方差以及如何解決:
檢驗(yàn)異方差:
擬合值出現(xiàn)負(fù)數(shù)的原因
擬合值分布不均勻,R^2過(guò)小,出現(xiàn)負(fù)數(shù)。
異方差的假設(shè)性檢驗(yàn):
BP檢驗(yàn)的結(jié)果:
懷特檢驗(yàn):
異方差的處理方法:
Stata中的OLS+穩(wěn)健的標(biāo)準(zhǔn)誤
多重共線性:
檢驗(yàn):
處理:
逐步回歸分析
Stata中的逐步回歸分析的實(shí)現(xiàn):
?
?
?
完全多重共線性的錯(cuò)誤:
更新:
Lasso回歸
由于數(shù)據(jù)中的一些自變量會(huì)導(dǎo)致模型出現(xiàn)共線性,所以利用Losso回歸將一些不重要的自變量剔除掉。
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-642704.html
Losso回歸的實(shí)現(xiàn)我們利用stata操作:
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-642704.html
我們拿棉花產(chǎn)量估計(jì)作為案例
?
對(duì)于自變量量綱不同,需要標(biāo)準(zhǔn)化。
Stata中將數(shù)據(jù)標(biāo)準(zhǔn)化的函數(shù)為:egen 重命名 = 需要標(biāo)準(zhǔn)化的自變量。(本案例的量綱相同,只是舉如何標(biāo)準(zhǔn)化例子)
?
如何用stata進(jìn)行l(wèi)asso回歸呢?
?
最后stata會(huì)生成一個(gè)數(shù)據(jù)表,和一個(gè)表格。
數(shù)據(jù)表解析:
數(shù)據(jù)表中帶*的表示λmin,MSPEmin。即我們最小調(diào)參數(shù)
?
表格分析:
Selected表示核心自變量
Lasso表示Lasso估計(jì)的x系數(shù)與估計(jì)值。
Past-est OLS:標(biāo)準(zhǔn)多元線性回歸的x系數(shù)與估計(jì)值。
Lasso只幫助我們剔除可能會(huì)產(chǎn)生多重共線性的自變量xi,在生成多元線性回歸模型時(shí)我們?nèi)赃x擇標(biāo)準(zhǔn)多元回歸模型的參數(shù)。
注意:seed后隨意數(shù)的不同,核心變量也會(huì)相對(duì)發(fā)生改變。
?
Lasso回歸使用:幫助我們?cè)趯?duì)數(shù)據(jù)建立多元線性回歸模型時(shí)篩選出不重要的變量。
步驟:1.判斷自變量量綱是否一樣,若不一樣需要標(biāo)準(zhǔn)化預(yù)處理
2.對(duì)變量使用lasso回歸,系數(shù)不為0的變量即要留下的重要變量。
?
?
到了這里,關(guān)于數(shù)學(xué)建?!嘣€性回歸分析(+lasso回歸的操作)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!