定義明晰
中短期預(yù)測(短期:1年內(nèi);中期:2-5年):例如天氣預(yù)報、股票價格預(yù)測、銷售量預(yù)測等。
長期預(yù)測(5-10年及以上):例如人口增長、能源消耗、氣候變化等。
一、擬合、插值預(yù)測
中短期預(yù)測????????? 數(shù)據(jù)需求小2/10/100
自變量(多個)+因變量(一個)?????????? 不可反推
1.插值與擬合之間的區(qū)別?
插值:原則上曲線要通過圖像中給出的點
擬合:原則上不需要經(jīng)過圖像中的任何一個點,只要保證與各點的距離總體足夠小即可
2.插值的主要方法?
①分段線性插值:把已知相鄰的兩個點連起來,預(yù)測中間的值,但是用來預(yù)測未來的值誤差極大
②三次樣條插值:如有韌性的木條,光滑曲線,可以顯著降低月誤差,但是總體不如高階的擬合
3.擬合的主要方法?
①最小二乘法:圖像上與散點的y值相差平方和最小的一個解法,最為方便,也比較可信
②卡爾曼濾波、進階最小二乘、高次函數(shù)擬合…
【附】matlab插值實現(xiàn):
插值點:在一個已知的數(shù)據(jù)點集合中,我們希望通過某種方法來估計或推斷出其他位置的數(shù)值。
被插值點:我們希望獲得插值結(jié)果的位置。
【附1】一維插值
yi = interp1(x,y,xi,'method')
%x,y為插值點,xi,yi為被插值點和結(jié)果,x,y和xi,yi通常為向量
%'method'表示插值方法:常用的有'nearest''linear''spline''cubic'
%spline:三次樣條插值,構(gòu)造三次多項式進行差值
【代碼示范】
x=[1,2,3,4,5];
y=[1,2,3,4,5];
xi=1:0.5:5;
yi = interp1(x,y,xi,'spline');
【附2】二維插值
zi = interp2(x,y,z,xi,yi,'method')
%x,y,z為插值點,xi,yi為被插值點,zi為輸出的插值結(jié)果,即插值函數(shù)在(xi,yi)處的值;x,y為向量,xi,yi為向量或矩陣,z和zi為矩陣
%'method'表示插值方法:常用的有'nearest''linear''spline''cubic'
'nearest'表示最近鄰插值,即用最近的已知點的值來估計未知點的值。
'linear'表示線性插值,即用兩個最近的已知點之間的線性函數(shù)來估計未知點的值。
'spline'表示樣條插值,即用一組光滑的多項式函數(shù)來逼近已知點,并在這些函數(shù)之間進行插值。
'cubic'表示三次樣條插值,是樣條插值的一種特殊情況,其中每個多項式函數(shù)都是三次的。
【代碼示范】
x = 1:5;
y = 1:3;
temps = [82 80 81 82 84;79 63 61 65 81;84 84 82 85 86];
xi = 1:.2:5;
yi = 1:.2:3;
zi = interp2(x,y,temps,xi',yi,'spline');
mesh(xi,yi,zi)
二、線性回歸
中短期預(yù)測????????? 數(shù)據(jù)需求中10/100/1000
自變量(多個)+因變量(一個)?????????? 可反推
- 簡單線性回歸:一個自變量和一個因變量(線性,一&一)
- 多元線性回歸:多個自變量和一個因變量(線性,多&一)
- 嶺回歸(L2正則化):系數(shù)縮小,減小過擬合(解決過擬合,系數(shù)縮小)
- lasso(L1正則化):一些系數(shù)變?yōu)?,特征選擇(解決過擬合,系數(shù)為0)
- 局部加權(quán)線性回歸:非參數(shù)回歸方法(非線性)
【補充】 “非參數(shù)”指的是該方法不需要對模型的形式、參數(shù)等進行假設(shè),而是通過對每個測試點周圍的訓(xùn)練點進行加權(quán)來進行預(yù)測。
線性回歸每一個樣本對應(yīng)相同的回歸系數(shù)??易欠擬合
局部加權(quán)線性回歸每一個樣本都有一個自己的回歸系數(shù)??擬合度好但計算量大
適用場景:數(shù)據(jù)集小、其他模型欠擬合
- 多項式回歸:數(shù)據(jù)升維+線性回歸(非線性)
?????? 數(shù)據(jù)升維后增加了特征,有利于解決欠擬合問題
局部加權(quán)線性回歸與多項式回歸之間的區(qū)別?
多項式回歸適用于解決欠擬合問題。
局部加權(quán)線性回歸則更適用于解決過擬合問題。
同時,還可以考慮使用正則化方法(如嶺回歸和Lasso回歸)
三、時間序列模型
中短期預(yù)測????????? 數(shù)據(jù)需求小12/36/60
因變量(一個)(時間序列數(shù)據(jù))??????????? 不可反推
- 具有明顯的季節(jié)性:季節(jié)分解
- 沒有季節(jié)性但具有平穩(wěn)趨勢:指數(shù)平滑
- 沒趨勢&沒季節(jié)性:簡單平滑
- 有趨勢&沒季節(jié)性:線性關(guān)系:Holt線性趨勢模型
??????????????????????????? ?非線性關(guān)系:阻尼趨勢模型(非線性關(guān)系)
- 沒趨勢&有季節(jié)性:簡單季節(jié)性
- 有趨勢&有季節(jié)性:溫特趨勢
- 具有復(fù)雜趨勢和季節(jié)性:ARIMA模型
四、Logistic回歸(邏輯回歸)
長期預(yù)測????????????? 數(shù)據(jù)需求中10/100/1000
自變量(多個)+因變量(一個)?????????? 不可反推
要求:①變量之間的相關(guān)性需要比較小????????? ②樣本的個數(shù)需要大于三倍自變量個數(shù)
缺點:容易欠擬合,一般準(zhǔn)確度不太高
應(yīng)用: 最經(jīng)典的是:葡萄酒規(guī)劃的問題上(好多因變量共同評價葡萄酒的品質(zhì))
補充:①邏輯回歸結(jié)果很差情況下,決策樹一般會比較好解決,適合少量樣本多維特征情況
②可以考慮降維方法之后再用邏輯回歸
③在有很多因變量的時候,可以用主成分分析或者聚類分析來減少自變量
五、神經(jīng)網(wǎng)絡(luò)預(yù)測
長期預(yù)測????????????? 數(shù)據(jù)需求大50/500/5000
自變量(多個)+因變量(一個)?????????? 可反推
重點在于大量數(shù)據(jù)和異常值&缺失值的處理(重點!避免簡單刪除替換)
1.交代清楚輸入輸出&迭代次數(shù)、學(xué)習(xí)率等超參數(shù)
2.神經(jīng)網(wǎng)絡(luò)層數(shù)和結(jié)點數(shù)
3.評價標(biāo)準(zhǔn)很重要(準(zhǔn)確率,損失函數(shù),穩(wěn)定性…)
六、微分方程預(yù)測
中短期預(yù)測????????? 數(shù)據(jù)需求小2/10/100
因變量(一個)(微分方程的解)??????????? 不可反推
找不到數(shù)據(jù)之間的關(guān)系,但是能找到變化量之間的關(guān)系的時候用
七、灰色預(yù)測
中短期預(yù)測????????? 數(shù)據(jù)需求小4/10/50
因變量(一個)????????? 不可反推
理論性不強,沒法論證,能不用就不用,數(shù)據(jù)量非常少的時候可以考慮
八、馬爾科夫鏈預(yù)測
中短期預(yù)測????????? 數(shù)據(jù)需求中10/100/1000
因變量(一個)(狀態(tài)轉(zhuǎn)移)??????????? 不可反推文章來源:http://www.zghlxwxcb.cn/news/detail-773128.html
序列之間前后傳遞比較少的,數(shù)據(jù)和數(shù)據(jù)之間隨機性比較強(比如今明天的氣溫沒有直接聯(lián)系,只能從趨勢判斷后天溫度是多少)文章來源地址http://www.zghlxwxcb.cn/news/detail-773128.html
到了這里,關(guān)于數(shù)學(xué)建?!A(yù)測類模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!