第一節(jié)
主成分的計(jì)算步驟:1、主成分建模,標(biāo)準(zhǔn)化處理。2、計(jì)算特征根、特征向量。3、選取主成分個(gè)數(shù)。
題目
?選擇B,依次遞減。
?相關(guān)系數(shù)和關(guān)聯(lián)矩陣都做了標(biāo)準(zhǔn)化,做完標(biāo)準(zhǔn)化后方差就不會(huì)造成影響,所以選A。
?A可以進(jìn)行判斷,雖然沒講過但是可以。BC是正常概念。D沒說過。
?主成分就是一種降維方法,將本來可能相關(guān)的變量轉(zhuǎn)化為不相關(guān)的變量。所以選D
?變量之間的相關(guān)性;行和列沒啥關(guān)系,行變量關(guān)系是聚類了。
?高度相關(guān),本來主成分分析就是將相關(guān)轉(zhuǎn)為不相關(guān)。
?A是因子分析,它尋找的是公共因子和特殊因子。B應(yīng)該是最大方向。C保留K個(gè)主成分是對的,但是主成分的特征根是單個(gè)就要大于1了。
主成分之間不相關(guān)。?
如果X與Y是統(tǒng)計(jì)獨(dú)立的,那么二者之間的協(xié)方差就是0,因?yàn)閮蓚€(gè)獨(dú)立的隨機(jī)變量滿足E[XY]=E[X]E[Y]。
但是,反過來并不成立。即如果X與Y的協(xié)方差為0,二者并不一定是統(tǒng)計(jì)獨(dú)立的。
?A,記。
C
ABC記;D錯(cuò)
?
?答案是B,AC好理解,D記。
正交旋轉(zhuǎn)是因子分析做的。BC;特征值分解=奇異值分解。?
?ABC;主成分分析不能用于數(shù)據(jù)分類。
第二節(jié)
主成分分析是組合的過程,因子分析是分解的過程。
因子旋轉(zhuǎn)分為正交旋轉(zhuǎn)和斜交旋轉(zhuǎn)。
題目
?變量越相關(guān),kmo越大,取值在0到1之間。D
D。因子分析應(yīng)該是把變量表示成因子的線性組合;因子由變量表示,題目反過來了,成了主成分分析。
C,主成分和因子分析都需要做標(biāo)準(zhǔn)化。
?
?主成分--因子旋轉(zhuǎn)--公共因子。C
B
?D
A,做降維肯定小于變量個(gè)數(shù)。?
第三節(jié)
題目
模型的表現(xiàn)與變量是非遞減,反正要么不變要么增。但是測試集的變化都有可能。
D,邏輯回歸是極大似然的對數(shù)。
直接寫回歸一般指定線性回歸。
回歸問題比分類分類問題復(fù)雜。有監(jiān)督學(xué)習(xí)是有y的,無監(jiān)督是沒y的?;貧w問題使用R方;分類問題才用混淆矩陣和ROC曲線。
提示,如果在回歸前面不加邏輯回歸就指線性回歸。多元回歸指線性回歸。
D
邏輯回歸可以是連續(xù)變量。B
線性回歸Y是連續(xù)變量,邏輯回歸y是分類變量。
肯定能解決多重共線性,不然模型不穩(wěn)定。
A
輸出的y是logit,因此在計(jì)算得y后,還要進(jìn)行邏輯回歸的計(jì)算:概率p=1/(1+exp(-logit))。
A
ABC,y是二分類。
第四節(jié)
多重共線性,變量與變量間還存在相關(guān)性。
殘差平方和是指被解釋變量觀測值總變差中未被列入模型的解釋變量。
R2是指回歸平方和占總離差平方和的比重。
線性回歸分析的前提假設(shè)包括:
- 解釋變量之間不完全相關(guān)
- 隨機(jī)項(xiàng)滿足正態(tài)分布
- 解釋變量與隨機(jī)項(xiàng)不相關(guān)
- 隨機(jī)項(xiàng)序列不相關(guān)
題目
方差不能變化。D
擬合程度一定使用R2。B
B
A,極大似然也可以。
A肯定不一樣啊,多元和一元不一樣,參數(shù)過程;參數(shù)過程也不太一樣。步驟是一樣的。復(fù)雜度肯定不一樣。C
C;n*p;n是樣本量,p是個(gè)數(shù);階數(shù)是變量的個(gè)數(shù)。一般k,p是變量個(gè)數(shù);n是樣本量。
滿秩,所有變量肯定都是線性無關(guān)!C
D,其他三個(gè)都不行。
ACD都可以,選B;
A
A
公式越復(fù)雜,越容易過擬合和欠擬合。A
D
BCD都可以,knn是臨界聚類,不能解決。
A起碼留一個(gè)才對;B對;CD都可以。
初設(shè)為0;A
ESS是殘差平方和。C
B
C;X是解釋變量;Y是被解釋變量;
C,概念。
概念D。
恒定均值就是一條線。不需要回歸。A
C
D,個(gè)人理解的自相關(guān),前面變量的數(shù)據(jù)會(huì)給后面的數(shù)據(jù)造成影響。
B
大于10就不行了,多重共線性很嚴(yán)重。D
回歸殘差和的自由度,就是變量的個(gè)數(shù)。C
加變量,R2肯定變大,本來就是遞增的。AD
連續(xù)變量不能用眾數(shù)來補(bǔ),可以用中位數(shù)。ABC
自變量是不可控的,因變量是隨機(jī)的。比如x是年齡什么的。y是根據(jù)x改變的。ACD
ABCD
第五節(jié)
聚類的基本邏輯:從n個(gè)觀察值k個(gè)屬性開始,對觀察值進(jìn)行兩兩觀察。將相離最近的觀測聚為一類,將距離遠(yuǎn)的分為不同的類。最終達(dá)到組間的距離最大化,組內(nèi)的距離最小化。
系統(tǒng)聚類:可以幫助做分類決策,比較直觀,但是不適合做大樣本數(shù)據(jù)。
k-means:可以處理大樣本,缺點(diǎn)是K不確定,這個(gè)超參數(shù)需要經(jīng)驗(yàn)判斷。
標(biāo)準(zhǔn)化,化為同一單位,盡量相同權(quán)值。
需要主成分分析,主要要處理異常值。
K-means聚類過程
- 設(shè)定K值,確定聚類數(shù)(軟件隨機(jī)分配聚類中心所需的種子):。
- 計(jì)算每個(gè)記錄到類中心的距離(歐式),并分成K類
- 然后把K類中心(均值),作為新的中心,重新計(jì)算距離
- 迭代到收斂標(biāo)準(zhǔn)停止(最小二乘準(zhǔn)則)
題目
需要進(jìn)行標(biāo)準(zhǔn)化,統(tǒng)一量綱。需要進(jìn)行預(yù)處理。k不能自動(dòng)確定。D,要先進(jìn)行啞變量轉(zhuǎn)換,轉(zhuǎn)成數(shù)字。選A
K-means對異常值非常敏感。C
題目說需要建立用戶畫像,所有要用聚類算法。如果題目說是為了用戶留存之類的,要用回歸,那么就用邏輯回歸。
C
肯定要做標(biāo)準(zhǔn)化,主成分分析可實(shí)現(xiàn)降維,有用,但是因子分析涵蓋了前面AB,所有選C
聚類是無監(jiān)督,分類是有監(jiān)督。
C
D,會(huì)把最近的一個(gè)點(diǎn)。
D
AB
組間的距離最大化,組內(nèi)的距離最小化。AD
AB
第六節(jié)
winter模型用于趨勢成分和季節(jié)成分序列的預(yù)測。holt模型用于對線性趨勢預(yù)測。分解法可用于時(shí)間序列同時(shí)含趨勢、季節(jié)、隨機(jī)變動(dòng)成分。與winter相似
arma判斷:
題目
C
季節(jié)變動(dòng)、循環(huán)變動(dòng)、不規(guī)則變動(dòng)、趨勢變動(dòng)。D
C
A? ?
B? ?
B? ?
C??
?D。自回歸就是自己預(yù)測自己,時(shí)間序列數(shù)據(jù)必須有平穩(wěn)性,如果沒有,那么要做差分。關(guān)注誤差項(xiàng)的累計(jì)是MA模型。AR模型是關(guān)注自身和上一項(xiàng)的關(guān)系,即yt=yt-1.
在衰退0附近時(shí),不超過兩倍標(biāo)準(zhǔn)差時(shí),為d階截尾。A
AC文章來源地址http://www.zghlxwxcb.cn/news/detail-699781.html
文章來源:http://www.zghlxwxcb.cn/news/detail-699781.html
AC
到了這里,關(guān)于第五章 數(shù)據(jù)分析模型 題目學(xué)習(xí)(40%)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!