全文鏈接:https://tecdat.cn/?p=34827
在房地產(chǎn)市場中,準(zhǔn)確地預(yù)測房屋價格是至關(guān)重要的。過去幾十年來,隨著數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)的快速發(fā)展,各種預(yù)測模型被廣泛應(yīng)用于房屋價格預(yù)測中。而R語言作為一種強(qiáng)大的數(shù)據(jù)分析和統(tǒng)計建模工具,被越來越多的研究者和從業(yè)者選擇用于房屋價格預(yù)測(點擊文末“閱讀原文”獲取完整代碼數(shù)據(jù))。
相關(guān)視頻
本文將介紹幫助客戶使用R語言軟件進(jìn)行房屋價格預(yù)測的幾種常見方法,包括回歸、LASSO、決策樹、隨機(jī)森林、GBM、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)。通過這些方法的比較和分析,我們將探討它們在房屋價格(查看文末了解數(shù)據(jù)免費獲取方式)預(yù)測中的優(yōu)勢和不足,并通過可視化的方式展示它們的預(yù)測結(jié)果。
首先讀取數(shù)據(jù)。
data=read.csv("Amsing.csv")
?查看原始數(shù)據(jù)(直接從Ames評估辦公室獲得)用于稅務(wù)評估目的,但本身直接預(yù)測房屋售價。
?首先查看部分?jǐn)?shù)據(jù),以觀看數(shù)據(jù)中有哪些變量。
head(data)
獲取數(shù)據(jù)的基本統(tǒng)計量。
summary(data)
對房屋面積進(jìn)行可視化,可以讓我們對房屋的面積有一個直觀的影響,從而也可以排除掉一部分異常點的影響。
從可視化結(jié)果來看,可以發(fā)現(xiàn)數(shù)據(jù)中存在較多的異常數(shù)據(jù)??赡軙绊懞罄m(xù)的預(yù)測過程,因此將它們?nèi)コ?/p>
查看數(shù)據(jù)結(jié)構(gòu)
通過查看數(shù)據(jù)結(jié)構(gòu),我們可以了解到,哪些數(shù)據(jù)是數(shù)值變量比如房屋面積,總體質(zhì)量建立年份,哪些數(shù)據(jù)是因此變量比如街道,土地坡度,房屋狀況,哪些數(shù)據(jù)的因子有哪些。
str(data)
繪制相關(guān)散點圖
通過繪制相關(guān)散點圖,我們可以查看數(shù)值變量之間存在哪些關(guān)系?
點擊標(biāo)題查閱往期內(nèi)容
線性回歸和時間序列分析北京房價影響因素可視化案例
左右滑動查看更多
01
02
03
04
看變量之間的相關(guān)系數(shù),我們可以找到相關(guān)性高的變量:
從相關(guān)系數(shù)和散點圖來看,我們可以看到,房屋價格 和房屋的總體質(zhì)量,建立年份,房屋面積,房屋層高 等變量存在相關(guān)關(guān)系。
?
然后我們查看數(shù)據(jù)中是否存在共線性問題
kappa(corr, exact = T)
查看變量之間的boxplot圖
正如我們從不同變量之間的箱線圖和上面的房屋銷售價格中看到的,高銷售價格的房屋有更多的臥室、浴室和車庫。
正如我們從房屋售價和質(zhì)量之間的箱線圖上看到的,高售價房屋的質(zhì)量更高。
提取訓(xùn)練集,測試集
indices = sample(nrow(data), nrow(data)*0.7)
回歸模型 linear regression
從回歸模型的結(jié)果來看,我們可以看到部分變量是顯著的,說明他們對房屋的價格,有很大的影響。顯著的變量有車庫面積,走廊,浴池,總體質(zhì)量,房屋層高等等。從R方的結(jié)果來看,R方等于93%,因此,模型解釋了房屋價格大部分的方差,可以說模型的擬合效果非常良好
殘差表現(xiàn)來看模型的擬合好壞
左上方的圖是一個散點圖,用于表示擬合值和殘差的關(guān)系。從圖中可以看到,除了第二個異常值外,其余所有點都在縱坐標(biāo)值-1和+1之間隨機(jī)分布。
接下來的圖是一個散點圖,表示擬合值的標(biāo)準(zhǔn)化偏差和殘差的關(guān)系,其意義與上述相似。右上方的圖顯示隨機(jī)誤差項服從正態(tài)分布,這是因為正態(tài)QQ圖可以近似視為一條直線。
右下方的圖進(jìn)一步證實了第二個觀察值是一個異常值,它對回歸方程的影響相對較大。
lasso?模型
在建立lasso模型之后,我們繪制誤差變化圖
繪制系數(shù)變化圖
LASSO回歸復(fù)雜度調(diào)整的程度由參數(shù)λ來控制,λ越大對變量較多的線性模型的懲罰力度就越大,從而最終獲得一個變量較少的模型。因此誤差最小的點對應(yīng)選取log(lamda)=9為最優(yōu)模型。
regression? trees?回歸樹模型
擬合模型
繪制決策樹
從結(jié)果來看,房屋的價格主要受到總體質(zhì)量,走廊,房屋層高,車庫等因素影響
一般來說,車庫面積越大,總體質(zhì)量越高,層高越高,那么價格就越高
然后通過得到的決策樹模型進(jìn)行預(yù)測得到誤差
random forests?隨機(jī)森林模型
模型結(jié)果
從隨機(jī)森林模型的結(jié)果來看, 一共生成了五百個隨機(jī)樹,房屋價格的方差被解釋了76.75%
得到變量,重要性結(jié)果
從結(jié)果來看,可以得到和決策樹類似的結(jié)論,可以看到,房屋建立的年份,以及車庫面積房屋層高等因素對房屋的價格都有重要的影響。
對變量的重要性進(jìn)行可視化
在得到模型之后,對測試集進(jìn)行預(yù)測,并且得到誤差
GBM模型
從模型結(jié)果來看,可以得到和決策樹隨機(jī)森林類似的結(jié)果。上面是相對重要性變量的圖,可以看到建立年份,車庫面積,房屋層高對房屋的價格有重要的影響
neural??? network?神經(jīng)網(wǎng)絡(luò)
建立神經(jīng)網(wǎng)絡(luò)模型
從結(jié)果來看,得到一個三層的神經(jīng)網(wǎng)絡(luò)以及641個神經(jīng)元,得到的結(jié)果已經(jīng)完全converged。因此模型擬合較好,所以對測試集進(jìn)行預(yù)測,并且得到誤差結(jié)果
SVM模型
?用svm建立分類模型
使用回歸核函數(shù)數(shù)據(jù)進(jìn)行支持,向量機(jī)建模
從結(jié)果來看,可以得到它的最優(yōu)參數(shù)以及支持向量的個數(shù)124個。在得到模型結(jié)果后,對測試集進(jìn)行預(yù)測,并且得到誤差結(jié)果。
總結(jié)評估
在對數(shù)據(jù)進(jìn)行六個模型建模后,分別得到了每個模型的誤差結(jié)果,然后我們將所有的誤差結(jié)果進(jìn)行匯總,并且比較每個模型的優(yōu)劣。
測試誤差:隨機(jī)森林最小,回歸次之,其他模型較大。準(zhǔn)確度:隨機(jī)森林最優(yōu),但訓(xùn)練復(fù)雜。效率:回歸模型較高。解釋度:決策樹模型可解釋,神經(jīng)網(wǎng)絡(luò)不可解釋。其他模型需提高準(zhǔn)確度。綜上,推薦隨機(jī)森林預(yù)測房屋價格。
數(shù)據(jù)獲取
在公眾號后臺回復(fù)“房價數(shù)據(jù)”,可免費獲取完整數(shù)據(jù)。
本文中分析的數(shù)據(jù)分享到會員群,掃描下面二維碼即可加群!
點擊文末“閱讀原文”
獲取全文完整代碼數(shù)據(jù)資料。
本文選自《R語言軟件對房屋價格預(yù)測:回歸、LASSO、決策樹、隨機(jī)森林、GBM、神經(jīng)網(wǎng)絡(luò)和SVM可視化》。
點擊標(biāo)題查閱往期內(nèi)容
數(shù)據(jù)分享|R語言邏輯回歸、線性判別分析LDA、GAM、MARS、KNN、QDA、決策樹、隨機(jī)森林、SVM分類葡萄酒交叉驗證ROC
R語言貝葉斯廣義線性混合(多層次/水平/嵌套)模型GLMM、邏輯回歸分析教育留級影響因素數(shù)據(jù)
邏輯回歸Logistic模型原理R語言分類預(yù)測冠心病風(fēng)險實例
數(shù)據(jù)分享|用加性多元線性回歸、隨機(jī)森林、彈性網(wǎng)絡(luò)模型預(yù)測鮑魚年齡和可視化
R語言高維數(shù)據(jù)懲罰回歸方法:主成分回歸PCR、嶺回歸、lasso、彈性網(wǎng)絡(luò)elastic net分析基因數(shù)據(jù)(含練習(xí)題)
Python中LARS和Lasso回歸之最小角算法Lars分析波士頓住房數(shù)據(jù)實例
R語言Bootstrap的嶺回歸和自適應(yīng)LASSO回歸可視化
R語言Lasso回歸模型變量選擇和糖尿病發(fā)展預(yù)測模型
R語言實現(xiàn)貝葉斯分位數(shù)回歸、lasso和自適應(yīng)lasso貝葉斯分位數(shù)回歸分析
基于R語言實現(xiàn)LASSO回歸分析
R語言用LASSO,adaptive LASSO預(yù)測通貨膨脹時間序列
R語言自適應(yīng)LASSO 多項式回歸、二元邏輯回歸和嶺回歸應(yīng)用分析
R語言懲罰logistic邏輯回歸(LASSO,嶺回歸)高維變量選擇的分類模型案例
Python中的Lasso回歸之最小角算法LARS
r語言中對LASSO回歸,Ridge嶺回歸和彈性網(wǎng)絡(luò)Elastic Net模型實現(xiàn)
r語言中對LASSO回歸,Ridge嶺回歸和Elastic Net模型實現(xiàn)
R語言實現(xiàn)LASSO回歸——自己編寫LASSO回歸算法
R使用LASSO回歸預(yù)測股票收益
python使用LASSO回歸預(yù)測股票收益
文章來源:http://www.zghlxwxcb.cn/news/detail-831916.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-831916.html
到了這里,關(guān)于R語言軟件對房屋價格預(yù)測:回歸、LASSO、決策樹、隨機(jī)森林、GBM、神經(jīng)網(wǎng)絡(luò)和SVM可視化|數(shù)據(jù)分享...的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!