首先,讀取數(shù)據(jù)集,該數(shù)據(jù)集是UCI上的心臟病患者數(shù)據(jù)集,其中包含了 303 條患者信息,每一名患者有 13 個(gè)字段記錄其基本信息(年齡、性別等)和身體健康信息(心率、血糖等),此外有一個(gè)類(lèi)變量記錄其是否患有心臟病。詳細(xì)的字段信息可見(jiàn)?此處。
類(lèi)別字段target
有兩個(gè)取值,代表預(yù)測(cè)類(lèi)別,1 = 患病,2 = 不患病。
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-803911.html
2.訓(xùn)練/測(cè)試集劃分
對(duì)數(shù)據(jù)集進(jìn)行劃分,設(shè)置劃分比例為訓(xùn)練集 : 測(cè)試集 = 4 : 1。
由于數(shù)據(jù)集的同一類(lèi)標(biāo)簽集中在一起,我們選擇分組抽樣選項(xiàng),依據(jù)target
字段進(jìn)行分組,合理劃分?jǐn)?shù)據(jù)集。
3.構(gòu)建K近鄰心臟病患者分類(lèi)模型
構(gòu)建K近鄰分類(lèi)模型,將target
作為我們的標(biāo)簽列,其余各字段均作為模型的特征列。選擇計(jì)算的鄰居個(gè)數(shù)為8,權(quán)重計(jì)算方式為distance
,以及設(shè)置距離計(jì)算方式為manhattan
距離(街區(qū)距離)。
參數(shù)列表
參數(shù)名稱(chēng) | 參數(shù)取值 |
---|---|
鄰居數(shù) | 8 |
權(quán)重計(jì)算方式 | distance |
距離計(jì)算方式 | manhattan |
?
4.Z-Score標(biāo)準(zhǔn)化
對(duì)age
、trestbps
、chol
、thalach
、oldpeak
進(jìn)行標(biāo)準(zhǔn)化處理,將不同量級(jí)的數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一量度,提高數(shù)據(jù)可比性。
age | sex | cp | trestbps | chol | fbs | restecg | thalach | exang | oldpeak | slope | ca | thal | target |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
1.350138 | 1 | 2 | 1.129702 | -0.622046 | 0 | 0 | 0.008235 | 0 | -0.196701 | 1 | 0 | 3 | 0 |
-0.174618 | 1 | 2 | -0.128305 | 0.023539 | 1 | 0 | 1.004711 | 0 | -0.890351 | 2 | 3 | 2 | 1 |
0.696671 | 1 | 3 | 0.100423 | -0.204315 | 0 | 1 | -0.20839 | 0 | 1.364011 | 1 | 2 | 2 | 0 |
-1.045907 | 1 | 1 | -0.24267 | 1.200782 | 0 | 0 | 0.874736 | 0 | -0.890351 | 2 | 0 | 2 | 1 |
-0.501351 | 1 | 0 | 0.672245 | -0.8499 | 0 | 0 | -1.031565 | 1 | -0.109995 | 1 | 0 | 3 | 0 |
特征 | 均值 | 標(biāo)準(zhǔn)差 |
---|---|---|
age | 54.603306 | 9.1818 |
trestbps | 132.243802 | 17.487967 |
chol | 244.760331 | 52.665406 |
thalach | 149.809917 | 23.081356 |
oldpeak | 1.02686 | 1.15332 |
5.各字段基本統(tǒng)計(jì)信息
讀取數(shù)據(jù)表后,對(duì)各個(gè)數(shù)據(jù)字段統(tǒng)計(jì)基本信息,包括樣本數(shù)量、均值、標(biāo)準(zhǔn)差、最大最小值和上下四分位數(shù)等。
可以看出,讀取的數(shù)據(jù)表均為數(shù)值型字段。從這里可以發(fā)現(xiàn),各字段的樣本數(shù)均為 303 ,說(shuō)明無(wú)缺失值;此外。許多字段如sex
、cp
、fbs
、restecg
、exang
、slope
、ca
和thal
,其上下四分位數(shù)、中位數(shù)和最大最小值的取值有很大的重復(fù),結(jié)合數(shù)據(jù)集詳情頁(yè)的統(tǒng)計(jì)信息,說(shuō)明其為離散型數(shù)值字段;其余字段如age
、trestbps
等為連續(xù)型變量,在后期可以進(jìn)行標(biāo)準(zhǔn)化處理。
age | sex | cp | trestbps | chol | fbs | restecg | thalach | exang | oldpeak | slope | ca | thal | target | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
樣本數(shù) | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 | 303 |
均值 | 54.3663366337 | 0.6831683168 | 0.9669966997 | 131.6237623762 | 246.2640264026 | 0.1485148515 | 0.5280528053 | 149.6468646865 | 0.3267326733 | 1.0396039604 | 1.399339934 | 0.7293729373 | 2.3135313531 | 0.5445544554 |
標(biāo)準(zhǔn)差 | 9.0821009898 | 0.4660108233 | 1.0320524895 | 17.5381428135 | 51.8307509879 | 0.3561978749 | 0.5258595964 | 22.9051611149 | 0.4697944645 | 1.1610750221 | 0.6162261453 | 1.022606365 | 0.6122765073 | 0.4988347842 |
最小值 | 29 | 0 | 0 | 94 | 126 | 0 | 0 | 71 | 0 | 0 | 0 | 0 | 0 | 0 |
下四分位數(shù) | 47.5 | 0 | 0 | 120 | 211 | 0 | 0 | 133.5 | 0 | 0 | 1 | 0 | 2 | 0 |
中位數(shù) | 55 | 1 | 1 | 130 | 240 | 0 | 1 | 153 | 0 | 0.8 | 1 | 0 | 2 | 1 |
上四分位數(shù) | 61 | 1 | 2 | 140 | 274.5 | 0 | 1 | 166 | 1 | 1.6 | 2 | 1 | 3 | 1 |
最大值 | 77 | 1 | 3 | 200 | 564 | 1 | 2 | 202 | 1 | 6.2 | 2 | 4 | 3 | 1 |
6.年齡分布直方圖
選取age
字段畫(huà)出直方圖??梢钥闯?,大多數(shù)患者年齡在38歲以上,說(shuō)明心臟病的主要患病人群是中老年人。
?
選取target
字段畫(huà)出餅圖,可以看出,該數(shù)據(jù)集中患有心臟病的人群比例較高,但兩個(gè)類(lèi)別的樣本數(shù)量相差不大。
?
對(duì)K近鄰模型進(jìn)行評(píng)估。使用的方法主要為分類(lèi)報(bào)告、混淆矩陣和ROC曲線(xiàn)。
可以看到,我們構(gòu)建的K近鄰模型的分類(lèi)性能較為良好,總體分類(lèi)正確率(accuracy)達(dá)到0.87,macor avg F1-score
能達(dá)到0.87,正類(lèi)樣本的召回率(Recall)能達(dá)到0.94,ROC_AUC
值為0.88。
分類(lèi)報(bào)告(classification report)
標(biāo)簽 | 精確率(Precision) | 召回率(Recall) | F1值(F1-score) |
---|---|---|---|
0 | 0.92 | 0.79 | 0.85 |
1 | 0.84 | 0.94 | 0.89 |
accuracy | 0.87 | 0.87 | 0.87 |
macro avg | 0.88 | 0.86 | 0.87 |
weighted avg | 0.87 | 0.87 | 0.87 |
混淆矩陣(confusion matrix)
?
?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-803911.html
到了這里,關(guān)于基于數(shù)據(jù)挖掘機(jī)器學(xué)習(xí)的心臟病患者分類(lèi)建模與分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!