機(jī)器學(xué)習(xí)算法基礎(chǔ)--邏輯回歸簡(jiǎn)單處理mnist數(shù)據(jù)集項(xiàng)目

2年前作者：溫柔濟(jì)滄海分類：Toy博客閱讀(24)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了機(jī)器學(xué)習(xí)算法基礎(chǔ)--邏輯回歸簡(jiǎn)單處理mnist數(shù)據(jù)集項(xiàng)目。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1.項(xiàng)目背景介紹

2.Mnist數(shù)據(jù)導(dǎo)入

3.數(shù)據(jù)標(biāo)簽提取且劃分?jǐn)?shù)據(jù)集

4.數(shù)據(jù)特征標(biāo)準(zhǔn)化

5.模型建立與訓(xùn)練

6.后驗(yàn)概率判斷及預(yù)測(cè)

7.處理模型閾值及準(zhǔn)確率

8.閾值分析的可視化繪圖

9.模型精確性的評(píng)價(jià)標(biāo)準(zhǔn)

1.項(xiàng)目背景介紹

"""
MNIST數(shù)據(jù)集是美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院收集整理的大型手寫(xiě)數(shù)字?jǐn)?shù)據(jù)集，包含了60,000個(gè)樣本的訓(xùn)練集以及10,000個(gè)樣本的測(cè)試集。
在這里我們給出個(gè)10000個(gè)數(shù)據(jù)集，以下我們就來(lái)簡(jiǎn)單地介紹以下這個(gè)數(shù)據(jù)集:
首先每一張mnist數(shù)據(jù)集圖片都是由28x28的灰度值組成的，我們?cè)趀xcel中對(duì)于一張圖片，采用一行784列才存儲(chǔ)一張圖片的灰度值。
所以我們10000個(gè)數(shù)據(jù)就有10000x784列數(shù)據(jù)所組成。

今天我們的任務(wù)就是通過(guò)邏輯回歸做一個(gè)二分類的問(wèn)題，給圖片進(jìn)行分類，劃分成是否是5/或者其他的數(shù)據(jù)。

"""

2.Mnist數(shù)據(jù)導(dǎo)入

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt
from sklearn.metrics import accuracy_score
# 讀取CSV文件
data = pd.read_csv('mnist-demo.csv')
data.head()#大部分的灰度值都為0

機(jī)器學(xué)習(xí)算法基礎(chǔ)--邏輯回歸簡(jiǎn)單處理mnist數(shù)據(jù)集項(xiàng)目,機(jī)器學(xué)習(xí)算法基礎(chǔ),機(jī)器學(xué)習(xí),算法,邏輯回歸

3.數(shù)據(jù)標(biāo)簽提取且劃分?jǐn)?shù)據(jù)集

# 提取特征和標(biāo)簽
X = data.drop('label', axis=1).values
y = data['label']
y_binary = (y == 5).astype(int)

4.數(shù)據(jù)特征標(biāo)準(zhǔn)化

# 特征標(biāo)準(zhǔn)化
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

5.模型建立與訓(xùn)練

# 訓(xùn)練邏輯回歸模型
model = LogisticRegression(max_iter=1000)
model.fit(X_train_scaled, y_train)

6.后驗(yàn)概率判斷及預(yù)測(cè)

# 預(yù)測(cè)概率
proba = model.predict_proba(X_test_scaled)
#根據(jù)后驗(yàn)概率進(jìn)行決策差別還是比較大的
proba
%%
# 預(yù)測(cè)
predictions = model.predict(X_test_scaled)
#0表示不是5，1表示是5
predictions

7.處理模型閾值及準(zhǔn)確率

#閾值表示的是分類的決策面，如果prob>threhold,選擇第一類，如果prob<=threhold，選擇第二類
# 設(shè)置閾值
threshold_box=[0,0.05,0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,0.95,1] 
Accuracy=np.zeros(13)
for i  in range(len(threshold_box)):
    threshold =threshold_box[i]
    predictions = (proba[:, 1] > threshold).astype(int)
    # 計(jì)算準(zhǔn)確率
    Accuracy[i] = accuracy_score(y_test, predictions)
    print("閾值為{}時(shí)，模型的準(zhǔn)確率為:{}".format(threshold,Accuracy[i]))

8.閾值分析的可視化繪圖

#matplotlib不支持中文，我們需要添加以下的代碼
# 支持中文
plt.rcParams['font.sans-serif'] = ['SimHei'] # 用來(lái)正常顯示中文標(biāo)簽
plt.rcParams['axes.unicode_minus'] = False # 用來(lái)正常顯示負(fù)號(hào)

plt.scatter(threshold_box,Accuracy,color='r',label='Accuracy')
plt.ylim(0,1)
plt.title("不同閾值的準(zhǔn)確率變化圖")
plt.ylabel("模型分類準(zhǔn)確率")
plt.xlabel("模型閾值")
plt.legend(loc=5,ncol=5,edgecolor='y')
plt.savefig(r"C:\Users\Zeng Zhong Yan\Desktop\不同閾值的準(zhǔn)確率變化圖.png",dpi=500)

機(jī)器學(xué)習(xí)算法基礎(chǔ)--邏輯回歸簡(jiǎn)單處理mnist數(shù)據(jù)集項(xiàng)目,機(jī)器學(xué)習(xí)算法基礎(chǔ),機(jī)器學(xué)習(xí),算法,邏輯回歸文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-731095.html

9.模型精確性的評(píng)價(jià)標(biāo)準(zhǔn)

我們給出以下的概念:
真陽(yáng)性（True Positive，簡(jiǎn)稱TP），也就是預(yù)測(cè)為真，實(shí)際上也為真的數(shù)據(jù).
假陽(yáng)性（False Positive，簡(jiǎn)稱FP），也就是預(yù)測(cè)為真，但實(shí)際上為假的數(shù)據(jù).
假陰性（False Negative，簡(jiǎn)稱FN），也就是預(yù)測(cè)為假，但實(shí)際上為真的數(shù)據(jù).
真陰性（True Negative，簡(jiǎn)稱TN），也就是預(yù)計(jì)為假，實(shí)際上也為假的數(shù)據(jù).

我們給出混淆矩陣的定義:
Confusion matrix=[[TP,FP],[FN,PN]]

我們同時(shí)給出幾個(gè)評(píng)價(jià)指標(biāo):
1.準(zhǔn)確率:所有的預(yù)測(cè)正確（正類負(fù)類）的占總的比重.
  Accuray=(TP+TN)/(TP+TN+FP+FN)
2.精確率:正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例.
  Precision=TP/(TP+FP)
3.召回率:即正確預(yù)測(cè)為正的占全部實(shí)際為正的比例.
  Recall=TP/(TP+FN)
4.F-score:
  F-score=(2*Precision*Recall)/(Precision+Recall)

到了這里，關(guān)于機(jī)器學(xué)習(xí)算法基礎(chǔ)--邏輯回歸簡(jiǎn)單處理mnist數(shù)據(jù)集項(xiàng)目的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

機(jī)器學(xué)習(xí)：邏輯回歸模型算法原理（附案例實(shí)戰(zhàn)）
作者：i阿極作者簡(jiǎn)介：Python領(lǐng)域新星作者、多項(xiàng)比賽獲獎(jiǎng)?wù)撸翰┲鱾€(gè)人首頁(yè) ??????如果覺(jué)得文章不錯(cuò)或能幫助到你學(xué)習(xí)，可以點(diǎn)贊??收藏??評(píng)論??+關(guān)注哦！?????? ??????如果有小伙伴需要數(shù)據(jù)集和學(xué)習(xí)交流，文章下方有交流學(xué)習(xí)區(qū)！一起學(xué)習(xí)進(jìn)步！?? 訂閱專欄案
2024年01月20日
瀏覽(29)
機(jī)器學(xué)習(xí)算法（一）: 基于邏輯回歸的分類預(yù)測(cè)
邏輯回歸的介紹邏輯回歸（Logistic regression，簡(jiǎn)稱LR）雖然其中帶有\(zhòng)\\"回歸\\\"兩個(gè)字，但邏輯回歸其實(shí)是一個(gè) 分類模型，并且廣泛應(yīng)用于各個(gè)領(lǐng)域之中。雖然現(xiàn)在深度學(xué)習(xí)相對(duì)于這些傳統(tǒng)方法更為火熱，但實(shí)則這些傳統(tǒng)方法由于其獨(dú)特的優(yōu)勢(shì)依然廣泛應(yīng)用于各個(gè)領(lǐng)域中。而對(duì)于
2024年01月15日
瀏覽(32)
機(jī)器學(xué)習(xí)算法：線性回歸、邏輯回歸、決策樹(shù)和隨機(jī)森林解析
引言機(jī)器學(xué)習(xí)算法是人工智能領(lǐng)域的核心，它們用于解決各種問(wèn)題，從預(yù)測(cè)房?jī)r(jià)到圖像分類。本博客將深入探討四種常見(jiàn)的機(jī)器學(xué)習(xí)算法：線性回歸、邏輯回歸、決策樹(shù)和隨機(jī)森林。線性回歸什么是線性回歸？線性回歸是一種用于建立連續(xù)數(shù)值輸出的機(jī)器學(xué)習(xí)模型的算法。
2024年02月10日
瀏覽(77)
【AI底層邏輯】——篇章5（上）：機(jī)器學(xué)習(xí)算法之回歸&分類
目錄引入一、何為機(jī)器學(xué)習(xí) 1、定規(guī)則和學(xué)規(guī)則 2、算法的定義
2024年02月16日
瀏覽(25)
機(jī)器學(xué)習(xí)：基于梯度下降算法的邏輯回歸實(shí)現(xiàn)和原理解析
當(dāng)涉及到二元分類問(wèn)題時(shí)，邏輯回歸是一種常用的機(jī)器學(xué)習(xí)算法。它不僅簡(jiǎn)單而且有效，通常是入門(mén)機(jī)器學(xué)習(xí)領(lǐng)域的第一步。本文將介紹邏輯回歸的基本概念、原理、應(yīng)用場(chǎng)景和代碼示例。邏輯回歸是一種用于解決二元分類問(wèn)題的統(tǒng)計(jì)學(xué)習(xí)方法。盡管其名稱中包含\\\"回歸\\\"一詞
2024年02月09日
瀏覽(30)
python機(jī)器學(xué)習(xí)——分類模型評(píng)估 & 分類算法（k近鄰，樸素貝葉斯，決策樹(shù)，隨機(jī)森林，邏輯回歸，svm）
交叉驗(yàn)證：為了讓被評(píng)估的模型更加準(zhǔn)確可信交叉驗(yàn)證：將拿到的數(shù)據(jù)，分為訓(xùn)練和驗(yàn)證集。以下圖為例：將數(shù)據(jù)分成5份，其中一份作為驗(yàn)證集。然后經(jīng)過(guò)5次(組)的測(cè)試，每次都更換不同的驗(yàn)證集。即得到5組模型的結(jié)果，取平均值作為最終結(jié)果。又稱5折交叉驗(yàn)證。通常情
2024年02月03日
瀏覽(31)
機(jī)器學(xué)習(xí)之回歸算法-邏輯回歸
1.1、概念是一種名為“回歸”的線性分類器，是由線性回歸變化而來(lái)的，一種廣泛使用于分類問(wèn)題中的廣義回歸算法。 1.2、按預(yù)測(cè)標(biāo)簽的數(shù)據(jù)類型分連續(xù)型變量：通過(guò)線性回歸方程z，線性回歸使用輸入的特征矩陣X來(lái)輸出一組連續(xù)型的標(biāo)簽值y_pred，以完成各種預(yù)測(cè)連續(xù)型變
2024年02月04日
瀏覽(27)
機(jī)器學(xué)習(xí)基礎(chǔ)算法--回歸類型和評(píng)價(jià)分析
目錄 1.數(shù)據(jù)歸一化處理 2.數(shù)據(jù)標(biāo)準(zhǔn)化處理 3.Lasso回歸模型 4.嶺回歸模型 5.評(píng)價(jià)指標(biāo)計(jì)算 ?? ?? MSE= i=1 n ( Y i - Y ^ ) 2 n RMES= i=1 n ( Y i - Y ^ ) 2 n MAE= i=1 n | Y i - Y ^ | n R 2 =1- i=1 n ( Y ^ - Y i ) 2 i=1 n ( Y ˉ - Y i )2
2024年02月09日
瀏覽(21)
機(jī)器學(xué)習(xí)案例：運(yùn)營(yíng)商客戶流失的數(shù)據(jù)分析 #數(shù)據(jù)去重#數(shù)據(jù)分組整合#缺失值處理#相關(guān)性分析#樣本平衡#決策樹(shù)、隨機(jī)森林、邏輯回歸
前提：隨著業(yè)務(wù)快速發(fā)展、電信市場(chǎng)的競(jìng)爭(zhēng)愈演愈烈。如何最大程度地挽留在網(wǎng)用戶、吸取新客戶，是電信企業(yè)最關(guān)注的問(wèn)題之一。客戶流失會(huì)給企業(yè)帶來(lái)一系列損失，故在發(fā)展用戶每月增加的同時(shí)，如何挽留和爭(zhēng)取更多的用戶，也是一項(xiàng)非常重要的工作。能否利用大數(shù)
2024年02月08日
瀏覽(34)
【機(jī)器學(xué)習(xí)】邏輯回歸（二元分類）
離散感知器：輸出的預(yù)測(cè)值僅為 0 或 1 連續(xù)感知器（邏輯分類器）：輸出的預(yù)測(cè)值可以是 0 到 1 的任何數(shù)字，標(biāo)簽為 0 的點(diǎn)輸出接近于 0 的數(shù)，標(biāo)簽為 1 的點(diǎn)輸出接近于 1 的數(shù) 邏輯回歸算法（logistics regression algorithm）：用于訓(xùn)練邏輯分類器的算法 sigmoid 函數(shù)： g ( z ) = 1 1 +
2024年02月21日
瀏覽(24)