国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

2年前作者：大炮不想學習分類：Toy博客閱讀(28)違法舉報

這篇具有很好參考價值的文章主要介紹了Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

20 理解業(yè)務和數(shù)據(jù)：我們需要做好什么計劃？_嗶哩嗶哩_bilibili

目錄

? 一、理解業(yè)務和數(shù)據(jù):我們需要做好什么計劃?

1.1兩個思想問題

1.2為什么數(shù)據(jù)挖掘不是萬能的

1.3業(yè)務背景與目標

1.4把握數(shù)據(jù)?

1.5總結

二、準備數(shù)據(jù)：如何處理出完整、干凈的數(shù)據(jù)？

2.1找到數(shù)據(jù)

2.2數(shù)據(jù)探索

2.3數(shù)據(jù)清洗

2.3.1缺失值處理

2.3.2異常值的處理

2.3.3數(shù)據(jù)偏差

2.3.4數(shù)據(jù)標準化?

2.3.5特征選擇

?2.4構建訓練集和測試集

?三、?數(shù)據(jù)建模：該如何選擇一個適合我需求的算法？

3.1分類問題??

3.2聚類問題

3.3回歸問題

3.4關聯(lián)問題?

3.5模型集成?

3.5.1（bagging）裝袋法

3.5.2boosting增強法

3.5.3stacking堆疊法?

四、模型評估：如何確認我們的模型已經(jīng)達標？

4.1一個關于“訓練一個小豬圖片分類模型”的例子

4.1.1評估指標：混淆矩陣與準確率指標

4.1.2評估指標：十分重要的業(yè)務抽取評估?

4.1.3泛化能力評估

4.1.4其他評估指標

4.1.5評估數(shù)據(jù)集的處理?

4.2總結

?五、?模型應用：我們的模型是否可以解決業(yè)務需求？

5.1模型部署

5.2模型保存

5.3模型的優(yōu)化

5.4離線應用還是在線應用

5.5一個方案

5.6總結

? 一、理解業(yè)務和數(shù)據(jù):我們需要做好什么計劃?

在開始數(shù)據(jù)挖掘的時候
要確保你對業(yè)務及其數(shù)據(jù)有充分的理解

1.1兩個思想問題

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

1.2為什么數(shù)據(jù)挖掘不是萬能的

數(shù)據(jù)挖掘只能在有限的資源與條件下去提供最大化的解決方案

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用） ?

1.3業(yè)務背景與目標

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

1.4把握數(shù)據(jù)?

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

1.5總結

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

二、準備數(shù)據(jù)：如何處理出完整、干凈的數(shù)據(jù)？

做好數(shù)據(jù)的準備工作是獲得一個好結果的必由之路，準備數(shù)據(jù)不是獨立存在的，不是說一次性做完數(shù)據(jù)準備工作就結束了。后面的模型訓練和模型評估環(huán)節(jié)數(shù)據(jù)的準備相關，當模型出現(xiàn)錯誤，結果達不到預期，往往需要重新回到數(shù)據(jù)準備環(huán)節(jié)進行處理，反復迭代幾次最終才能達到期望。

2.1找到數(shù)據(jù)

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用） ?

2.2數(shù)據(jù)探索

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

2.3數(shù)據(jù)清洗

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

2.3.1缺失值處理

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用） ?

2.3.2異常值的處理

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

2.3.3數(shù)據(jù)偏差

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

2.3.4數(shù)據(jù)標準化?

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

2.3.5特征選擇

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

?2.4構建訓練集和測試集

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

?三、?數(shù)據(jù)建模：該如何選擇一個適合我需求的算法？

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

3.1分類問題??

有監(jiān)督學習：

概念：通過已有的訓練樣本去訓練得到一個最優(yōu)模型，再利用這個模型將所有的輸入映射為相應的輸出，對輸出進行簡單的判斷從而實現(xiàn)預測和分類的目的，也就具有了對未知數(shù)據(jù)進行預測和分類的能力。簡單來說，就像有標準答案的練習題，然后再去考試，相比沒有答案的練習題然后去考試準確率更高。監(jiān)督學習中的數(shù)據(jù)中是提前做好了分類信息的，它的訓練樣本中是同時包含有特征和標簽信息的，因此根據(jù)這些來得到相應的輸出。

有監(jiān)督算法常見的有：線性回歸算法、BP神經(jīng)網(wǎng)絡算法、決策樹、支持向量機、KNN等。
有監(jiān)督學習中，比較典型的問題可以分為：輸入變量與輸出變量均為連續(xù)的變量的預測問題稱為回歸問題(Regression)，輸出變量為有限個離散變量的預測問題稱為分類問題(Classfication)，輸入變量與輸出變量均為變量序列的預測問題稱為標注問題。

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

3.2聚類問題

無監(jiān)督學習：

概念：訓練樣本的標記信息未知，目標是通過對無標記訓練樣本的學習來揭示數(shù)據(jù)的內在性質及規(guī)律，為進一步的數(shù)據(jù)分析提供基礎，此類學習任務中研究最多、應用最廣的是"聚類" (clustering)，聚類目的在于把相似的東西聚在一起，主要通過計算樣本間和群體間距離得到。深度學習和PCA都屬于無監(jiān)督學習的范疇。

無監(jiān)督算法常見的有：密度估計(densityestimation)、異常檢測（anomaly detection)、層次聚類、EM算法、K-Means算法(K均值算法)、DBSCAN算法等。

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用） ?

3.3回歸問題

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

不管是線性數(shù)據(jù)還是非線性數(shù)據(jù)都可以用回歸分析

通過學習可以得到一條線，較好的擬合了這些數(shù)據(jù)，可能不通過任何一個數(shù)據(jù)點，而是使得所有數(shù)據(jù)點到這條線的距離都是最短的，或者說損失是最小的。根據(jù)這條線，如果給出一個新的x，你就可以算出對應的y是多少。

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用） ?

3.4關聯(lián)問題?

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

3.5模型集成?

模型集成也可以叫做集成學習

思路:合并多個模型來提升整體的效果
三種模型集成的方法：

3.5.1（bagging）裝袋法

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

3.5.2boosting增強法

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

3.5.3stacking堆疊法?

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

四、模型評估：如何確認我們的模型已經(jīng)達標？

模型評估是對模型進行多種維度的評估，來確認模型是否可以放到線上去使用
?

4.1一個關于“訓練一個小豬圖片分類模型”的例子

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

4.1.1評估指標：混淆矩陣與準確率指標

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

具體是如何構建的，以小豬圖為例：

?選定若干組判定的概率就能得到若干組混淆矩陣：

使用這些值畫在坐標軸上：橫坐標是假正例率，縱坐標是真正例率，這些點連起來形成的曲線我們就稱為ROC曲線，ROC曲線下方的面積就是AUC值。

?ROC曲線和AUC值可以反應一個模型的穩(wěn)定性，當ROC曲線接近于對角線的時候說明模型的輸出極不穩(wěn)定，模型就更加不準確。

4.1.2評估指標：十分重要的業(yè)務抽取評估?

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

4.1.3泛化能力評估

除了要求模型的準確外，模型的泛化能力也值得重視

通過兩個指標來評估模型泛化能力是好還是好壞

?以小豬為例：

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

4.1.4其他評估指標

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

4.1.5評估數(shù)據(jù)集的處理?

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

4.2總結

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

?五、?模型應用：我們的模型是否可以解決業(yè)務需求？

5.1模型部署

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

5.2模型保存

把模型保存好以方便應用，要給模型定義好一個名字，甚至需要維護好一個詳細的文檔來記錄模型所使用的算法，訓練數(shù)據(jù)，評估結果等信息。因為在整個過程中會進行很多次訓練，產生很多的模型，或者把很多的模型組合在生產中使用，同時還需要跟后面的重新訓練進行效果的對比，有時候模型的訓練和部署可能由不同的人來實施，如果保存時沒有注意到這些問題，很可能導致出現(xiàn)混亂的情況，所以我們要制定好模型保存的規(guī)范，包括存放的位置，名字的定義，模型使用的算法，數(shù)據(jù)效果等內容，防止發(fā)生遺忘，丟失，誤刪除甚至是服務器崩壞等人為的事故造成不要損失。

5.3模型的優(yōu)化

Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）

5.4離線應用還是在線應用

5.5一個方案

?通常算法工程師或者數(shù)據(jù)挖掘工程師，都忙于解決模型問題，到了模型部署階段就頭疼不已，尤其是大規(guī)模的需要運行的線上服務可能會耗費很多時間。以下是一個簡單的部署方案

?

5.6總結

記錄項目經(jīng)驗，學會總結反思

多考慮一點，如何適用更多的場景

?比如說在做標簽....避免冗余開發(fā)

?監(jiān)控與迭代

模型的監(jiān)控從以下3個方面入手

?1、結果監(jiān)控主要是針對一些具體的指標（準確率、召回率等）進行監(jiān)控，還可以根據(jù)具體產出的結果在業(yè)務中的效果進行監(jiān)控?

?2、人工定期復審

?3、Case收集與樣本積累

通過具體的Case我們可以知道當前的模型存在哪些問題，有些Case可能是因為模型本身的問題造成，有些是因為業(yè)務場景的數(shù)據(jù)發(fā)生變化造成的。通過收集的Case進行分析，可以知道我們需要從哪個方向去優(yōu)化模型。
所以在前期準備數(shù)據(jù)時遇到的數(shù)據(jù)準備不充分的情況，也可以在收集環(huán)節(jié)重點關注，以補全上一版訓練時的一些缺失情侶，這樣在下次迭代訓練時能夠有更好的樣本集。

? Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建?！Ｐ驮u估——模型應用）

?文章來源地址http://www.zghlxwxcb.cn/news/detail-452173.html

?

到了這里，關于Python數(shù)據(jù)分析-數(shù)據(jù)挖掘（準備數(shù)據(jù)——數(shù)據(jù)建模——模型評估——模型應用）的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

【Python】數(shù)據(jù)分析+數(shù)據(jù)挖掘——探索Pandas中的數(shù)據(jù)篩選
當涉及數(shù)據(jù)處理和分析時，Pandas是Python編程語言中最強大、靈活且廣泛使用的工具之一。Pandas提供了豐富的功能和方法，使得數(shù)據(jù)的選擇、篩選和處理變得簡單而高效。在本博客中，我們將重點介紹Pandas中數(shù)據(jù)篩選的關鍵知識點，包括條件索引、邏輯操作符、 query() 方法以及
2024年02月15日
瀏覽(22)
【Python】數(shù)據(jù)分析+數(shù)據(jù)挖掘——變量列的相關操作
在Python和Pandas中，變量列操作指的是對DataFrame中的列進行操作，包括但不限于選擇列、重命名列、添加新列、刪除列、修改列數(shù)據(jù) 等操作。這些操作可以幫助我們處理數(shù)據(jù)、分析數(shù)據(jù)和進行特征工程等。概述下面將會列出一些基本的操作指令案例數(shù)據(jù)表university_rank.csv In
2024年02月16日
瀏覽(25)
【Python】數(shù)據(jù)分析+數(shù)據(jù)挖掘——探索Pandas中的索引與數(shù)據(jù)組織
在數(shù)據(jù)科學和數(shù)據(jù)分析領域，Pandas是一個備受喜愛的Python庫。它提供了豐富的數(shù)據(jù)結構和靈活的工具，幫助我們高效地處理和分析數(shù)據(jù)。其中，索引在Pandas中扮演著關鍵角色，它是一種強大的數(shù)據(jù)組織和訪問機制，使我們能夠更好地理解和操作數(shù)據(jù)。本博客將探討Pandas中與索
2024年02月15日
瀏覽(44)
大數(shù)據(jù)教材推薦|Python數(shù)據(jù)挖掘入門、進階與案例分析
? 主? ?編：盧滔，張良均，戴浩，李曼，陳四德出版社：機械工業(yè)出版社內容提要本書從實踐出發(fā)，結合11個 “泰迪杯” 官方推出的賽題，按照賽題的難易程度進行排序，由淺入深地介紹數(shù)據(jù)挖掘技術在商務、教育、交通、傳媒、旅游、電力、制造業(yè)等行業(yè)的應用。因
2024年02月10日
瀏覽(18)
Python數(shù)據(jù)挖掘實用案例——自動售貨機銷售數(shù)據(jù)分析與應用
??歡迎來到本文?? ??個人簡介：陳童學哦，目前學習C/C++、算法、Python、Java等方向，一個正在慢慢前行的普通人。 ??系列專欄：陳童學的日記 ??其他專欄：C++STL，感興趣的小伙伴可以看看。 ??希望各位→點贊?? + 收藏?? + 留言?? ? ??萬物從心起，心動則萬物動??
2024年02月08日
瀏覽(28)
大數(shù)據(jù)圖書推薦：Python數(shù)據(jù)分析與挖掘實戰(zhàn)（第2版）
《Python數(shù)據(jù)分析與挖掘實戰(zhàn)（第2版）》的配套學習視頻，課程內容共分為基礎篇（第1~5章）和實戰(zhàn)篇（第6~11章）。 ? ? ?基礎篇內容包括數(shù)據(jù)挖掘的概述、基本流程、常用工具、開發(fā)環(huán)境，Python數(shù)據(jù)挖掘的編程基礎、數(shù)據(jù)探索、數(shù)據(jù)預處理、數(shù)據(jù)挖掘算法基礎等基礎知識；
2024年02月02日
瀏覽(25)
python數(shù)據(jù)分析與挖掘實戰(zhàn)(商品零售購物籃分析）
? ? ? ? 購物籃分析是商業(yè)領域最前沿、最具挑戰(zhàn)性的問題之一，也是許多企業(yè)重點研究的問題。購物籃分析是通過發(fā)現(xiàn)顧客在一次購買行為中放入購物籃中不同商品之間的關聯(lián)，研究顧客的購買行為，從而輔助零售企業(yè)制定營銷策略的一種數(shù)據(jù)分析方法。 ? ? ? ?本篇文章
2024年02月06日
瀏覽(46)
Python高分大數(shù)據(jù)分析與挖掘大作業(yè)
1．創(chuàng)建一個Python腳本，命名為test1.py，完成以下功能。（1）生成兩個3×3矩陣，并計算矩陣的乘積。（2）求矩陣 A= -1 1 0 -4 3 0 1 02 的特征值和特征向量。（3）設有矩陣 A = 5 2 1 2 01 ，試對其進行奇異分解。求解過程 2．油氣藏的儲量密度 Y 與生油門限以下平均地溫梯度 X 1、
2024年02月04日
瀏覽(33)
【python】數(shù)據(jù)挖掘分析清洗——缺失值處理方法匯總
本文鏈接：https://blog.csdn.net/weixin_47058355/article/details/128866686 數(shù)據(jù)挖掘系列：缺失值處理方法匯總離散化方法匯總離群點(異常值)處理方法匯總標準化(數(shù)據(jù)歸一化)處理方法匯總特征選擇（特征篩選）方法匯總特征選擇篩選(降維)方法匯總分類預測方法匯總看了下網(wǎng)絡上做
2024年02月02日
瀏覽(33)
Python數(shù)據(jù)挖掘：入門、進階與實用案例分析——基于非侵入式負荷檢測與分解的電力數(shù)據(jù)挖掘
本案例將根據(jù)已收集到的電力數(shù)據(jù)，深度挖掘各電力設備的電流、電壓和功率等情況，分析各電力設備的實際用電量，進而為電力公司制定電能能源策略提供一定的參考依據(jù)。更多詳細內容請參考《Python數(shù)據(jù)挖掘：入門進階與實用案例分析》一書。為了更好地監(jiān)測用電設備的
2024年02月08日
瀏覽(25)