国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<ruby id="ekydx"></ruby>

<sup id="ekydx"><optgroup id="ekydx"><p id="ekydx"></p></optgroup></sup>

【pandas基礎】--數(shù)據(jù)整理

2年前作者：wang_yb分類：Toy博客閱讀(14)違法舉報

這篇具有很好參考價值的文章主要介紹了【pandas基礎】--數(shù)據(jù)整理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

pandas進行數(shù)據(jù)整理的意義在于，它是數(shù)據(jù)分析、數(shù)據(jù)科學和機器學習的前置步驟。
通過數(shù)據(jù)整理可以提前了解數(shù)據(jù)的概要，缺失值、重復值等情況，為后續(xù)的分析和建模提供更為可靠的數(shù)據(jù)基礎。

本篇主要介紹利用pandas進行數(shù)據(jù)整理的各種方法。

1. 數(shù)據(jù)概要

獲取數(shù)據(jù)概要信息可以幫助我們了解數(shù)據(jù)的基本情況，包括數(shù)據(jù)的大小、數(shù)據(jù)類型、缺失值的情況、數(shù)據(jù)的分布情況等。

這些信息對于我們進行數(shù)據(jù)分析、數(shù)據(jù)處理和建模等工作非常重要。
獲取數(shù)據(jù)概要信息是進行數(shù)據(jù)分析和處理的基礎，也是保障數(shù)據(jù)分析和建模結果準確性的重要步驟。

測試數(shù)據(jù)導入：

import pandas as pd

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

1.1 dtypes 數(shù)據(jù)類型

查看數(shù)據(jù)類型：

df.dtypes

數(shù)據(jù)集中4個列的類型如上所示。

1.2 describe 數(shù)值列統(tǒng)計

選取數(shù)值列value，統(tǒng)計其情況看看：

df.value.describe()
# df["value"].describe()

統(tǒng)計的內容包括：總數(shù)、平均數(shù)、標準差、最小值、最大值等等。

1.3 value_counts 各類數(shù)據(jù)的數(shù)量

比如，統(tǒng)計指標中文這列，看看不同的指標對應的數(shù)據(jù)量。

df["指標中文"].value_counts()

可以看出，每種指標的數(shù)據(jù)都是 44 條。

1.4 info 整體的基本信息

df.info()

info函數(shù)包括每列的名稱、數(shù)據(jù)類型、非空值數(shù)量、甚至內存使用量等信息。

2. 缺失值處理

收集的數(shù)據(jù)難免缺失，對缺失值的處理進行分析前必要的步驟，因為：

保證數(shù)據(jù)的完整性和準確性。缺失值的存在可能會影響數(shù)據(jù)的可靠性和分析結果的準確性，因此及時處理缺失值能夠保證數(shù)據(jù)的完整性和準確性。
提高數(shù)據(jù)分析結果的準確性。處理缺失值能夠提高數(shù)據(jù)分析結果的準確性，因為缺失值會對數(shù)據(jù)分析結果產生一定的偏差，處理缺失值能夠減少這種偏差，提高數(shù)據(jù)分析結果的可靠性。
使數(shù)據(jù)更容易被理解和處理。處理缺失值能夠使數(shù)據(jù)更加規(guī)范和標準化，從而方便數(shù)據(jù)的理解和處理。如果數(shù)據(jù)中存在大量的缺失值，可能會造成數(shù)據(jù)處理困難，降低數(shù)據(jù)的處理效率。
使得數(shù)據(jù)更加適合建模。處理缺失值能夠使得數(shù)據(jù)更加適合建模，因為缺失值可能會影響模型的訓練和預測效果，處理缺失值能夠提高模型的準確性和可靠性。

pandas中提供了 isnull 和 notnull 兩個函數(shù)來標記缺失值，也提供了fillna 和 dropna兩個函數(shù)來處理缺失值。

演示缺失值處理的測試數(shù)據(jù)如下：

import pandas as pd

fp = "http://databook.top:8888/pandas/missing-values.csv"
df = pd.read_csv(fp)
df

缺失的數(shù)據(jù)默認值為 NaN。

2.1 查看缺失值

pandas通過isnull函數(shù)可以標記缺失的值，缺失的值顯示為 True。

df.isnull()

notnull函數(shù)與之相反，缺失的值顯示為 False。

df.notnull()

通過這兩個函數(shù)，可以很方便的過濾包含或未包含缺失值的數(shù)據(jù)。

# value缺失 【并且】 指標中文未缺失的數(shù)據(jù)
df[df.value.isnull() & df["指標中文"].notnull()]

# value未缺失 【或者】 指標中文缺失的數(shù)據(jù)
df[df.value.notnull() | df["指標中文"].isnull()]

2.2 填充缺失值

對于缺失值，為了防止其對后續(xù)的分析算法造成影響，一般有兩種處理方式。
一種是填充默認值，一種是直接刪除包含缺失值的數(shù)據(jù)。

填充缺失值用fillna函數(shù)。

df.value = df.value.fillna(0.0)
df["指標編碼"] = df["指標編碼"].fillna("A000000")
df["指標中文"] = df["指標中文"].fillna("默認指標")
df

各列填充不同的默認值之后如上。

2.3 刪除缺失值

刪除缺失值時，請關注2個關鍵的參數(shù)。
一個是 how，另一個是subset。
how="all"時，只有當前列所有數(shù)據(jù)都是NaN時才刪除。

df.dropna(how="all")

沒有滿足條件的數(shù)據(jù)，所有數(shù)據(jù)都保留下來了。

how="any"時，只要有一個數(shù)據(jù)是NaN，就會刪除當前行數(shù)據(jù)。

df.dropna(how="any")

所有數(shù)據(jù)都刪除了，因為示例數(shù)據(jù)中每一行都有一個NaN數(shù)據(jù)。

除了how之外，另一個常用的參數(shù)是subset，與how相比，它可以具體指定哪些列為NaN時才刪除數(shù)據(jù)。

df.dropna(subset=["value", "指標中文"])

指標中文或者value為NaN的數(shù)據(jù)都刪除了。

3. 重復值處理

在數(shù)據(jù)分析中，處理重復值是非常重要的，因為重復值會影響分析結果和數(shù)據(jù)準確性。
處理重復值可以：

避免重復計算：重復值可能會導致重復計算，從而影響數(shù)據(jù)分析結果的準確性。
減少存儲空間：去除重復值可以減少數(shù)據(jù)存儲空間，從而提高數(shù)據(jù)處理效率。
提高數(shù)據(jù)分析精度：處理重復值可以提高數(shù)據(jù)分析的準確性和精度，從而幫助分析師做出更準確的決策。
符合數(shù)據(jù)質量標準：去除重復值可以提高數(shù)據(jù)的完整性和一致性，符合數(shù)據(jù)質量標準。
簡化數(shù)據(jù)可視化：處理重復值可以簡化數(shù)據(jù)可視化操作，從而幫助分析師更好地理解數(shù)據(jù)。

演示重復值處理的測試數(shù)據(jù)如下：

import pandas as pd

fp = "http://databook.top:8888/pandas/duplicate-values.csv"
df = pd.read_csv(fp)
df

3.1 查找重復值

pandas提供了duplicated()方法來檢查DataFrame中的重復值。
該方法返回一個布爾Series，其中True表示該行是重復的，False表示該行不是重復的。

df.duplicated()

根據(jù)index，可以看出哪些行是重復的。

3.2 刪除重復值

對于重復的值，一般都是直接刪除。
刪除重復數(shù)據(jù)的方法drop_duplicates中有個keep參數(shù)可以重點關注下。

# 重復時，保留第一個數(shù)據(jù)
df.drop_duplicates(keep="first")

keep="first"時，從index可以看出，保留的是重復數(shù)據(jù)中index最小的數(shù)據(jù)。

# 重復時，保留最后一個數(shù)據(jù)
df.drop_duplicates(keep="last")

keep="last"時，從index可以看出，保留的是重復數(shù)據(jù)中index最大的數(shù)據(jù)。

df.drop_duplicates(keep=False)

keep=False時，所有重復的數(shù)據(jù)都被刪除了。

4. 總結回顧

本篇主要介紹pandas在數(shù)據(jù)整理方面的能力，主要包括：

數(shù)據(jù)概要信息的獲取
缺失值的處理
重復值的處理

熟練掌握數(shù)據(jù)整理的方法，可以讓后續(xù)的分析步驟更加高效。文章來源地址http://www.zghlxwxcb.cn/news/detail-443654.html

到了這里，關于【pandas基礎】--數(shù)據(jù)整理的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

pandas進行數(shù)據(jù)計算時如何處理空值的問題？
目錄 1.數(shù)據(jù)預覽： 2.解決方法（1）問題示例（2）方法 A.方法一 B.方法二如下圖如果不理睬這些空值的話，計算總分便也會是空值 A.方法一我們可以利用fillna(0)將空值填充為零再進行計算 B.方法二利用靈活算數(shù)法中的fill_value參數(shù)將空值填充為零方法描述 add 加法 sub 減法
2024年01月18日
瀏覽(34)
Python數(shù)據(jù)分析與應用 |第4章使用pandas進行數(shù)據(jù)預處理（實訓）
編號性別高血壓是否結婚工作類型居住類型體重指數(shù) 吸煙史中風 9046 男否是私人城市 36.6 以前吸煙是 51676 女否是私營企業(yè) 農村 N/A 從不吸煙是 31112 男否是私人農村 32.5 從不吸煙是 60182 女否是私人城市 34.4 抽煙是 1665 女是是私營企業(yè) 農村 24 從不吸煙是
2024年04月23日
瀏覽(24)
【Python】使用Pandas和隨機森林對鳶尾花數(shù)據(jù)集進行分類
我在鼓樓的夜色中為你唱花香自來在別處沉默相遇和期待飛機飛過車水馬龍的城市千里之外不離開把所有的春天都揉進了一個清晨把所有停不下的言語變成秘密關上了門莫名的情愫啊請問誰來將它帶走呢只好把歲月化成歌留在山河 ???????????????????????
2024年04月26日
瀏覽(20)
【Pandas】四個例子掌握用Python進行數(shù)據(jù)分析！一看就懂！
本文選取了四個經典案例，主要聚焦Pandas在數(shù)據(jù)分析中的簡單應用，結合代碼學習利用Python進行數(shù)據(jù)分析過程(●ˇ?ˇ●)。在每個例題開始前，我們將會標注出本例題涉及的重要知識點，并在重要處添加解釋和代碼注釋，共讀者參考。如果你遇到任何問題，歡迎在評論區(qū)一起
2024年02月17日
瀏覽(96)
【數(shù)據(jù)分析 - 基礎入門之pandas篇③】- pandas數(shù)據(jù)結構——DataFrame
大家好！我是一朵向陽花（花花花）??，本期跟大家分享的知識是 pandas 數(shù)據(jù)結構——DataFrame。作者的【 Python 數(shù)據(jù)分析】專欄正在火熱更新中??，如果本文對您有幫助，歡迎大家點贊 + 評論 + 收藏！每日金句分享：慢慢來，誰還沒有一個努力的過程?！弧?pony「網易云
2024年02月16日
瀏覽(19)
【數(shù)據(jù)分析 - 基礎入門之pandas篇②】- pandas數(shù)據(jù)結構——Series
大家好！我是一朵向陽花（花花花），本期跟大家分享的知識是 pandas 數(shù)據(jù)結構——Series。作者的【 Python 數(shù)據(jù)分析】專欄正在火熱更新中，如果本文對您有幫助，歡迎大家點贊 + 評論 + 收藏！每日金句分享：愿你有一天，能和你最重要的人重逢?！弧?艾拉「可塑性記憶
2024年02月13日
瀏覽(23)
【數(shù)據(jù)分析 - 基礎入門之pandas篇①】- pandas介紹
pandas 是 Python 的核心數(shù)據(jù)分析支持庫，提供了快速、靈活、明確的數(shù)據(jù)結構，旨在簡單、直觀地處理關系型、標記型數(shù)據(jù)。 pandas 的目標是成為 Python 數(shù)據(jù)分析實踐與實戰(zhàn)的必備高級工具，其長遠目標是成為最強大、最靈活、可以支持任何語言的開源數(shù)據(jù)分析工具。經過多年
2024年02月13日
瀏覽(26)
【pandas基礎】--數(shù)據(jù)檢索
pandas 的數(shù)據(jù)檢索功能是其最基礎也是最重要的功能之一。 pandas 中最常用的幾種數(shù)據(jù)過濾方式如下：行列過濾：選取指定的行或者列條件過濾：對列的數(shù)據(jù)設置過濾條件函數(shù)過濾：通過函數(shù)設置更加復雜的過濾條件本篇所有示例所使用的測試數(shù)據(jù)如下： pandas 中最常用的按
2024年02月03日
瀏覽(20)
【pandas基礎】--數(shù)據(jù)類型
數(shù)據(jù)類型是計算機編程中將不同類型的數(shù)據(jù)值分類和定義的方式。通過數(shù)據(jù)類型，可以確定數(shù)據(jù)的存儲方式和內存占用量，了解不同類型的數(shù)據(jù)進行各種運算的能力。使用 pandas 進行數(shù)據(jù)分析時，最常用到的幾種類型是：字符串類型，各類文本內容都是字符串類型數(shù)值類型
2024年02月06日
瀏覽(20)
【pandas基礎】--數(shù)據(jù)修改
pandas 作為一種常用的數(shù)據(jù)分析工具，提供了廣泛的數(shù)據(jù)修改方法。既可以針對行或者列的數(shù)據(jù)進行修改，也可以對具體單個元素進行修改，還可以基于條件選擇要修改的行或者列的數(shù)據(jù)。 pandas 的 DataFrame 增加一行或者多行數(shù)據(jù)之前是使用 append 方法。使用append方法會
2024年02月05日
瀏覽(15)

<style id="nadig"></style>

<center id="nadig"></center>