国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【pandas基礎】--數(shù)據(jù)整理

這篇具有很好參考價值的文章主要介紹了【pandas基礎】--數(shù)據(jù)整理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

pandas進行數(shù)據(jù)整理的意義在于,它是數(shù)據(jù)分析、數(shù)據(jù)科學和機器學習的前置步驟。
通過數(shù)據(jù)整理可以提前了解數(shù)據(jù)的概要,缺失值、重復值等情況,為后續(xù)的分析和建模提供更為可靠的數(shù)據(jù)基礎。

本篇主要介紹利用pandas進行數(shù)據(jù)整理的各種方法。

1. 數(shù)據(jù)概要

獲取數(shù)據(jù)概要信息可以幫助我們了解數(shù)據(jù)的基本情況,包括數(shù)據(jù)的大小、數(shù)據(jù)類型、缺失值的情況、數(shù)據(jù)的分布情況等。

這些信息對于我們進行數(shù)據(jù)分析、數(shù)據(jù)處理和建模等工作非常重要。
獲取數(shù)據(jù)概要信息是進行數(shù)據(jù)分析和處理的基礎,也是保障數(shù)據(jù)分析和建模結果準確性的重要步驟。

測試數(shù)據(jù)導入:

import pandas as pd

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)
df

image.png

1.1 dtypes 數(shù)據(jù)類型

查看數(shù)據(jù)類型:

df.dtypes

image.png
數(shù)據(jù)集中4個列的類型如上所示。

1.2 describe 數(shù)值列統(tǒng)計

選取數(shù)值列value,統(tǒng)計其情況看看:

df.value.describe()
# df["value"].describe()

image.png
統(tǒng)計的內容包括:總數(shù)、平均數(shù)、標準差、最小值、最大值等等。

1.3 value_counts 各類數(shù)據(jù)的數(shù)量

比如,統(tǒng)計指標中文這列,看看不同的指標對應的數(shù)據(jù)量。

df["指標中文"].value_counts()

image.png
可以看出,每種指標的數(shù)據(jù)都是 44 條。

1.4 info 整體的基本信息

df.info()

image.png
info函數(shù)包括每列的名稱、數(shù)據(jù)類型、非空值數(shù)量、甚至內存使用量等信息。

2. 缺失值處理

收集的數(shù)據(jù)難免缺失,對缺失值的處理進行分析前必要的步驟,因為:

  1. 保證數(shù)據(jù)的完整性和準確性。缺失值的存在可能會影響數(shù)據(jù)的可靠性和分析結果的準確性,因此及時處理缺失值能夠保證數(shù)據(jù)的完整性和準確性。
  2. 提高數(shù)據(jù)分析結果的準確性。處理缺失值能夠提高數(shù)據(jù)分析結果的準確性,因為缺失值會對數(shù)據(jù)分析結果產生一定的偏差,處理缺失值能夠減少這種偏差,提高數(shù)據(jù)分析結果的可靠性。
  3. 使數(shù)據(jù)更容易被理解和處理。處理缺失值能夠使數(shù)據(jù)更加規(guī)范和標準化,從而方便數(shù)據(jù)的理解和處理。如果數(shù)據(jù)中存在大量的缺失值,可能會造成數(shù)據(jù)處理困難,降低數(shù)據(jù)的處理效率。
  4. 使得數(shù)據(jù)更加適合建模。處理缺失值能夠使得數(shù)據(jù)更加適合建模,因為缺失值可能會影響模型的訓練和預測效果,處理缺失值能夠提高模型的準確性和可靠性。

pandas中提供了 isnullnotnull 兩個函數(shù)來標記缺失值,也提供了fillnadropna兩個函數(shù)來處理缺失值。

演示缺失值處理的測試數(shù)據(jù)如下:

import pandas as pd

fp = "http://databook.top:8888/pandas/missing-values.csv"
df = pd.read_csv(fp)
df

image.png
缺失的數(shù)據(jù)默認值為 NaN。

2.1 查看缺失值

pandas通過isnull函數(shù)可以標記缺失的值,缺失的值顯示為 True。

df.isnull()

image.png

notnull函數(shù)與之相反,缺失的值顯示為 False。

df.notnull()

image.png

通過這兩個函數(shù),可以很方便的過濾包含或未包含缺失值的數(shù)據(jù)。

# value缺失 【并且】 指標中文未缺失的數(shù)據(jù)
df[df.value.isnull() & df["指標中文"].notnull()]

image.png

# value未缺失 【或者】 指標中文缺失的數(shù)據(jù)
df[df.value.notnull() | df["指標中文"].isnull()]

image.png

2.2 填充缺失值

對于缺失值,為了防止其對后續(xù)的分析算法造成影響,一般有兩種處理方式。
一種是填充默認值,一種是直接刪除包含缺失值的數(shù)據(jù)。

填充缺失值用fillna函數(shù)。

df.value = df.value.fillna(0.0)
df["指標編碼"] = df["指標編碼"].fillna("A000000")
df["指標中文"] = df["指標中文"].fillna("默認指標")
df

image.png
各列填充不同的默認值之后如上。

2.3 刪除缺失值

刪除缺失值時,請關注2個關鍵的參數(shù)。
一個是 how,另一個是subset。
how="all"時,只有當前列所有數(shù)據(jù)都是NaN時才刪除。

df.dropna(how="all")

image.png
沒有滿足條件的數(shù)據(jù),所有數(shù)據(jù)都保留下來了。

how="any"時,只要有一個數(shù)據(jù)是NaN,就會刪除當前行數(shù)據(jù)。

df.dropna(how="any")

image.png
所有數(shù)據(jù)都刪除了,因為示例數(shù)據(jù)中每一行都有一個NaN數(shù)據(jù)。

除了how之外,另一個常用的參數(shù)是subset,與how相比,它可以具體指定哪些列為NaN時才刪除數(shù)據(jù)。

df.dropna(subset=["value", "指標中文"])

image.png
指標中文或者valueNaN的數(shù)據(jù)都刪除了。

3. 重復值處理

在數(shù)據(jù)分析中,處理重復值是非常重要的,因為重復值會影響分析結果和數(shù)據(jù)準確性。
處理重復值可以:

  1. 避免重復計算:重復值可能會導致重復計算,從而影響數(shù)據(jù)分析結果的準確性。
  2. 減少存儲空間:去除重復值可以減少數(shù)據(jù)存儲空間,從而提高數(shù)據(jù)處理效率。
  3. 提高數(shù)據(jù)分析精度:處理重復值可以提高數(shù)據(jù)分析的準確性和精度,從而幫助分析師做出更準確的決策。
  4. 符合數(shù)據(jù)質量標準:去除重復值可以提高數(shù)據(jù)的完整性和一致性,符合數(shù)據(jù)質量標準。
  5. 簡化數(shù)據(jù)可視化:處理重復值可以簡化數(shù)據(jù)可視化操作,從而幫助分析師更好地理解數(shù)據(jù)。

演示重復值處理的測試數(shù)據(jù)如下:

import pandas as pd

fp = "http://databook.top:8888/pandas/duplicate-values.csv"
df = pd.read_csv(fp)
df

image.png

3.1 查找重復值

pandas提供了duplicated()方法來檢查DataFrame中的重復值。
該方法返回一個布爾Series,其中True表示該行是重復的,False表示該行不是重復的。

df.duplicated()

image.png
根據(jù)index,可以看出哪些行是重復的。

3.2 刪除重復值

對于重復的值,一般都是直接刪除。
刪除重復數(shù)據(jù)的方法drop_duplicates中有個keep參數(shù)可以重點關注下。

# 重復時,保留第一個數(shù)據(jù)
df.drop_duplicates(keep="first")

image.png
keep="first"時,從index可以看出,保留的是重復數(shù)據(jù)中index的數(shù)據(jù)。

# 重復時,保留最后一個數(shù)據(jù)
df.drop_duplicates(keep="last")

image.png
keep="last"時,從index可以看出,保留的是重復數(shù)據(jù)中index的數(shù)據(jù)。

df.drop_duplicates(keep=False)

image.png
keep=False時,所有重復的數(shù)據(jù)都被刪除了。

4. 總結回顧

本篇主要介紹pandas在數(shù)據(jù)整理方面的能力,主要包括:

  1. 數(shù)據(jù)概要信息的獲取
  2. 缺失值的處理
  3. 重復值的處理

熟練掌握數(shù)據(jù)整理的方法,可以讓后續(xù)的分析步驟更加高效。文章來源地址http://www.zghlxwxcb.cn/news/detail-443654.html

到了這里,關于【pandas基礎】--數(shù)據(jù)整理的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • pandas進行數(shù)據(jù)計算時如何處理空值的問題?

    pandas進行數(shù)據(jù)計算時如何處理空值的問題?

    目錄 1.數(shù)據(jù)預覽: 2.解決方法 (1)問題示例 (2)方法 A.方法一 B.方法二 如下圖如果不理睬這些空值的話,計算總分便也會是空值 A.方法一 我們可以利用fillna(0)將空值填充為零再進行計算 B.方法二 利用靈活算數(shù)法中的fill_value參數(shù)將空值填充為零 方法 描述 add 加法 sub 減法

    2024年01月18日
    瀏覽(34)
  • Python數(shù)據(jù)分析與應用 |第4章 使用pandas進行數(shù)據(jù)預處理 (實訓)

    Python數(shù)據(jù)分析與應用 |第4章 使用pandas進行數(shù)據(jù)預處理 (實訓)

    編號 性別 高血壓 是否結婚 工作類型 居住類型 體重指數(shù) 吸煙史 中風 9046 男 否 是 私人 城市 36.6 以前吸煙 是 51676 女 否 是 私營企業(yè) 農村 N/A 從不吸煙 是 31112 男 否 是 私人 農村 32.5 從不吸煙 是 60182 女 否 是 私人 城市 34.4 抽煙 是 1665 女 是 是 私營企業(yè) 農村 24 從不吸煙 是

    2024年04月23日
    瀏覽(24)
  • 【Python】使用Pandas和隨機森林對鳶尾花數(shù)據(jù)集進行分類

    我在鼓樓的夜色中 為你唱花香自來 在別處 沉默相遇和期待 飛機飛過 車水馬龍的城市 千里之外 不離開 把所有的春天 都揉進了一個清晨 把所有停不下的言語變成秘密 關上了門 莫名的情愫啊 請問 誰來將它帶走呢 只好把歲月化成歌 留在山河 ???????????????????????

    2024年04月26日
    瀏覽(20)
  • 【Pandas】四個例子掌握用Python進行數(shù)據(jù)分析!一看就懂!

    【Pandas】四個例子掌握用Python進行數(shù)據(jù)分析!一看就懂!

    本文選取了四個經典案例,主要聚焦Pandas在數(shù)據(jù)分析中的簡單應用,結合代碼學習利用Python進行數(shù)據(jù)分析過程(●ˇ?ˇ●)。在每個例題開始前,我們將會標注出本例題涉及的重要知識點,并在重要處添加解釋和代碼注釋,共讀者參考。 如果你遇到任何問題,歡迎在評論區(qū)一起

    2024年02月17日
    瀏覽(96)
  • 【數(shù)據(jù)分析 - 基礎入門之pandas篇③】- pandas數(shù)據(jù)結構——DataFrame

    【數(shù)據(jù)分析 - 基礎入門之pandas篇③】- pandas數(shù)據(jù)結構——DataFrame

    大家好!我是一朵向陽花(花花花)??,本期跟大家分享的知識是 pandas 數(shù)據(jù)結構——DataFrame。 作者的【 Python 數(shù)據(jù)分析】專欄正在火熱更新中??,如果本文對您有幫助,歡迎大家點贊 + 評論 + 收藏 ! 每日金句分享: 慢慢來,誰還沒有一個努力的過程?!弧?pony「網易云

    2024年02月16日
    瀏覽(19)
  • 【數(shù)據(jù)分析 - 基礎入門之pandas篇②】- pandas數(shù)據(jù)結構——Series

    【數(shù)據(jù)分析 - 基礎入門之pandas篇②】- pandas數(shù)據(jù)結構——Series

    大家好!我是一朵向陽花(花花花),本期跟大家分享的知識是 pandas 數(shù)據(jù)結構——Series。 作者的【 Python 數(shù)據(jù)分析】專欄正在火熱更新中,如果本文對您有幫助,歡迎大家點贊 + 評論 + 收藏 ! 每日金句分享: 愿你有一天,能和你最重要的人重逢?!弧?艾拉「可塑性記憶

    2024年02月13日
    瀏覽(23)
  • 【數(shù)據(jù)分析 - 基礎入門之pandas篇①】- pandas介紹

    【數(shù)據(jù)分析 - 基礎入門之pandas篇①】- pandas介紹

    pandas 是 Python 的 核心數(shù)據(jù)分析支持庫 ,提供了快速、靈活、明確的數(shù)據(jù)結構,旨在簡單、直觀地處理關系型、標記型數(shù)據(jù)。 pandas 的目標是成為 Python 數(shù)據(jù)分析實踐與實戰(zhàn)的必備高級工具 ,其長遠目標是成為最強大、最靈活、可以支持任何語言的開源數(shù)據(jù)分析工具。經過多年

    2024年02月13日
    瀏覽(26)
  • 【pandas基礎】--數(shù)據(jù)檢索

    pandas 的數(shù)據(jù)檢索功能是其最基礎也是最重要的功能之一。 pandas 中最常用的幾種數(shù)據(jù)過濾方式如下: 行列過濾:選取指定的行或者列 條件過濾:對列的數(shù)據(jù)設置過濾條件 函數(shù)過濾:通過函數(shù)設置更加復雜的過濾條件 本篇所有示例所使用的測試數(shù)據(jù)如下: pandas 中最常用的按

    2024年02月03日
    瀏覽(20)
  • 【pandas基礎】--數(shù)據(jù)類型

    【pandas基礎】--數(shù)據(jù)類型

    數(shù)據(jù)類型是計算機編程中將不同類型的數(shù)據(jù)值分類和定義的方式。 通過數(shù)據(jù)類型,可以確定數(shù)據(jù)的存儲方式和內存占用量,了解不同類型的數(shù)據(jù)進行各種運算的能力。 使用 pandas 進行數(shù)據(jù)分析時,最常用到的幾種類型是: 字符串類型,各類文本內容都是字符串類型 數(shù)值類型

    2024年02月06日
    瀏覽(20)
  • 【pandas基礎】--數(shù)據(jù)修改

    pandas 作為一種常用的數(shù)據(jù)分析工具,提供了廣泛的數(shù)據(jù)修改方法。 既可以針對 行 或者 列 的數(shù)據(jù)進行修改,也可以對具體 單個元素 進行修改,還可以基于條件選擇要修改的 行 或者 列 的數(shù)據(jù)。 pandas 的 DataFrame 增加一行或者多行數(shù)據(jù)之前是使用 append 方法。 使用append方法會

    2024年02月05日
    瀏覽(15)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包