Python AI庫 Pandas的常見操作的擴展知識
本文默認讀者具備以下技能:
- 熟悉python基礎知識,vscode或其它編輯工具
- 熟悉表格文件的基本操作
-
具備自主擴展學習能力
前文中對Pandas的數據結構以及基礎操作做了介紹,本文中會在前文的基礎上,對常見的操作進行拓展,并舉例說明。
一、數據讀取與查看
Pandas提供了多種方法讀取不同格式的數據文件,例如CSV、Excel等。讀取數據后,可以通過簡單的函數查看數據的整體情況。
import pandas as pd
# 讀取CSV文件
df = pd.read_csv('data.csv')
# 查看數據的前5行
print(df.head())
# 查看數據的基本信息,包括列名、數據類型、非空值數量等
print(df.info())
擴展信息:read_csv
函數支持多種參數,如header
指定列名所在的行,delimiter
指定分隔符等。head
函數默認顯示前5行,但可以通過傳遞參數來指定顯示的行數。
二、數據篩選
Pandas提供了靈活的條件篩選功能,可以根據條件過濾出滿足特定條件的數據行。
# 篩選年齡大于30的數據行
filtered_df = df[df['age'] > 30]
# 使用邏輯運算符進行復合條件篩選
filtered_df_complex = df[(df['age'] > 30) & (df['gender'] == 'male')]
print(filtered_df_complex)
擴展信息:除了使用列名和比較運算符進行篩選,Pandas還支持使用isin
函數進行多值篩選,以及使用query
函數進行更復雜的查詢。
三、數據排序
Pandas允許我們根據一列或多列對數據進行排序。
# 根據年齡列進行升序排序
sorted_df = df.sort_values(by='age', ascending=True)
# 根據多列進行排序,先按年齡升序,再按姓名降序
sorted_df_multi = df.sort_values(by=['age', 'name'], ascending=[True, False])
print(sorted_df_multi)
擴展信息:sort_values
函數支持ascending
參數指定排序方式(升序或降序),默認為升序。同時,也可以通過inplace
參數選擇是否直接修改原DataFrame。
四、數據分組與聚合
Pandas提供了groupby功能,可以對數據進行分組,并對每個組執(zhí)行聚合操作。
# 根據性別列分組,并計算每組的平均年齡
grouped_df = df.groupby('gender')['age'].mean()
# 展示分組后的結果
print(grouped_df)
擴展信息:除了計算平均值,groupby
還可以與許多聚合函數一起使用,如sum
、count
、max
、min
等。同時,還可以使用agg
函數執(zhí)行多個聚合操作。
五、缺失數據處理
Pandas提供了處理缺失數據(NaN)的功能,包括檢測、填充和刪除等操作。文章來源:http://www.zghlxwxcb.cn/news/detail-861698.html
# 檢測缺失值
print(df.isnull().sum())
# 填充缺失值,例如使用列的平均值填充年齡列的缺失值
df['age'].fillna(df['age'].mean(), inplace=True)
# 刪除含有缺失值的行
df_dropna = df.dropna()
print(df_dropna)
擴展信息:fillna
函數支持多種填充方式,如使用固定值、前一個有效值、后一個有效值等。同時,dropna
函數還支持指定軸(行或列)進行刪除操作。文章來源地址http://www.zghlxwxcb.cn/news/detail-861698.html
到了這里,關于Python AI庫 Pandas的常見操作的擴展知識的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!