一、語法格式
介紹一下數(shù)據(jù)分析中很常用的一個(gè)函數(shù)——merge,它能夠進(jìn)行高效的數(shù)據(jù)合并操作。先看一下語法格式及其初步解釋:
pd.merge(left: 'DataFrame | Series', # 左右兩個(gè)需要合并的DataFrame對象。
right: 'DataFrame | Series',
how: 'str' = 'inner', # 要執(zhí)行的合并類型,從{'left','right','outer','inner','cross'}中取值,默認(rèn)為'inner'。
on: 'IndexLabel | None' = None, # 用于連接的鍵(即列標(biāo)簽名),該鍵必須存在于左右兩個(gè)DataFrame中。若沒有指定,則以列名的交集作為連接鍵。
left_on: 'IndexLabel | None' = None,
right_on: 'IndexLabel | None' = None, # 指定左右DataFrame對象中作為連接鍵的列名。適用于左右擬連接列名稱有差異時(shí)。
left_index: 'bool' = False,
right_index: 'bool' = False, # 和上,將左右frame的索引作為連接鍵,進(jìn)行數(shù)據(jù)合并。
sort: 'bool' = False, # DataFrame對象結(jié)果中,按詞典順序排序,默認(rèn)False。
suffixes: 'Suffixes' = ('_x', '_y'), # 當(dāng)左右DataFrame存在相同列名時(shí),通過該參數(shù)為其添加后綴。
copy: 'bool' = True,
indicator: 'bool' = False, # 輸出結(jié)果中添加_merge列,表明每一行使用的左右鍵來源情況。
validate: 'str | None' = None # 驗(yàn)證連接鍵在左側(cè)、右側(cè)或兩側(cè)是否唯一,即'1:1','1:m','m:1'。
)
二、舉例解釋
(一)首先生成兩個(gè)DataFrame對象,以供我們案例使用:
dep_inf = {'部門':['業(yè)務(wù)一部','業(yè)務(wù)二部','業(yè)務(wù)三部','辦公室'],
'城市': ['深圳','上海','北京','廣州'],
'部門名稱':['業(yè)務(wù)一部','業(yè)務(wù)二部','業(yè)務(wù)三部','辦公室']}
emp_inf = {'姓名':['張飛','趙云','金蓮','關(guān)習(xí)','和珅','宋江'],
'學(xué)歷':['本科','碩士','本科','本科','博士','碩士'],
'部門':['業(yè)務(wù)一部','業(yè)務(wù)一部','業(yè)務(wù)二部','業(yè)務(wù)三部','業(yè)務(wù)三部','業(yè)務(wù)四部'],
'城市':['北京','深圳','廣州','上海','深圳','深圳']}
df_d = pd.DataFrame(dep_inf)
df_e = pd.DataFrame(emp_inf)
生成的兩個(gè)DataFrame對象如下:
(二)下面舉個(gè)栗子,介紹一下主要參數(shù)
1、參數(shù)left,right:
將df_d作為左側(cè)的frame,df_e作為右側(cè)的frame,則參數(shù)left=df_d,right=df_e;
2、參數(shù)how:
當(dāng)參數(shù)how='left':僅使用左側(cè)frame的鍵;
當(dāng)參數(shù)how='right':僅使用右側(cè)frame的鍵;
當(dāng)參數(shù)how='outer':使用左右兩側(cè)frame的鍵的并集;
當(dāng)參數(shù)how='inner':使用左右兩側(cè)frame的鍵的交集;
3、參數(shù)on:
df_d,df_e中都有“部門”列(鍵),則使用“部門”作為連接鍵,即參數(shù)on='部門'。
下面就以“部門”作為連接鍵,順便看一下參數(shù)how的效果。
pd.merge(df_d, df_e, how='left',on='部門',indicator=True)
pd.merge(df_d, df_e, how='right',on='部門',indicator=True)
pd.merge(df_d, df_e, how='inner',on='部門',indicator=True)
pd.merge(df_d, df_e, how='outer',on='部門',indicator=True)
4、參數(shù)indicator:
在輸出結(jié)果中添加_merge列,表明每一行使用的左右鍵來源情況,如上圖所示。
同時(shí),可以看一下merge參數(shù)的結(jié)果_merge列加深對參數(shù)how的理解。
5、參數(shù)left_on,right_on:
這兩個(gè)參數(shù)其實(shí)和參數(shù)'on'是同一性質(zhì),當(dāng)左右兩個(gè)frame的連接鍵的名字相同時(shí),可以直接用參數(shù)‘on’。但是如果像本例中,左側(cè)frame鍵名為“部門名稱”(假設(shè)左側(cè)frame中沒有“部門這一列”),右側(cè)frame鍵名為“部門”,但是其內(nèi)容實(shí)質(zhì)相同。此時(shí)就用left_on和right_on參數(shù)以替代參數(shù)on。
?6、參數(shù)suffixes:
該參數(shù)默認(rèn)suffixes?= ('_x', '_y'),所以命令中未寫。
當(dāng)左右frame存在相同列名時(shí),通過該參數(shù)為其添加后綴。因?yàn)樽髠?cè)frame和右側(cè)frame均有城市、部門列,因此為了防止相同列互相覆蓋,給左右兩側(cè)的列加了后綴_x和_y以保留數(shù)據(jù)。當(dāng)然這個(gè)_x和_y是默認(rèn)后綴,你也可以根據(jù)需要修改為其他形式。
其他參數(shù)請參照本文第一部分:語法格式中的解釋。文章來源:http://www.zghlxwxcb.cn/news/detail-557667.html
<原創(chuàng)內(nèi)容,引用請注明出處>文章來源地址http://www.zghlxwxcb.cn/news/detail-557667.html
到了這里,關(guān)于Python-pandas:數(shù)據(jù)合并merge函數(shù)用法詳解的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!