国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理

這篇具有很好參考價值的文章主要介紹了Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重

背景介紹:

通俗理解有兩個excel文件 分別為A和B

我要從B中去掉A中含有的數(shù)據(jù),數(shù)據(jù)量大約在300w左右

因為數(shù)據(jù)量較大,無論是wps還是office自帶的去重都無法正常使用這樣就需要用到腳本了

話不多說,代碼如下:

import pandas as pd
from tqdm import tqdm


# 引號內填寫需要去重的表格路徑

targetExcel = r'./222.xlsx'

# 引號內填寫依據(jù)表格的路徑

basisExcel = r'./11.xlsx'

# 引號內填寫輸出字段

field = 'removeRepeatResult'


def removeRepeat():

    count = 0
    ind   = 1
    targetIndex = field + str(ind)
    resultExcel  = {
        field+'1': []
    }
    header = ['A','B','C','D','E','F','G','H','I','J','K']

    print('讀取數(shù)據(jù)')
    target_Excel = pd.read_excel(targetExcel,header=None,names=header, dtype='object')
    basis_Excel  = pd.read_excel(basisExcel,header=None,names=['A'], dtype='object')
    print('讀取成功')

    for index in tqdm(header):
        for i in tqdm(target_Excel[index], leave=False):
            if pd.isnull(i):
                continue
            elif i in list(basis_Excel['A']):
                continue
            else:
                resultExcel[targetIndex].append(i)
                count += 1
                if count >= 1020000:
                    count = 0
                    ind += 1
                    targetIndex = field + str(ind)
                    resultExcel[targetIndex] = []
    
    print('等待數(shù)據(jù)合并')
    df = pd.concat([pd.DataFrame(i) for i in resultExcel.values()], axis=1)  
    df.fillna(0) # 取消長短不一致問題 
    df.to_excel('resultExcel.xlsx', header=None, index=False) # 取消表頭與行號
    #上一行中自定義文件名!


removeRepeat()
input('>>> 任意鍵退出...')

運行效果圖:

pandas對比兩張表,Python,pandas,大數(shù)據(jù),數(shù)據(jù)分析,python

?歡迎大家指導交流,共同學習,共同進步!文章來源地址http://www.zghlxwxcb.cn/news/detail-617503.html

到了這里,關于Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Pandas對Excel文件進行讀取、增刪、打開、保存等操作的代碼實現(xiàn)

    Pandas 是一種基于 NumPy 的開源數(shù)據(jù)分析工具,用于處理和分析大量數(shù)據(jù)。Pandas 模塊提供了一組高效的工具,可以輕松地讀取、處理和分析各種類型的數(shù)據(jù),包括 CSV、Excel、SQL 數(shù)據(jù)庫、JSON 等格式的數(shù)據(jù)。 pd.read_csv() / pd.read_excel() / pd.read_sql() 等:讀取不同格式的數(shù)據(jù)文件或 S

    2024年02月13日
    瀏覽(42)
  • Jupyter:用python讀取pandas的csv文件,txt文件和excel文件

    Jupyter:用python讀取pandas的csv文件,txt文件和excel文件

    首先打開Anaconda Powershell Prompt,輸入豆瓣鏡像源相關包的下載地址 ?pip ?install ?-i ?https://pypi.doubanio.com/simple/ ?--trusted-host pypi.doubanio.com com后面要有空格,空格后面加pandas,后面好識別pd(pandas是包名,也可以改成其他任意名字,但是盡量不要改,容易出錯) 按回車,顯示S

    2024年02月04日
    瀏覽(96)
  • Python Pandas 處理Excel數(shù)據(jù) 制圖

    Python Pandas 處理Excel數(shù)據(jù) 制圖

    目錄 1、餅狀圖? 2、條形統(tǒng)計圖

    2024年02月11日
    瀏覽(28)
  • Python:使用pandas對excel數(shù)據(jù)篩選選擇

    #直接篩選 #DataFrame索引使用[], #直接索引語法:df[] 1.1 直接篩選,選擇單列數(shù)據(jù):df[\\\"列\(zhòng)\\"] 1.2直接篩選,選擇多列數(shù)據(jù):df[[\\\"列1\\\",\\\"列2\\\"]](注意:多嵌套列) 1.3直接篩選,選擇多行數(shù)據(jù):df[2:4]按照位置選取連續(xù)的行(切片),前閉后開 #(\\\'----------篩選方式2:條件篩選-------------\\\') #條件篩選

    2024年02月16日
    瀏覽(28)
  • Python的pandas庫來實現(xiàn)將Excel文件轉換為JSON格式的操作

    Python的pandas庫來實現(xiàn)將Excel文件轉換為JSON格式的操作

    ?作者簡介:2022年 博客新星 第八 。熱愛國學的Java后端開發(fā)者,修心和技術同步精進。 ??個人主頁:Java Fans的博客 ??個人信條:不遷怒,不貳過。小知識,大智慧。 ??當前專欄:Python案例分享專欄 ?特色專欄:國學周更-心性養(yǎng)成之路 ??本文內容:Python的pandas庫來實現(xiàn)

    2024年02月09日
    瀏覽(25)
  • Python+pandas數(shù)據(jù)直接寫入和接續(xù)寫入Excel

    Python+pandas數(shù)據(jù)直接寫入和接續(xù)寫入Excel

    數(shù)據(jù)類型(3行7列的數(shù)據(jù))和: (7行1列的數(shù)據(jù)) 直接寫入兩個不同的sheet 效果: 效果 效果 直接寫入:(12條消息) 【python學習】-將數(shù)據(jù)輸出存儲到CSV或xls,xlsx文件(并實現(xiàn)將不同數(shù)據(jù)存儲在同一份文件的不同sheet)_electrochemjy的博客-CSDN博客_python輸出數(shù)據(jù)到csv 接續(xù)寫入:Python

    2024年02月03日
    瀏覽(31)
  • Python 自動獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單(pandas;selenium)

    Python 自動獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單(pandas;selenium)

    自動獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單 部分網(wǎng)頁獲取下拉列表點擊的方式有所差異 這個請根據(jù)網(wǎng)頁源碼自做選擇 一定要學會使用IPDB調試工具 太好用了!?。?! 可能需要pip update一下 看提示 很好解決 沒有報錯最好啦 Python真是太好用了 辦公利器啊?。。?!

    2024年02月12日
    瀏覽(25)
  • 在Python中使用LooseVersion進行軟件版本號比對

    Python是一門極其熱門、極其靈活的開發(fā)語言,其更新迭代的速度也非常的快速。有時候我們遇到不同的軟件版本不同方法處理的情況,此時就需要用到版本號比對的工具。舉一個例子說,我們要在python代碼中區(qū)分numpy版本在1.21.6之前和之后的版本。雖然我們可以自己手寫一個

    2024年02月13日
    瀏覽(8)
  • [數(shù)據(jù)分析實戰(zhàn)]對比用Excel和Python用來做數(shù)據(jù)分析的優(yōu)缺點,用Python的Pandas操作Excel數(shù)據(jù)表格原來如此簡單?還不趕緊學起來?

    [數(shù)據(jù)分析實戰(zhàn)]對比用Excel和Python用來做數(shù)據(jù)分析的優(yōu)缺點,用Python的Pandas操作Excel數(shù)據(jù)表格原來如此簡單?還不趕緊學起來?

    目錄 首先,我先總結一下用Excel和Python用來做數(shù)據(jù)分析的優(yōu)缺點 Excel做數(shù)據(jù)分析的優(yōu)點: Excel做數(shù)據(jù)分析的缺點: Python做數(shù)據(jù)分析的優(yōu)點: Python做數(shù)據(jù)分析的缺點: 1.展示本例子中使用的數(shù)據(jù) 2.開始動手 一、導入數(shù)據(jù)以及理解數(shù)據(jù)部分? 1.1查看數(shù)據(jù)維度(行列) 2.2.查看數(shù)據(jù)格

    2024年02月04日
    瀏覽(21)
  • Python 2.x 中如何使用pandas模塊進行數(shù)據(jù)分析

    Python 2.x 中如何使用pandas模塊進行數(shù)據(jù)分析 概述: 在數(shù)據(jù)分析和數(shù)據(jù)處理過程中,pandas是一個非常強大且常用的Python庫。它提供了數(shù)據(jù)結構和數(shù)據(jù)分析工具,可以實現(xiàn)快速高效的數(shù)據(jù)處理和分析。本文將介紹如何在Python 2.x中使用pandas進行數(shù)據(jù)分析,并為讀者提供一些代碼示例

    2024年02月13日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包