国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<del id="hfpub"><noscript id="hfpub"></noscript></del>

<th id="hfpub"></th>

Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理

2年前作者：小張沖鴨分類：Toy博客閱讀(88)違法舉報

這篇具有很好參考價值的文章主要介紹了Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重

背景介紹：

通俗理解有兩個excel文件分別為A和B

我要從B中去掉A中含有的數(shù)據(jù)，數(shù)據(jù)量大約在300w左右

因為數(shù)據(jù)量較大，無論是wps還是office自帶的去重都無法正常使用這樣就需要用到腳本了

話不多說，代碼如下：

import pandas as pd
from tqdm import tqdm


# 引號內填寫需要去重的表格路徑

targetExcel = r'./222.xlsx'

# 引號內填寫依據(jù)表格的路徑

basisExcel = r'./11.xlsx'

# 引號內填寫輸出字段

field = 'removeRepeatResult'


def removeRepeat():

    count = 0
    ind   = 1
    targetIndex = field + str(ind)
    resultExcel  = {
        field+'1': []
    }
    header = ['A','B','C','D','E','F','G','H','I','J','K']

    print('讀取數(shù)據(jù)')
    target_Excel = pd.read_excel(targetExcel,header=None,names=header, dtype='object')
    basis_Excel  = pd.read_excel(basisExcel,header=None,names=['A'], dtype='object')
    print('讀取成功')

    for index in tqdm(header):
        for i in tqdm(target_Excel[index], leave=False):
            if pd.isnull(i):
                continue
            elif i in list(basis_Excel['A']):
                continue
            else:
                resultExcel[targetIndex].append(i)
                count += 1
                if count >= 1020000:
                    count = 0
                    ind += 1
                    targetIndex = field + str(ind)
                    resultExcel[targetIndex] = []
    
    print('等待數(shù)據(jù)合并')
    df = pd.concat([pd.DataFrame(i) for i in resultExcel.values()], axis=1)  
    df.fillna(0) # 取消長短不一致問題 
    df.to_excel('resultExcel.xlsx', header=None, index=False) # 取消表頭與行號
    #上一行中自定義文件名！


removeRepeat()
input('>>> 任意鍵退出...')

運行效果圖：

pandas對比兩張表,Python,pandas,大數(shù)據(jù),數(shù)據(jù)分析,python

?歡迎大家指導交流，共同學習，共同進步！文章來源地址http://www.zghlxwxcb.cn/news/detail-617503.html

到了這里，關于Python用pandas進行大數(shù)據(jù)Excel兩文件比對去重300w大數(shù)據(jù)處理的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

Pandas對Excel文件進行讀取、增刪、打開、保存等操作的代碼實現(xiàn)
Pandas 是一種基于 NumPy 的開源數(shù)據(jù)分析工具，用于處理和分析大量數(shù)據(jù)。Pandas 模塊提供了一組高效的工具，可以輕松地讀取、處理和分析各種類型的數(shù)據(jù)，包括 CSV、Excel、SQL 數(shù)據(jù)庫、JSON 等格式的數(shù)據(jù)。 pd.read_csv() / pd.read_excel() / pd.read_sql() 等：讀取不同格式的數(shù)據(jù)文件或 S
2024年02月13日
瀏覽(42)
Jupyter：用python讀取pandas的csv文件，txt文件和excel文件
首先打開Anaconda Powershell Prompt，輸入豆瓣鏡像源相關包的下載地址 ?pip ?install ?-i ?https://pypi.doubanio.com/simple/ ?--trusted-host pypi.doubanio.com com后面要有空格，空格后面加pandas，后面好識別pd（pandas是包名，也可以改成其他任意名字，但是盡量不要改，容易出錯）按回車，顯示S
2024年02月04日
瀏覽(96)
Python Pandas 處理Excel數(shù)據(jù) 制圖
目錄 1、餅狀圖? 2、條形統(tǒng)計圖
2024年02月11日
瀏覽(28)
Python：使用pandas對excel數(shù)據(jù)篩選選擇
#直接篩選 #DataFrame索引使用[], #直接索引語法:df[] 1.1 直接篩選,選擇單列數(shù)據(jù)：df[\\\"列\(zhòng)\\"] 1.2直接篩選,選擇多列數(shù)據(jù)：df[[\\\"列1\\\",\\\"列2\\\"]](注意:多嵌套列) 1.3直接篩選,選擇多行數(shù)據(jù)：df[2:4]按照位置選取連續(xù)的行(切片)，前閉后開 #(\\\'----------篩選方式2：條件篩選-------------\\\') #條件篩選
2024年02月16日
瀏覽(28)
Python的pandas庫來實現(xiàn)將Excel文件轉換為JSON格式的操作
?作者簡介：2022年博客新星第八。熱愛國學的Java后端開發(fā)者，修心和技術同步精進。 ??個人主頁：Java Fans的博客 ??個人信條：不遷怒，不貳過。小知識，大智慧。 ??當前專欄：Python案例分享專欄 ?特色專欄：國學周更-心性養(yǎng)成之路 ??本文內容：Python的pandas庫來實現(xiàn)
2024年02月09日
瀏覽(25)
Python+pandas數(shù)據(jù)直接寫入和接續(xù)寫入Excel
數(shù)據(jù)類型（3行7列的數(shù)據(jù)）和：（7行1列的數(shù)據(jù)）直接寫入兩個不同的sheet 效果：效果效果直接寫入：(12條消息) 【python學習】-將數(shù)據(jù)輸出存儲到CSV或xls,xlsx文件(并實現(xiàn)將不同數(shù)據(jù)存儲在同一份文件的不同sheet)_electrochemjy的博客-CSDN博客_python輸出數(shù)據(jù)到csv 接續(xù)寫入：Python
2024年02月03日
瀏覽(31)
Python 自動獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單（pandas；selenium）
自動獲取大批量excel數(shù)據(jù)并填寫到網(wǎng)頁表單部分網(wǎng)頁獲取下拉列表點擊的方式有所差異這個請根據(jù)網(wǎng)頁源碼自做選擇一定要學會使用IPDB調試工具太好用了！?。?！可能需要pip update一下看提示很好解決沒有報錯最好啦 Python真是太好用了辦公利器啊?。。?！
2024年02月12日
瀏覽(25)
在Python中使用LooseVersion進行軟件版本號比對
Python是一門極其熱門、極其靈活的開發(fā)語言，其更新迭代的速度也非常的快速。有時候我們遇到不同的軟件版本不同方法處理的情況，此時就需要用到版本號比對的工具。舉一個例子說，我們要在python代碼中區(qū)分numpy版本在1.21.6之前和之后的版本。雖然我們可以自己手寫一個
2024年02月13日
瀏覽(8)
[數(shù)據(jù)分析實戰(zhàn)]對比用Excel和Python用來做數(shù)據(jù)分析的優(yōu)缺點，用Python的Pandas操作Excel數(shù)據(jù)表格原來如此簡單？還不趕緊學起來？
目錄首先，我先總結一下用Excel和Python用來做數(shù)據(jù)分析的優(yōu)缺點 Excel做數(shù)據(jù)分析的優(yōu)點： Excel做數(shù)據(jù)分析的缺點： Python做數(shù)據(jù)分析的優(yōu)點： Python做數(shù)據(jù)分析的缺點： 1.展示本例子中使用的數(shù)據(jù) 2.開始動手一、導入數(shù)據(jù)以及理解數(shù)據(jù)部分? 1.1查看數(shù)據(jù)維度(行列) 2.2.查看數(shù)據(jù)格
2024年02月04日
瀏覽(21)
Python 2.x 中如何使用pandas模塊進行數(shù)據(jù)分析
Python 2.x 中如何使用pandas模塊進行數(shù)據(jù)分析概述: 在數(shù)據(jù)分析和數(shù)據(jù)處理過程中，pandas是一個非常強大且常用的Python庫。它提供了數(shù)據(jù)結構和數(shù)據(jù)分析工具，可以實現(xiàn)快速高效的數(shù)據(jù)處理和分析。本文將介紹如何在Python 2.x中使用pandas進行數(shù)據(jù)分析，并為讀者提供一些代碼示例
2024年02月13日
瀏覽(29)

<kbd id="zvdke"><div id="zvdke"><td id="zvdke"></td></div></kbd>