国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

用python實(shí)現(xiàn)檢查一個(gè)文件夾中所有word文件內(nèi)容是否重復(fù)

這篇具有很好參考價(jià)值的文章主要介紹了用python實(shí)現(xiàn)檢查一個(gè)文件夾中所有word文件內(nèi)容是否重復(fù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

要檢查一個(gè)文件夾中所有Word文件的內(nèi)容是否重復(fù),你可以使用Python的python-docx庫(kù)來(lái)讀取Word文件的內(nèi)容,并使用Python的集合數(shù)據(jù)結(jié)構(gòu)來(lái)檢查重復(fù)項(xiàng)。

以下是一個(gè)示例代碼,演示如何實(shí)現(xiàn)這個(gè)功能:

 

python復(fù)制代碼

import os
from docx import Document
def get_word_files(directory):
"""獲取指定目錄下的所有Word文件"""
word_files = []
for filename in os.listdir(directory):
if filename.endswith('.docx') or filename.endswith('.doc'):
word_files.append(os.path.join(directory, filename))
return word_files
def get_file_contents(file):
"""讀取Word文件內(nèi)容并返回文本列表"""
doc = Document(file)
contents = [paragraph.text for paragraph in doc.paragraphs]
return contents
def check_duplicates(word_files):
"""檢查Word文件內(nèi)容是否有重復(fù)"""
seen = set() # 用于存儲(chǔ)已見(jiàn)過(guò)的內(nèi)容
duplicates = [] # 用于存儲(chǔ)重復(fù)的內(nèi)容
for file in word_files:
contents = get_file_contents(file)
content_hash = hash(tuple(contents)) # 將內(nèi)容轉(zhuǎn)換為哈希值以便快速比較
if content_hash in seen:
duplicates.append(file) # 發(fā)現(xiàn)重復(fù)內(nèi)容,記錄文件名
else:
seen.add(content_hash) # 添加哈希值到已見(jiàn)過(guò)集合中
return duplicates # 返回包含重復(fù)內(nèi)容的文件名列表
# 示例用法:檢查指定目錄下的所有Word文件內(nèi)容是否重復(fù)
directory = 'path/to/your/directory' # 替換為你的目錄路徑
word_files = get_word_files(directory)
duplicates = check_duplicates(word_files)
print("重復(fù)內(nèi)容的文件:", duplicates)

請(qǐng)注意,這個(gè)示例代碼使用了python-docx庫(kù)來(lái)讀取Word文件的內(nèi)容。如果你還沒(méi)有安裝這個(gè)庫(kù),可以使用以下命令來(lái)安裝:

 

bash復(fù)制代碼文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-819331.html

pip install python-docx

到了這里,關(guān)于用python實(shí)現(xiàn)檢查一個(gè)文件夾中所有word文件內(nèi)容是否重復(fù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • python獲取文件夾下所有文件

    python獲取文件夾下所有文件,大家肯定都會(huì)想到os.listdir了,但是這種方法只能夠獲取到當(dāng)前文件夾中的所有文件/文件夾,如果我想獲得文件夾-文件夾-文件呢? 我的需求是只要文件夾中所有非文件夾,換句話來(lái)說(shuō)對(duì)于我們的需求只有文件夾和非文件夾兩種情況,那么直接聯(lián)

    2024年02月12日
    瀏覽(24)
  • Java獲取指定文件夾下目錄下所有視頻并復(fù)制到另一個(gè)地方
  • python遍歷文件夾下的所有子文件夾,并將指定的文件復(fù)制到指定目錄

    python遍歷文件夾下的所有子文件夾,并將指定的文件復(fù)制到指定目錄

    在1文件夾中有1,2兩個(gè)文件夾 將這兩個(gè)文件夾中的文件復(fù)制到 after_copy中 源文件 復(fù)制后: 參考1 源文件 復(fù)制后 參考2 如果復(fù)制bmp文件就將 suffix = \\\".json\\\" 改為 suffix = \\\".bmp\\\"

    2024年02月11日
    瀏覽(97)
  • Node.js:實(shí)現(xiàn)遍歷文件夾下所有文件

    Node.js:實(shí)現(xiàn)遍歷文件夾 代碼如下 參考文章 如何使用Node.js遍歷文件夾詳解

    2024年02月13日
    瀏覽(30)
  • [python]裁剪文件夾中所有pdf文檔并按名稱保存到指定的文件夾

    [python]裁剪文件夾中所有pdf文檔并按名稱保存到指定的文件夾

    最近在寫論文的實(shí)驗(yàn)部分,由于latex需要pdf格式的文檔,審稿專家需要對(duì)pdf圖片進(jìn)行裁剪放大,以保證圖片質(zhì)量。 原圖: 裁剪后的圖像: 代碼粘貼如下。將input_folder和output_folder替換即可。(x1, y1), (x2, y2) 分別代表裁剪框的像素位置。

    2024年01月19日
    瀏覽(29)
  • python判斷文件夾是否存在,不存在則創(chuàng)建它,并將文件夾下所有的文件及子文件刪除

    1、python判斷文件夾是否存在,不存在則創(chuàng)建它,并將文件夾下所有的文件及子文件刪除 2、python之判斷文件文件夾是否存在,存在則刪除,不存在則創(chuàng)建 2.1、刪除文件于文件夾 使用os.remove刪除文件夾會(huì)出現(xiàn)拒絕訪問(wèn)的錯(cuò)誤,所以要使用以下方式進(jìn)行刪除 2.2、創(chuàng)建文件與文件

    2024年02月11日
    瀏覽(117)
  • CMake 將所有 Target 的工程在 Visual Studio 中加到同一個(gè)文件夾

    我想要將所有 Target 的工程在 Visual Studio 中加到同一個(gè)文件夾 一開始我想要重寫 add_library 函數(shù),來(lái)獲取到那些 lib 添加了,進(jìn)而獲得所有的 library,存到一個(gè) list 里面,最后對(duì)這個(gè) list 遍歷,設(shè)置 folder 之后我發(fā)現(xiàn)還有 utility 類型的工程,我就覺(jué)得不能單單看 library 了,應(yīng)該是

    2024年02月09日
    瀏覽(25)
  • 如何用python獲取單個(gè)文件 或 文件夾中所有文件的行數(shù)

    如何用python獲取單個(gè)文件 或 文件夾中所有文件的行數(shù)

    本例展示獲取單個(gè)txt文件中的行數(shù): 本例展示獲取labels下的所有txt文件內(nèi)容的總行數(shù): 函數(shù)解釋 os.walk()是一種遍歷目錄數(shù)的函數(shù),機(jī)理類似深度優(yōu)先搜索和層次搜索策略,其返回的是 root dirs files 返回值解釋 root :代表當(dāng)前遍歷的目錄路徑,string類型 dirs :代表root路徑下的

    2024年02月09日
    瀏覽(96)
  • Python小技巧【1】——獲取指定文件夾下的所有文件【glob模塊】

    Python小技巧【1】——獲取指定文件夾下的所有文件【glob模塊】

    glob模塊 是Python標(biāo)準(zhǔn)庫(kù)中一個(gè)重要的模塊,主要用來(lái) 查找符合特定規(guī)則的目錄和文件,并將搜索的到的結(jié)果返回到一個(gè)列表中。 ?1、常用函數(shù)glob() 返回符合匹配條件的所有文件的路徑。 ?2、重要參數(shù)recursive recursive參數(shù) 代表是否遞歸調(diào)用,與特殊通配符 ** 一同使用,默認(rèn)為

    2024年02月04日
    瀏覽(96)
  • python怎么創(chuàng)建一個(gè)文件夾,用python創(chuàng)建一個(gè)文件夾

    python怎么創(chuàng)建一個(gè)文件夾,用python創(chuàng)建一個(gè)文件夾

    大家好,小編來(lái)為大家解答以下問(wèn)題,python中如何創(chuàng)建一個(gè)新文件,python如何創(chuàng)建一個(gè)文件夾,今天讓我們一起來(lái)看看吧! 這篇文章主要介紹了如何通過(guò)python新建一個(gè)文件中的文件,具有一定借鑒價(jià)值,需要的朋友可以參考下。希望大家閱讀完這篇文章后大有收獲,下面讓小

    2024年04月29日
    瀏覽(31)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包