国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容

這篇具有很好參考價(jià)值的文章主要介紹了python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

使用python讀取文件,其中pdf、docx、pptx可以直接讀,.ppt和.doc文件不能直接讀,需要轉(zhuǎn)換成.pptx和.docx文件,并且需要區(qū)分系統(tǒng)
如果是linux系統(tǒng),請(qǐng)先安裝組件

#doc2docx
yum install -y libreoffice-headless
yum install -y libreoffice-writer

# ppt2pptx
yum install epel-release -y
yum install libgdiplus -y
pip3 install aspose.slides

python代碼如下:文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-668601.html

import os


def read_pptx(fp):
    import pptx
    prs = pptx.Presentation(fp)
    for i, slide in enumerate(prs.slides):
        # if i == 1:  在這里可以指定提取ppt的具體頁(yè)數(shù)
        for shape in slide.shapes:
            if shape.has_text_frame:
                text_frame = shape.text_frame
                print(str(i) + '頁(yè):' + text_frame.text)


def read_ppt(fp):
    import platform
    os_type = platform.system()
    if os_type == "Windows":
        import win32com.client as wc
        powerpoint = wc.Dispatch("PowerPoint.Application")
        wc.gencache.EnsureDispatch("PowerPoint.Application")
        powerpoint.Visible = 1
        ppt = powerpoint.Presentations.Open(fp)
        ppt.SaveAs(fp+"x")
        powerpoint.Quit()
    elif os_type == "Linux":
        import aspose.slides as slides
        with slides.Presentation(fp) as presentation:
            presentation.save(fp+"x", slides.export.SaveFormat.PPTX)
    read_pptx(fp+"x")

def read_docx(fp):
    import docx
    file = docx.Document(fp)
    print("段落數(shù):" + str(len(file.paragraphs)))  # 段落數(shù)為13,每個(gè)回車(chē)隔離一段
    # 輸出每一段的內(nèi)容
    for para in file.paragraphs:
        print(para.text)

def read_doc(fp):
    import platform
    os_type = platform.system()
    if os_type == "Windows":
        import doc2docx
        doc2docx.convert(fp,fp+"x")
    elif os_type == "Linux":
        import subprocess
        subprocess.check_output(["soffice", "--headless", "–-invisible", "--convert-to", "docx", fp, "--outdir", fp+"x"])
    read_docx(fp + "x")


def read_pdf(fp):
    import pdfplumber
    pdfFile = open(fp,"rb")
    pdf = pdfplumber.open(pdfFile)
    for page in pdf.pages:
        text = page.extract_text()
        print(text)


# file_path = "*.pptx"
file_path = "*.ppt"
# file_path = "*.docx"
# file_path = "*.doc"
# file_path = "*.pdf"
file_extension = os.path.splitext(file_path)[-1].lower()
print("文件后綴:" + file_extension)
if file_extension == '.pptx':
    print("讀取pptx文件")
    read_pptx(file_path)
elif file_extension == '.ppt':
    print("讀取ppt文件")
    read_ppt(file_path)
elif file_extension == ".docx":
    print("讀取docx文件")
    read_docx(file_path)
elif file_extension == ".doc":
    print("讀取doc文件")
    read_doc(file_path)
elif file_extension == ".pdf":
    print("讀取pdf文件")
    read_pdf(file_path)

到了這里,關(guān)于python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • uniapp 在線預(yù)覽各種格式文件(支持doc, xls, ppt, pdf, docx, xlsx, pptx格式) 適用于小程序 (解決了真機(jī)調(diào)試可以打開(kāi),發(fā)布體驗(yàn)版打不開(kāi)的問(wèn)題)(可設(shè)置文件名)

    代碼: 參考官方文檔: uni.saveFile(OBJECT) @savefile | uni-app官網(wǎng) uni-app,uniCloud,serverless https://uniapp.dcloud.net.cn/api/file/file.html#opendocument tips: 問(wèn)題一: 打不開(kāi) ? ? ? ? 1. 文件地址須保證能正常打開(kāi)(在瀏覽器中嘗試是否能預(yù)覽或正常下載) ? ? ? ? 2.注意文件名最好為數(shù)字字母(非中文) 問(wèn)題

    2024年02月05日
    瀏覽(27)
  • Java給文件加水印,支持.pptx,.doc,.docx,.xls,.xlsx,.pdf,.png,.jpg。

    office 相關(guān)格式文檔的加密主要使用微軟提供的Spire.Office for Java ,free部分有針對(duì)性每個(gè)類(lèi)型的API說(shuō)明和示例,請(qǐng)自行參考以下鏈接。下面也會(huì)附上我在項(xiàng)目中的實(shí)際工具類(lèi)。 Spire.Office for Java | 專(zhuān)業(yè)的 Java Office 套件 | 創(chuàng)建、修改、轉(zhuǎn)換、打印 Word/PowerPoint/PDF 文檔 我的策略是

    2024年02月12日
    瀏覽(26)
  • Go如何自動(dòng)解壓縮包?如何讀取docx/doc文件內(nèi)容?

    在開(kāi)發(fā)過(guò)程中,我們常常需要處理壓縮包和文檔文件。本文將介紹如何使用Go語(yǔ)言自動(dòng)解壓縮包和讀取docx/doc文件。 壓縮包格式 常見(jiàn)的壓縮包格式有zip、gzip、bzip2等。在Go語(yǔ)言中,使用archive/zip、compress/gzip、compress/bzip2包可以輕松地處理這些格式的文件。 解壓zip文件 使用arc

    2023年04月08日
    瀏覽(18)
  • Python實(shí)現(xiàn)將pdf,docx,xls,doc,wps鏈接下載并將文件保存到本地

    Python實(shí)現(xiàn)將pdf,docx,xls,doc,wps鏈接下載并將文件保存到本地

    前言 本文是該專(zhuān)欄的第31篇,后面會(huì)持續(xù)分享python的各種干貨知識(shí),值得關(guān)注。 在工作上,尤其是在處理爬蟲(chóng)項(xiàng)目中,會(huì)遇到這樣的需求。訪問(wèn)某個(gè)網(wǎng)頁(yè)或者在采集某個(gè)頁(yè)面的時(shí)候,正文部分含有docx,或pdf,或xls,或doc,或wps,或ofd,或xlsx,或zip等鏈接。需要你使用python自

    2024年02月16日
    瀏覽(98)
  • Python實(shí)現(xiàn)將pdf,docx,xls,doc,wps,zip,xlsx,ofd鏈接下載并將文件保存到本地

    Python實(shí)現(xiàn)將pdf,docx,xls,doc,wps,zip,xlsx,ofd鏈接下載并將文件保存到本地

    前言 本文是該專(zhuān)欄的第31篇,后面會(huì)持續(xù)分享python的各種干貨知識(shí),值得關(guān)注。 在工作上,尤其是在處理爬蟲(chóng)項(xiàng)目中,會(huì)遇到這樣的需求。訪問(wèn)某個(gè)網(wǎng)頁(yè)或者在采集某個(gè)頁(yè)面的時(shí)候,正文部分含有docx,或pdf,或xls,或doc,或wps,或ofd,或xlsx,或zip等鏈接。需要你使用python自

    2024年02月17日
    瀏覽(39)
  • vue - - - - - 在線預(yù)覽常見(jiàn)文件格式 .doc, .docx, .xls, .xlsx,.pdf

    vue - - - - - 在線預(yù)覽常見(jiàn)文件格式 .doc, .docx, .xls, .xlsx,.pdf

    關(guān)于一些文件的在線預(yù)覽,最簡(jiǎn)易的實(shí)現(xiàn)方式是什么呢? 寫(xiě)在前面 .png, .jpg, .jpeg 等圖片格式 直接預(yù)覽http/https地址 即可 .pdf 文件 直接預(yù)覽http/https地址 即可 .doc, .docx, .xls, .xlsx 等類(lèi)型文件,需要在預(yù)覽地址之前拼接上 https://view.officeapps.live.com/op/view.aspx?src= .ofd 等類(lèi)型文件,需

    2024年02月09日
    瀏覽(62)
  • Python 實(shí)現(xiàn) PDF 到 Word 文檔的高效轉(zhuǎn)換(DOC、DOCX)

    Python 實(shí)現(xiàn) PDF 到 Word 文檔的高效轉(zhuǎn)換(DOC、DOCX)

    PDF(Portable Document Format)已成為一種廣泛使用的電子文檔格式。PDF的主要優(yōu)勢(shì)是跨平臺(tái),可以在不同設(shè)備上呈現(xiàn)一致的外觀。然而,當(dāng)我們需要對(duì)文件內(nèi)容進(jìn)行編輯或修改,直接編輯PDF文件會(huì)非常困難,而且效果也不理想。將PDF文件轉(zhuǎn)換為Word文檔(doc、docx)再進(jìn)行編輯是一

    2024年02月03日
    瀏覽(30)
  • 前端vue3實(shí)現(xiàn)本地及在線文件預(yù)覽(含pdf/txt/mp3/mp4/docx/xlsx/pptx)

    前端vue3實(shí)現(xiàn)本地及在線文件預(yù)覽(含pdf/txt/mp3/mp4/docx/xlsx/pptx)

    (一)微軟office免費(fèi)預(yù)覽( 推薦 ) 支持doc/docx/xls/xlsx/ppt/pptx等多種office文件格式的免費(fèi)預(yù)覽 (二)XDOC文檔預(yù)覽云服務(wù) ?移動(dòng)端和PC端無(wú)插件預(yù)覽PDF、OFD、Word、WPS等多種格式文檔 本地或內(nèi)網(wǎng)預(yù)覽需要借助插件實(shí)現(xiàn),pdf、mp3、mp4等主要靠原生標(biāo)簽或?yàn)g覽器自帶功能,盡量減少

    2024年02月05日
    瀏覽(63)
  • vue實(shí)戰(zhàn)--vue+elementUI實(shí)現(xiàn)多文件上傳+預(yù)覽(word/PDF/圖片/docx/doc/xlxs/txt)

    vue實(shí)戰(zhàn)--vue+elementUI實(shí)現(xiàn)多文件上傳+預(yù)覽(word/PDF/圖片/docx/doc/xlxs/txt)

    ????最近在做vue2.0+element UI的項(xiàng)目中遇到了一個(gè)需求:需求是多個(gè)文件上傳的同時(shí)實(shí)現(xiàn)文件的在線預(yù)覽功能。需求圖如下: ????看到這個(gè)需求的時(shí)候,小栗腦袋一炸。并不知道該如何下手,之前的實(shí)踐項(xiàng)目中也并沒(méi)有遇到相似的功能。因此也廢了一番功夫想要實(shí)現(xiàn)這樣一個(gè)

    2024年01月23日
    瀏覽(36)
  • Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本

    本文對(duì)使用python讀取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法進(jìn)行分享和使用總結(jié)。 可以讀取不同文件的庫(kù)和方法當(dāng)然不止下面分享的這些,本文的代碼主要目標(biāo)都是:方便提取文件中所有文本的實(shí)現(xiàn)方式。 這些庫(kù)的更多使用方法,請(qǐng)到官方文檔中查

    2024年02月13日
    瀏覽(641)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包