国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="4sbal"></kbd>

python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容

2年前作者：chenxianchong分類(lèi)：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

使用python讀取文件，其中pdf、docx、pptx可以直接讀，.ppt和.doc文件不能直接讀，需要轉(zhuǎn)換成.pptx和.docx文件，并且需要區(qū)分系統(tǒng)
如果是linux系統(tǒng)，請(qǐng)先安裝組件

#doc2docx
yum install -y libreoffice-headless
yum install -y libreoffice-writer

# ppt2pptx
yum install epel-release -y
yum install libgdiplus -y
pip3 install aspose.slides

python代碼如下：文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-668601.html

import os


def read_pptx(fp):
    import pptx
    prs = pptx.Presentation(fp)
    for i, slide in enumerate(prs.slides):
        # if i == 1:  在這里可以指定提取ppt的具體頁(yè)數(shù)
        for shape in slide.shapes:
            if shape.has_text_frame:
                text_frame = shape.text_frame
                print(str(i) + '頁(yè)：' + text_frame.text)


def read_ppt(fp):
    import platform
    os_type = platform.system()
    if os_type == "Windows":
        import win32com.client as wc
        powerpoint = wc.Dispatch("PowerPoint.Application")
        wc.gencache.EnsureDispatch("PowerPoint.Application")
        powerpoint.Visible = 1
        ppt = powerpoint.Presentations.Open(fp)
        ppt.SaveAs(fp+"x")
        powerpoint.Quit()
    elif os_type == "Linux":
        import aspose.slides as slides
        with slides.Presentation(fp) as presentation:
            presentation.save(fp+"x", slides.export.SaveFormat.PPTX)
    read_pptx(fp+"x")

def read_docx(fp):
    import docx
    file = docx.Document(fp)
    print("段落數(shù):" + str(len(file.paragraphs)))  # 段落數(shù)為13，每個(gè)回車(chē)隔離一段
    # 輸出每一段的內(nèi)容
    for para in file.paragraphs:
        print(para.text)

def read_doc(fp):
    import platform
    os_type = platform.system()
    if os_type == "Windows":
        import doc2docx
        doc2docx.convert(fp,fp+"x")
    elif os_type == "Linux":
        import subprocess
        subprocess.check_output(["soffice", "--headless", "–-invisible", "--convert-to", "docx", fp, "--outdir", fp+"x"])
    read_docx(fp + "x")


def read_pdf(fp):
    import pdfplumber
    pdfFile = open(fp,"rb")
    pdf = pdfplumber.open(pdfFile)
    for page in pdf.pages:
        text = page.extract_text()
        print(text)


# file_path = "*.pptx"
file_path = "*.ppt"
# file_path = "*.docx"
# file_path = "*.doc"
# file_path = "*.pdf"
file_extension = os.path.splitext(file_path)[-1].lower()
print("文件后綴：" + file_extension)
if file_extension == '.pptx':
    print("讀取pptx文件")
    read_pptx(file_path)
elif file_extension == '.ppt':
    print("讀取ppt文件")
    read_ppt(file_path)
elif file_extension == ".docx":
    print("讀取docx文件")
    read_docx(file_path)
elif file_extension == ".doc":
    print("讀取doc文件")
    read_doc(file_path)
elif file_extension == ".pdf":
    print("讀取pdf文件")
    read_pdf(file_path)

到了這里，關(guān)于python讀取pdf、doc、docx、ppt、pptx文件內(nèi)容的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

uniapp 在線預(yù)覽各種格式文件(支持doc, xls, ppt, pdf, docx, xlsx, pptx格式) 適用于小程序 (解決了真機(jī)調(diào)試可以打開(kāi),發(fā)布體驗(yàn)版打不開(kāi)的問(wèn)題)(可設(shè)置文件名)
代碼: 參考官方文檔: uni.saveFile(OBJECT) @savefile | uni-app官網(wǎng) uni-app,uniCloud,serverless https://uniapp.dcloud.net.cn/api/file/file.html#opendocument tips: 問(wèn)題一: 打不開(kāi) ? ? ? ? 1. 文件地址須保證能正常打開(kāi)(在瀏覽器中嘗試是否能預(yù)覽或正常下載) ? ? ? ? 2.注意文件名最好為數(shù)字字母(非中文) 問(wèn)題
2024年02月05日
瀏覽(27)
Java給文件加水印，支持.pptx,.doc,.docx,.xls,.xlsx,.pdf,.png,.jpg。
office 相關(guān)格式文檔的加密主要使用微軟提供的Spire.Office for Java ，free部分有針對(duì)性每個(gè)類(lèi)型的API說(shuō)明和示例，請(qǐng)自行參考以下鏈接。下面也會(huì)附上我在項(xiàng)目中的實(shí)際工具類(lèi)。 Spire.Office for Java ｜專(zhuān)業(yè)的 Java Office 套件｜創(chuàng)建、修改、轉(zhuǎn)換、打印 Word/PowerPoint/PDF 文檔我的策略是
2024年02月12日
瀏覽(26)
Go如何自動(dòng)解壓縮包？如何讀取docx/doc文件內(nèi)容？
在開(kāi)發(fā)過(guò)程中，我們常常需要處理壓縮包和文檔文件。本文將介紹如何使用Go語(yǔ)言自動(dòng)解壓縮包和讀取docx/doc文件。壓縮包格式常見(jiàn)的壓縮包格式有zip、gzip、bzip2等。在Go語(yǔ)言中，使用archive/zip、compress/gzip、compress/bzip2包可以輕松地處理這些格式的文件。解壓zip文件使用arc
2023年04月08日
瀏覽(18)
Python實(shí)現(xiàn)將pdf，docx，xls，doc，wps鏈接下載并將文件保存到本地
前言本文是該專(zhuān)欄的第31篇，后面會(huì)持續(xù)分享python的各種干貨知識(shí)，值得關(guān)注。在工作上，尤其是在處理爬蟲(chóng)項(xiàng)目中，會(huì)遇到這樣的需求。訪問(wèn)某個(gè)網(wǎng)頁(yè)或者在采集某個(gè)頁(yè)面的時(shí)候，正文部分含有docx，或pdf，或xls，或doc，或wps，或ofd，或xlsx，或zip等鏈接。需要你使用python自
2024年02月16日
瀏覽(98)
Python實(shí)現(xiàn)將pdf，docx，xls，doc，wps，zip，xlsx，ofd鏈接下載并將文件保存到本地
前言本文是該專(zhuān)欄的第31篇，后面會(huì)持續(xù)分享python的各種干貨知識(shí)，值得關(guān)注。在工作上，尤其是在處理爬蟲(chóng)項(xiàng)目中，會(huì)遇到這樣的需求。訪問(wèn)某個(gè)網(wǎng)頁(yè)或者在采集某個(gè)頁(yè)面的時(shí)候，正文部分含有docx，或pdf，或xls，或doc，或wps，或ofd，或xlsx，或zip等鏈接。需要你使用python自
2024年02月17日
瀏覽(39)
vue - - - - - 在線預(yù)覽常見(jiàn)文件格式 .doc, .docx, .xls, .xlsx,.pdf
關(guān)于一些文件的在線預(yù)覽，最簡(jiǎn)易的實(shí)現(xiàn)方式是什么呢？寫(xiě)在前面 .png, .jpg, .jpeg 等圖片格式直接預(yù)覽http/https地址即可 .pdf 文件直接預(yù)覽http/https地址即可 .doc, .docx, .xls, .xlsx 等類(lèi)型文件，需要在預(yù)覽地址之前拼接上 https://view.officeapps.live.com/op/view.aspx?src= .ofd 等類(lèi)型文件，需
2024年02月09日
瀏覽(62)
Python 實(shí)現(xiàn) PDF 到 Word 文檔的高效轉(zhuǎn)換（DOC、DOCX）
PDF（Portable Document Format）已成為一種廣泛使用的電子文檔格式。PDF的主要優(yōu)勢(shì)是跨平臺(tái)，可以在不同設(shè)備上呈現(xiàn)一致的外觀。然而，當(dāng)我們需要對(duì)文件內(nèi)容進(jìn)行編輯或修改，直接編輯PDF文件會(huì)非常困難，而且效果也不理想。將PDF文件轉(zhuǎn)換為Word文檔（doc、docx）再進(jìn)行編輯是一
2024年02月03日
瀏覽(30)
前端vue3實(shí)現(xiàn)本地及在線文件預(yù)覽（含pdf/txt/mp3/mp4/docx/xlsx/pptx）
（一）微軟office免費(fèi)預(yù)覽（推薦）支持doc/docx/xls/xlsx/ppt/pptx等多種office文件格式的免費(fèi)預(yù)覽（二）XDOC文檔預(yù)覽云服務(wù) ?移動(dòng)端和PC端無(wú)插件預(yù)覽PDF、OFD、Word、WPS等多種格式文檔本地或內(nèi)網(wǎng)預(yù)覽需要借助插件實(shí)現(xiàn)，pdf、mp3、mp4等主要靠原生標(biāo)簽或?yàn)g覽器自帶功能，盡量減少
2024年02月05日
瀏覽(63)
vue實(shí)戰(zhàn)--vue+elementUI實(shí)現(xiàn)多文件上傳+預(yù)覽（word/PDF/圖片/docx/doc/xlxs/txt）
????最近在做vue2.0+element UI的項(xiàng)目中遇到了一個(gè)需求：需求是多個(gè)文件上傳的同時(shí)實(shí)現(xiàn)文件的在線預(yù)覽功能。需求圖如下： ????看到這個(gè)需求的時(shí)候，小栗腦袋一炸。并不知道該如何下手，之前的實(shí)踐項(xiàng)目中也并沒(méi)有遇到相似的功能。因此也廢了一番功夫想要實(shí)現(xiàn)這樣一個(gè)
2024年01月23日
瀏覽(36)
Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本
本文對(duì)使用python讀取pdf、word、excel、ppt、csv、txt等常用文件，并提取所有文本的方法進(jìn)行分享和使用總結(jié)。可以讀取不同文件的庫(kù)和方法當(dāng)然不止下面分享的這些，本文的代碼主要目標(biāo)都是：方便提取文件中所有文本的實(shí)現(xiàn)方式。這些庫(kù)的更多使用方法，請(qǐng)到官方文檔中查
2024年02月13日
瀏覽(641)

<kbd id="jtzjs"></kbd>