国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<strong id="dbryx"></strong>

Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本

2年前作者：DreamingBetter分類：Toy博客閱讀(640)違法舉報(bào)

這篇具有很好參考價值的文章主要介紹了Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

本文對使用python讀取pdf、word、excel、ppt、csv、txt等常用文件，并提取所有文本的方法進(jìn)行分享和使用總結(jié)。
可以讀取不同文件的庫和方法當(dāng)然不止下面分享的這些，本文的代碼主要目標(biāo)都是：方便提取文件中所有文本的實(shí)現(xiàn)方式。
這些庫的更多使用方法，請到官方文檔中查閱。

讀取PDF文本：PyPDF2

import PyPDF2

def read_pdf_to_text(file_path):
    with open(file_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
    
        contents_list = []
        for page in pdf_reader.pages:
            content = page.extract_text()
            contents_list.append(content)
    
    return '\n'.join(contents_list)

read_pdf_to_text('xxx.pdf')

讀取Word文本：docx2txt

doc需先手動轉(zhuǎn)換成docx

import docx2txt

def read_docx_to_text(file_path):
    text = docx2txt.process(file_path)
    return text

read_docx_to_text('xxx.docx')

讀取excel文本：pandas

當(dāng)然，pandas能讀取的文件不僅僅是excel，還包括csv、json等。

import pandas as pd

def read_excel_to_text(file_path):
    excel_file = pd.ExcelFile(file_path)
    sheet_names = excel_file.sheet_names

    text_list = []
    for sheet_name in sheet_names:
        df = excel_file.parse(sheet_name)
        text = df.to_string(index=False)
        text_list.append(text)

    return '\n'.join(text_list)

read_excel_to_text('xxx.xlsx')

讀取ppt文本：pptx

from pptx import Presentation

def read_pptx_to_text(file_path):
    prs = Presentation(file_path)
    
    text_list = []
    for slide in prs.slides:
        for shape in slide.shapes:
            if shape.has_text_frame:
                text_frame = shape.text_frame
                text = text_frame.text
                if text:
                    text_list.append(text)
    return '\n'.join(text_list)

read_pptx_to_text('xxx.pptx')

讀取csv、txt其他文本：直接open，read()

def read_txt_to_text(file_path):
    with open(file_path, 'r') as f:
        text = f.read()
    return text

read_txt_to_text('xxx.csv')
read_txt_to_text('xxx.txt')

讀取任何文件格式

有了前面的所有函數(shù)，那我們可以寫一個支持傳任意格式文件的函數(shù)。

support = {
    'pdf': 'read_pdf_to_text',
    'docx': 'read_docx_to_text',
    'xlsx': 'read_excel_to_text',
    'pptx': 'read_pptx_to_text',
    'csv': 'read_txt_to_text',
    'txt': 'read_txt_to_text',
}

def read_any_file_to_text(file_path):
    file_suffix = file_path.split('.')[-1]
    func = support.get(file_suffix)
    if func is None:
        return '暫不支持該文件格式'
    text = eval(func)(file_path)
    return text

read_any_file_to_text('xxx.pdf')
read_any_file_to_text('xxx.docx')
read_any_file_to_text('xxx.xlsx')
read_any_file_to_text('xxx.pptx')
read_any_file_to_text('xxx.csv')
read_any_file_to_text('xxx.txt')

結(jié)語

以上就是全部常見的文件格式的讀取和提取所有文本的全部內(nèi)容了。
更多其他的使用方法請查閱官方文檔。文章來源地址http://www.zghlxwxcb.cn/news/detail-642660.html

到了這里，關(guān)于Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【工具插件類教學(xué)】Unity通過Aspose讀取并顯示打開PDF，PPT，Excel，Word
目錄一、獲取Aspose支持.Net的DLL 二、導(dǎo)入Unity的Plugin文件夾三、分別編寫四種文件的讀取顯示
2024年02月02日
瀏覽(98)
python讀取txt文件內(nèi)容，寫入csv文件中去。
txt文件中的內(nèi)容大概是這樣的： 2．在圖3中，當(dāng)開關(guān)斷開時，R1、R2_______（串聯(lián)/并聯(lián)），當(dāng)開關(guān)閉合時，被短路。開關(guān)由斷開轉(zhuǎn)為閉合時，總電阻，總電流_______，通過R2的電流_______(變大/變小/不變)。 3．如圖3，當(dāng)開關(guān)閉合時，R2兩端電壓為3V，若R2=10Ω，則電流為_______。斷開
2023年04月08日
瀏覽(96)
微信小程序查看word，excel，ppt以及pdf文件（文檔）
?博主介紹：本人專注于Android/java/數(shù)據(jù)庫/微信小程序技術(shù)領(lǐng)域的開發(fā)，以及有好幾年的計(jì)算機(jī)畢業(yè)設(shè)計(jì)方面的實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn)和技術(shù)積累；尤其是在安卓（Android）的app的開發(fā)和微信小程序的開發(fā)，很是熟悉和了解；本人也是多年的Android開發(fā)人員；希望我發(fā)布的此篇文件可以幫
2024年02月07日
瀏覽(121)
vue 實(shí)現(xiàn) word/excel/ppt/pdf 等文件格式預(yù)覽操作
第三方服務(wù)接口地址：XDOC文檔預(yù)覽服務(wù) 特征：有文件大小限制，超過要收費(fèi)！使用方法 ?參考地址：https://api.gitee.com/zhou_andong/vue-office/ 一、安裝插件 vue-office 二、在引用時會涉及版本不兼容的問題可以在npm包庫，查看版本：https://www.npmjs.com/ 1、搜索插件名 2、以下版本沒
2024年02月16日
瀏覽(110)
Python實(shí)現(xiàn)Word、Excel、PPT批量轉(zhuǎn)為PDF
今天看見了一個有意思的腳本Python批量實(shí)現(xiàn)Word、EXCLE、PPT轉(zhuǎn)PDF文件。因?yàn)槲移綍rword用的比較的多，所以深有體會，具體怎么實(shí)現(xiàn)的我們就不討論了，因?yàn)檫@個去學(xué)了也沒什么提升，不然也不會當(dāng)作腳本了。這里我將其放入了pyzjr庫中，也方便大家進(jìn)行調(diào)用。你可以去下載p
2024年02月10日
瀏覽(96)
Python 實(shí)現(xiàn)txt、excel、csv文件讀寫【附源碼】
前言一、txt文件讀寫二、excel文件讀寫總結(jié) 本文介紹使用Python進(jìn)行文件讀寫操作，包括txt文件、excel文件(xlsx、xls、csv) 編譯器使用的是PyCharm read() ???????????????? # 一次性讀取全部內(nèi)容 readline() ? ? ? ? ? ?# 讀取第一行內(nèi)容 readlines() ???????? # 讀取文本全部內(nèi)
2024年02月01日
瀏覽(88)
Python 將列表數(shù)據(jù)寫入文件（txt， csv，excel）
將數(shù)據(jù)寫入新文件將數(shù)據(jù)寫入第 i 行，第 j 列
2024年01月16日
瀏覽(434)
前端（vue）js在線預(yù)覽PDF、Word、Excel、ppt等office文件
可選參數(shù) pdf=true，word文檔嘗試以pdf方式顯示，默認(rèn)false watermark=水印文本，顯示文本水??；“img:”+圖片url表示圖片水印，如：img:https://view.xdocin.com/demo/wm.png saveable=true，是否允許保存源文件，默認(rèn)false printable=false，是否允許打印，默認(rèn)true ?able=false，是否允許選擇復(fù)制內(nèi)容，
2024年02月13日
瀏覽(94)
aspose-words、itextpdf完美解決java將word、excel、ppt、圖片轉(zhuǎn)換為pdf文件
我是傲驕鹿先生，沉淀、學(xué)習(xí)、分享、成長。如果你覺得文章內(nèi)容還可以的話，希望不吝您的「一鍵三連」，文章里面有不足的地方希望各位在評論區(qū)補(bǔ)充疑惑、見解以及面試中遇到的奇葩問法面對日常開發(fā)過程中，將各種文件轉(zhuǎn)換為pdf文件的問題，總是讓人頭疼，這次終
2024年02月03日
瀏覽(96)
Python實(shí)現(xiàn)將txt文件轉(zhuǎn)換成對應(yīng)的excel或csv文件
前言本文是該專欄的第29篇，后面會持續(xù)分享python的各種干貨知識，值得關(guān)注。工作上可能會遇到這樣的情況，使用python將某個txt文本，按照行索引和列索引轉(zhuǎn)換成對應(yīng)的excel文件或者是csv文件。那對于這樣的需求，用python如何實(shí)現(xiàn)呢？跟著筆者直接往下看解決方法。（
2024年02月08日
瀏覽(89)

<em id="3rkfx"><tbody id="3rkfx"></tbody></em>

<progress id="3rkfx"></progress>