国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本

這篇具有很好參考價值的文章主要介紹了Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

本文對使用python讀取pdf、word、excel、ppt、csv、txt等常用文件,并提取所有文本的方法進(jìn)行分享和使用總結(jié)。
可以讀取不同文件的庫和方法當(dāng)然不止下面分享的這些,本文的代碼主要目標(biāo)都是:方便提取文件中所有文本的實(shí)現(xiàn)方式。
這些庫的更多使用方法,請到官方文檔中查閱。

讀取PDF文本:PyPDF2

import PyPDF2

def read_pdf_to_text(file_path):
    with open(file_path, 'rb') as pdf_file:
        pdf_reader = PyPDF2.PdfReader(pdf_file)
    
        contents_list = []
        for page in pdf_reader.pages:
            content = page.extract_text()
            contents_list.append(content)
    
    return '\n'.join(contents_list)

read_pdf_to_text('xxx.pdf')

讀取Word文本:docx2txt

doc需先手動轉(zhuǎn)換成docx

import docx2txt

def read_docx_to_text(file_path):
    text = docx2txt.process(file_path)
    return text

read_docx_to_text('xxx.docx')

讀取excel文本:pandas

當(dāng)然,pandas能讀取的文件不僅僅是excel,還包括csv、json等。

import pandas as pd

def read_excel_to_text(file_path):
    excel_file = pd.ExcelFile(file_path)
    sheet_names = excel_file.sheet_names

    text_list = []
    for sheet_name in sheet_names:
        df = excel_file.parse(sheet_name)
        text = df.to_string(index=False)
        text_list.append(text)

    return '\n'.join(text_list)

read_excel_to_text('xxx.xlsx')

讀取ppt文本:pptx

from pptx import Presentation

def read_pptx_to_text(file_path):
    prs = Presentation(file_path)
    
    text_list = []
    for slide in prs.slides:
        for shape in slide.shapes:
            if shape.has_text_frame:
                text_frame = shape.text_frame
                text = text_frame.text
                if text:
                    text_list.append(text)
    return '\n'.join(text_list)

read_pptx_to_text('xxx.pptx')

讀取csv、txt其他文本:直接open,read()

def read_txt_to_text(file_path):
    with open(file_path, 'r') as f:
        text = f.read()
    return text

read_txt_to_text('xxx.csv')
read_txt_to_text('xxx.txt')

讀取任何文件格式

有了前面的所有函數(shù),那我們可以寫一個支持傳任意格式文件的函數(shù)。

support = {
    'pdf': 'read_pdf_to_text',
    'docx': 'read_docx_to_text',
    'xlsx': 'read_excel_to_text',
    'pptx': 'read_pptx_to_text',
    'csv': 'read_txt_to_text',
    'txt': 'read_txt_to_text',
}

def read_any_file_to_text(file_path):
    file_suffix = file_path.split('.')[-1]
    func = support.get(file_suffix)
    if func is None:
        return '暫不支持該文件格式'
    text = eval(func)(file_path)
    return text

read_any_file_to_text('xxx.pdf')
read_any_file_to_text('xxx.docx')
read_any_file_to_text('xxx.xlsx')
read_any_file_to_text('xxx.pptx')
read_any_file_to_text('xxx.csv')
read_any_file_to_text('xxx.txt')

結(jié)語

以上就是全部常見的文件格式的讀取和提取所有文本的全部內(nèi)容了。
更多其他的使用方法請查閱官方文檔。文章來源地址http://www.zghlxwxcb.cn/news/detail-642660.html

到了這里,關(guān)于Python - 讀取pdf、word、excel、ppt、csv、txt文件提取所有文本的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【工具插件類教學(xué)】Unity通過Aspose讀取并顯示打開PDF,PPT,Excel,Word

    目錄 一、獲取Aspose支持.Net的DLL 二、導(dǎo)入Unity的Plugin文件夾 三、分別編寫四種文件的讀取顯示

    2024年02月02日
    瀏覽(98)
  • python讀取txt文件內(nèi)容,寫入csv文件中去。

    txt文件中的內(nèi)容大概是這樣的: 2.在圖3中,當(dāng)開關(guān)斷開時,R1、R2_______(串聯(lián)/并聯(lián)),當(dāng)開關(guān)閉合時, 被短路。開關(guān)由斷開轉(zhuǎn)為閉合時,總電阻 ,總電流_______,通過R2的電流_______(變大/變小/不變)。 3.如圖3,當(dāng)開關(guān)閉合時,R2兩端電壓為3V,若R2=10Ω,則電流為_______。斷開

    2023年04月08日
    瀏覽(96)
  • 微信小程序查看word,excel,ppt以及pdf文件(文檔)

    微信小程序查看word,excel,ppt以及pdf文件(文檔)

    ?博主介紹: 本人專注于Android/java/數(shù)據(jù)庫/微信小程序技術(shù)領(lǐng)域的開發(fā),以及有好幾年的計(jì)算機(jī)畢業(yè)設(shè)計(jì)方面的實(shí)戰(zhàn)開發(fā)經(jīng)驗(yàn)和技術(shù)積累;尤其是在安卓(Android)的app的開發(fā)和微信小程序的開發(fā),很是熟悉和了解;本人也是多年的Android開發(fā)人員;希望我發(fā)布的此篇文件可以幫

    2024年02月07日
    瀏覽(121)
  • vue 實(shí)現(xiàn) word/excel/ppt/pdf 等文件格式預(yù)覽操作

    vue 實(shí)現(xiàn) word/excel/ppt/pdf 等文件格式預(yù)覽操作

    第三方服務(wù)接口地址:XDOC文檔預(yù)覽服務(wù) 特征: 有文件大小限制,超過要收費(fèi)! 使用方法 ?參考地址:https://api.gitee.com/zhou_andong/vue-office/ 一、安裝插件 vue-office 二、在引用時會涉及版本不兼容的問題 可以在npm包庫 ,查看版本:https://www.npmjs.com/ 1、搜索插件名 2、以下版本沒

    2024年02月16日
    瀏覽(110)
  • Python實(shí)現(xiàn)Word、Excel、PPT批量轉(zhuǎn)為PDF

    Python實(shí)現(xiàn)Word、Excel、PPT批量轉(zhuǎn)為PDF

    今天看見了一個有意思的腳本Python批量實(shí)現(xiàn)Word、EXCLE、PPT轉(zhuǎn)PDF文件。 因?yàn)槲移綍rword用的比較的多,所以深有體會,具體怎么實(shí)現(xiàn)的我們就不討論了,因?yàn)檫@個去學(xué)了也沒什么提升,不然也不會當(dāng)作腳本了。這里我將其放入了pyzjr庫中,也方便大家進(jìn)行調(diào)用。 你可以去下載p

    2024年02月10日
    瀏覽(96)
  • Python 實(shí)現(xiàn)txt、excel、csv文件讀寫【附源碼】

    Python 實(shí)現(xiàn)txt、excel、csv文件讀寫【附源碼】

    前言 一、txt文件讀寫 二、excel文件讀寫 總結(jié) 本文介紹使用Python進(jìn)行文件讀寫操作,包括txt文件、excel文件(xlsx、xls、csv) 編譯器使用的是PyCharm read() ???????????????? # 一次性讀取全部內(nèi)容 readline() ? ? ? ? ? ?# 讀取第一行內(nèi)容 readlines() ???????? # 讀取文本全部內(nèi)

    2024年02月01日
    瀏覽(88)
  • Python 將列表數(shù)據(jù)寫入文件(txt, csv,excel)

    Python 將列表數(shù)據(jù)寫入文件(txt, csv,excel)

    將數(shù)據(jù)寫入新文件 將數(shù)據(jù)寫入第 i 行,第 j 列

    2024年01月16日
    瀏覽(434)
  • 前端(vue)js在線預(yù)覽PDF、Word、Excel、ppt等office文件

    可選參數(shù) pdf=true,word文檔嘗試以pdf方式顯示,默認(rèn)false watermark=水印文本,顯示文本水??;“img:”+圖片url表示圖片水印,如:img:https://view.xdocin.com/demo/wm.png saveable=true,是否允許保存源文件,默認(rèn)false printable=false,是否允許打印,默認(rèn)true ?able=false,是否允許選擇復(fù)制內(nèi)容,

    2024年02月13日
    瀏覽(94)
  • aspose-words、itextpdf完美解決java將word、excel、ppt、圖片轉(zhuǎn)換為pdf文件

    aspose-words、itextpdf完美解決java將word、excel、ppt、圖片轉(zhuǎn)換為pdf文件

    我是 傲驕鹿先生 ,沉淀、學(xué)習(xí)、分享、成長。 如果你覺得文章內(nèi)容還可以的話,希望不吝您的「一鍵三連」,文章里面有不足的地方希望各位在評論區(qū)補(bǔ)充疑惑、見解以及面試中遇到的奇葩問法 面對日常開發(fā)過程中,將各種文件轉(zhuǎn)換為pdf文件的問題,總是讓人頭疼,這次終

    2024年02月03日
    瀏覽(96)
  • Python實(shí)現(xiàn)將txt文件轉(zhuǎn)換成對應(yīng)的excel或csv文件

    Python實(shí)現(xiàn)將txt文件轉(zhuǎn)換成對應(yīng)的excel或csv文件

    前言 本文是該專欄的第29篇,后面會持續(xù)分享python的各種干貨知識,值得關(guān)注。 工作上可能會遇到這樣的情況,使用python將某個txt文本,按照 行索引 和 列索引 轉(zhuǎn)換成對應(yīng)的excel文件或者是csv文件。 那對于這樣的需求,用python如何實(shí)現(xiàn)呢?跟著筆者直接往下看解決方法。(

    2024年02月08日
    瀏覽(89)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包