国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....

這篇具有很好參考價值的文章主要介紹了Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、引言

小屌絲:魚哥, 你有沒有什么辦法,提取PDF文檔的內(nèi)容。
小魚:這個還問我??
小屌絲:哎呀,這個不是被難住了嘛 。
小魚:有啥難得?提示你一下,
小屌絲:嗯,可以可以。
小魚:去我的博文找,沒記錯的話,有兩種方法提取pdf的文字。
小屌絲:好嘞, 我這就去…找找…
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....
小屌絲:魚哥,魚哥~
小魚:怎么樣,你的這個需求,解決了吧。
小屌絲:沒呢,我想批量提取指定PDF文檔的內(nèi)容…
小魚:批…量…
小屌絲:對啊,是批量,
小魚:這…還挺…
小屌絲:挺費勁嗎?
小魚:挺好的 ,不費勁, 一口氣,上7樓…
小屌絲:打住… 說正事! !
小魚:好嘞…

想到提取PDF文件的內(nèi)容,我們第一反應(yīng)就是pypdf,
因為pypdf這個庫我在很多篇文章都介紹過, 還蠻好用的。
但是,今天,我們不使用pypdf,而是使用另一個庫,即:pdfminer
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....

2、代碼實戰(zhàn)

2.1 介紹

pdfminer我相信很多同學(xué)都沒聽說過,除非,你經(jīng)常提取/解析PDF文件的內(nèi)容,否則,你對ta,只能是陌生。

其實,提取PDF文件內(nèi)容解決方案,截止到現(xiàn)在, 只有pypdf 和pdfminer這兩種。
所以, 如果你厭倦了, pypdf,那只能選擇pdfminer了。

那什么是pdfminer 呢,或者 pdfminer有什么神奇之處呢?

  • 定義
    • PDFMiner是用于從PDF文檔提取信息的工具;
    • 與其他PDF相關(guān)工具不同,它完全專注于獲取和分析文本數(shù)據(jù);
  • 功能
    • PDFMiner允許獲取頁面中文本的確切位置以及其他信息,例如字體或線條;
    • 它包括一個PDF轉(zhuǎn)換器,可以將PDF文件轉(zhuǎn)換為其他文本格式(例如HTML);

2.2 安裝

由于pdfminer是python 的第三方庫, 所以,需要安裝,
老規(guī)矩, 直接pip 安裝
安裝

pip install pdfminer

安裝完成:
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....

因為我們需要用到 pdfminer的high_level 方法,所以
這里必須要在安裝pdfminer.six模塊,否則會報錯:

安裝

pip install pdfminer.six

安裝完成:
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....

其它安裝方式,直接看這兩篇:

  • Python3,選擇Python自動安裝第三方庫,從此跟pip說拜拜?。?/strong>》
  • Python3:我低調(diào)的只用一行代碼,就導(dǎo)入Python所有庫!

2.3 實例

安裝完成,我們就來寫上代碼,
我們先來捋順一下思路,主要分3步:

  • 1、遍歷pdf文件
    • :如果文件夾的文件多個,需要單獨提取目標(biāo)pdf文件,否則都會輪巡匹配,費事費力費資源;
  • 2、提取pdf文檔內(nèi)容
  • 3、根據(jù)正則匹配,提取需要的文檔信息

我們就根據(jù)這個思路,來提取"企業(yè)基本情況",代碼如下:

代碼示例

# -*- coding:utf-8 -*-
# @Time   : 2022-11-30
# @Author : Carl_DJ


from pdfminer import high_level
import re,os

#pdf文件路徑
#root:文件夾路徑,dirs:文件夾下子目錄名,files:文件夾下的文件
for root,dirs,files in os.walk('./data/'):
    #遍歷pdf文件
    for f in files:
        file_name = os.path.join(root,f)
        if file_name.endswith('.pdf'):
            #提取整個 pdf 文本信息
            text = high_level.extract_text(file_name)
            #提取 pdf文檔中 "企業(yè)進(jìn)本情況:" 后面的信息,利用正則進(jìn)行匹配
            regex = r'企業(yè)基本情況-(.*?)\n'
            qy_base = re.findall(regex,text)
            print(f'輸出信息:{qy_base}')


pdf文件
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....
運(yùn)行結(jié)果
Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....

3、總結(jié)

看到這里,今天的分享,差不多就該結(jié)束了。
解析PDF是一件非常耗時和耗內(nèi)存的工作,因此,pdfminer使用一種稱作Lazy Parsing的策略,減少內(nèi)耗…
小屌絲:怪不得, 提到批量提取pdf的文檔內(nèi)容, 你會猶豫了…
小魚:對啊,因為我們的的測試文檔內(nèi)容很少,所以對內(nèi)存的消耗相對來說沒那么驗證,當(dāng)PDF文檔的內(nèi)容很多時, 就不得不使用pdfminer了。

并且, 關(guān)于pdf文檔的內(nèi)容提取,我們能多學(xué)習(xí)幾個技能,就多學(xué)習(xí)幾個技能。

技能多了,路就多了,最后,收入也就多了。

我是小魚

  • CSDN 博客專家
  • 阿里云社區(qū) 專家博主;
  • 金牌面試官
  • 51 講師;

關(guān)注我,帶你學(xué)習(xí)更多更有趣的Python知識。文章來源地址http://www.zghlxwxcb.cn/news/detail-442870.html

到了這里,關(guān)于Python3,9行批量提取PDF文件的指定內(nèi)容,這種操作,保證人見人愛....的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 如何批量提取pdf文件名到excel?

    如何批量提取pdf文件名到excel?

    nbsp; nbsp; 如何批量提取pdf文件名到excel?在大家整理PDF文檔的時候會不會遇到下面這些問題,首先PDF過多,每個PDF文件都有自己的名字,我們想要分類排放的話非常麻煩,不僅耗費時間而且?guī)淼氖找娣浅5?,然后即使我們整理好了PDF文檔,后續(xù)想要尋找這些PDF文檔的話也是

    2024年02月03日
    瀏覽(87)
  • Ansible批量操作(上傳文件、刪除文件&指定文件內(nèi)容、執(zhí)行sh文件等)

    Ansible批量操作(上傳文件、刪除文件&指定文件內(nèi)容、執(zhí)行sh文件等)

    官方網(wǎng)站 https://www.ansible.com/ 一、Ansible 簡介 1、Ansible是新出現(xiàn)的自動化運(yùn)維工具,完全基于Python開發(fā),集合了眾多運(yùn)維工具(puppet、chef、func、fabric)的優(yōu)點,實現(xiàn)了批量系統(tǒng)配置、批量程序部署、批量運(yùn)行命令等功能。 2、Ansible是基于 paramiko 開發(fā)的,并且基于模塊化工作,

    2024年04月16日
    瀏覽(20)
  • python批量處理修改pdf內(nèi)容

    python批量處理修改pdf內(nèi)容

    ? 將PDF轉(zhuǎn)換為Word: 使用pdf2docx庫中的Converter類來進(jìn)行PDF轉(zhuǎn)換。 convert_pdf_to_docx 函數(shù)接受PDF文件路徑和輸出的Word文檔路徑作為參數(shù)。 通過調(diào)用Converter對象的 convert 方法將PDF轉(zhuǎn)換為Docx格式。 最后調(diào)用 close 方法關(guān)閉Converter對象并保存轉(zhuǎn)換后的文檔。 將Word轉(zhuǎn)換為Excel: 使用docx庫

    2024年01月25日
    瀏覽(22)
  • 用python提取PDF中各類文本內(nèi)容的方法

    用python提取PDF中各類文本內(nèi)容的方法

    從PDF文檔中提取信息,是很多類似RAG這樣的應(yīng)用第一步要處理的事情,這里需要做好三件事: 提取出來的文本要保持信息完整性,也就是準(zhǔn)確性 提出的結(jié)果需要有附加信息,也就是要保存元數(shù)據(jù) 提取過程要完成自動化,也就是流程化 然而,在我們開始之前,我們需要指定目

    2024年02月01日
    瀏覽(20)
  • 【PDFBox】PDFBox操作PDF文檔之讀取指定頁面文本內(nèi)容、讀取所有頁面文本內(nèi)容、根據(jù)模板文件生成PDF文檔

    【PDFBox】PDFBox操作PDF文檔之讀取指定頁面文本內(nèi)容、讀取所有頁面文本內(nèi)容、根據(jù)模板文件生成PDF文檔

    這篇文章,主要介紹PDFBox操作PDF文檔之讀取指定頁面文本內(nèi)容、讀取所有頁面文本內(nèi)容、根據(jù)模板文件生成PDF文檔。 目錄 一、PDFBox操作文本 1.1、讀取所有頁面文本內(nèi)容 1.2、讀取指定頁面文本內(nèi)容 1.3、寫入文本內(nèi)容 1.4、替換文本內(nèi)容 (1)自定義PDTextStripper類 (2)創(chuàng)建Key

    2024年02月16日
    瀏覽(23)
  • python讀取word/pdf文檔,指定文字內(nèi)容和圖片

    任務(wù)要求: 將每頁需要的內(nèi)容讀取出來放到不同的文件夾,找出含有指定內(nèi)容的頁面創(chuàng)建文件夾,然后把相關(guān)的內(nèi)容和圖片放進(jìn)去。 pdf 讀起來比較方便, 按頁碼讀取文件:

    2024年02月12日
    瀏覽(40)
  • Python讀取指定的TXT文本文件并從中提取指定數(shù)據(jù)的方法

    Python讀取指定的TXT文本文件并從中提取指定數(shù)據(jù)的方法

    ??本文介紹基于 Python 語言,遍歷文件夾并從中找到文件名稱符合我們需求的多個 .txt 格式文本文件,并從上述 每一個文本文件 中,找到 我們需要的指定數(shù)據(jù) ,最后得到 所有文本文件中 我們 需要的數(shù)據(jù)的合集 的方法。 ??首先,我們來明確一下本文的具體需求。現(xiàn)有

    2024年02月14日
    瀏覽(96)
  • 使用Python批量將Word文件轉(zhuǎn)為PDF文件

    使用Python批量將Word文件轉(zhuǎn)為PDF文件

    說明:在使用Minio服務(wù)器時,無法對word文件預(yù)覽,如果有需要的話,可以將word文件轉(zhuǎn)為pdf文件,再存儲到Minio中,本文介紹如何批量將word文件,轉(zhuǎn)為pdf格式的文件; 首先,需要安裝一個庫, pywin32 ; 可以在cmd窗口敲下面的命令安裝,使用阿里云鏡像: 如果你使用的是pycha

    2024年02月12日
    瀏覽(24)
  • caj文件怎么轉(zhuǎn)換成pdf?了解一下這種方法

    caj文件怎么轉(zhuǎn)換成pdf?了解一下這種方法

    caj文件怎么轉(zhuǎn)換成pdf?如果你曾經(jīng)遇到過需要將CAJ文件轉(zhuǎn)換成PDF格式的情況,那么你一定知道這是一件麻煩的事情。幸運(yùn)的是,現(xiàn)在有許多軟件和工具可以幫助你完成這項任務(wù)。下面就給大家介紹一款使用工具。 ? 【 迅捷PDF轉(zhuǎn)換器 】 是一款功能強(qiáng)大的工具,可以快速將CA

    2024年02月14日
    瀏覽(20)
  • (Arcgis)Python3.8批量裁剪利用shp文件裁剪tif柵格影像數(shù)據(jù)

    使用環(huán)境: pycharm2020 arcgis pro 中的python3.8 一、pycharm中設(shè)置python編譯器。左上角“文件”——“設(shè)置”——找到python interpreter——找到arcgis pro安裝文件夾中的python 使用arcgis pro原因 :自帶 arcpy 庫,不需要進(jìn)行 pip install 安裝。(我是有python官網(wǎng)上的,但是不知道為什么裝不了

    2024年01月21日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包