国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<object id="4fksq"></object>

<tr id="4fksq"><small id="4fksq"><em id="4fksq"></em></small></tr>

<track id="4fksq"><ruby id="4fksq"><dfn id="4fksq"></dfn></ruby></track>

<label id="4fksq"></label>

<address id="4fksq"><small id="4fksq"><em id="4fksq"></em></small></address>

Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....

2年前作者：Carl_奕然分類：Toy博客閱讀(31)違法舉報

這篇具有很好參考價值的文章主要介紹了Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

1、引言

小屌絲：魚哥，你有沒有什么辦法，提取PDF文檔的內(nèi)容。
小魚：這個還問我？？
小屌絲：哎呀，這個不是被難住了嘛。
小魚：有啥難得？提示你一下，
小屌絲：嗯，可以可以。
小魚：去我的博文找，沒記錯的話，有兩種方法提取pdf的文字。
小屌絲：好嘞，我這就去…找找…
Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....
小屌絲：魚哥，魚哥~
小魚：怎么樣，你的這個需求，解決了吧。
小屌絲：沒呢，我想批量提取指定PDF文檔的內(nèi)容…
小魚：批…量…
小屌絲：對啊，是批量，
小魚：這…還挺…
小屌絲：挺費勁嗎？
小魚：挺好的，不費勁，一口氣，上7樓…
小屌絲：打住… 說正事！！
小魚：好嘞…

想到提取PDF文件的內(nèi)容，我們第一反應(yīng)就是pypdf，
因為pypdf這個庫我在很多篇文章都介紹過，還蠻好用的。
但是，今天，我們不使用pypdf，而是使用另一個庫，即：pdfminer。
Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....

2、代碼實戰(zhàn)

2.1 介紹

pdfminer我相信很多同學(xué)都沒聽說過，除非，你經(jīng)常提取/解析PDF文件的內(nèi)容，否則，你對ta，只能是陌生。

其實，提取PDF文件內(nèi)容解決方案，截止到現(xiàn)在，只有pypdf 和pdfminer這兩種。
所以，如果你厭倦了， pypdf，那只能選擇pdfminer了。

那什么是pdfminer 呢，或者 pdfminer有什么神奇之處呢？

定義
- PDFMiner是用于從PDF文檔提取信息的工具；
- 與其他PDF相關(guān)工具不同，它完全專注于獲取和分析文本數(shù)據(jù)；
功能
- PDFMiner允許獲取頁面中文本的確切位置以及其他信息，例如字體或線條；
- 它包括一個PDF轉(zhuǎn)換器，可以將PDF文件轉(zhuǎn)換為其他文本格式（例如HTML)；

2.2 安裝

由于pdfminer是python 的第三方庫，所以，需要安裝，
老規(guī)矩，直接pip 安裝
安裝

pip install pdfminer

安裝完成：
Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....

因為我們需要用到 pdfminer的high_level 方法，所以
這里必須要在安裝pdfminer.six模塊，否則會報錯：

安裝

pip install pdfminer.six

安裝完成：
Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....

其它安裝方式，直接看這兩篇:

《Python3，選擇Python自動安裝第三方庫，從此跟pip說拜拜?。?/strong>》

《Python3：我低調(diào)的只用一行代碼，就導(dǎo)入Python所有庫！》

2.3 實例

安裝完成，我們就來寫上代碼，
我們先來捋順一下思路，主要分3步：

1、遍歷pdf文件
注：如果文件夾的文件多個，需要單獨提取目標(biāo)pdf文件，否則都會輪巡匹配，費事費力費資源；

2、提取pdf文檔內(nèi)容

3、根據(jù)正則匹配，提取需要的文檔信息

我們就根據(jù)這個思路，來提取"企業(yè)基本情況"，代碼如下：

代碼示例

# -*- coding:utf-8 -*- # @Time : 2022-11-30 # @Author : Carl_DJ from pdfminer import high_level import re,os #pdf文件路徑 #root：文件夾路徑，dirs:文件夾下子目錄名，files：文件夾下的文件 for root,dirs,files in os.walk('./data/'): #遍歷pdf文件 for f in files: file_name = os.path.join(root,f) if file_name.endswith('.pdf'): #提取整個 pdf 文本信息 text = high_level.extract_text(file_name) #提取 pdf文檔中 "企業(yè)進(jìn)本情況:" 后面的信息，利用正則進(jìn)行匹配 regex = r'企業(yè)基本情況-(.*?)\n' qy_base = re.findall(regex,text) print(f'輸出信息：{qy_base}')

pdf文件

運(yùn)行結(jié)果

3、總結(jié)

看到這里，今天的分享，差不多就該結(jié)束了。
解析PDF是一件非常耗時和耗內(nèi)存的工作，因此，pdfminer使用一種稱作Lazy Parsing的策略，減少內(nèi)耗…
小屌絲：怪不得，提到批量提取pdf的文檔內(nèi)容，你會猶豫了…
小魚：對啊，因為我們的的測試文檔內(nèi)容很少，所以對內(nèi)存的消耗相對來說沒那么驗證，當(dāng)PDF文檔的內(nèi)容很多時，就不得不使用pdfminer了。

并且，關(guān)于pdf文檔的內(nèi)容提取，我們能多學(xué)習(xí)幾個技能，就多學(xué)習(xí)幾個技能。

技能多了，路就多了，最后，收入也就多了。

我是小魚：

CSDN 博客專家；

阿里云社區(qū) 專家博主；

金牌面試官

51 講師；

關(guān)注我，帶你學(xué)習(xí)更多更有趣的Python知識。文章來源地址http://www.zghlxwxcb.cn/news/detail-442870.html
到了這里，關(guān)于Python3，9行批量提取PDF文件的指定內(nèi)容，這種操作，保證人見人愛....的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

如何批量提取pdf文件名到excel？
nbsp; nbsp; 如何批量提取pdf文件名到excel？在大家整理PDF文檔的時候會不會遇到下面這些問題，首先PDF過多，每個PDF文件都有自己的名字，我們想要分類排放的話非常麻煩，不僅耗費時間而且?guī)淼氖找娣浅５?，然后即使我們整理好了PDF文檔，后續(xù)想要尋找這些PDF文檔的話也是
2024年02月03日
瀏覽(87)
Ansible批量操作（上傳文件、刪除文件&指定文件內(nèi)容、執(zhí)行sh文件等）
官方網(wǎng)站 https://www.ansible.com/ 一、Ansible 簡介 1、Ansible是新出現(xiàn)的自動化運(yùn)維工具，完全基于Python開發(fā)，集合了眾多運(yùn)維工具（puppet、chef、func、fabric）的優(yōu)點，實現(xiàn)了批量系統(tǒng)配置、批量程序部署、批量運(yùn)行命令等功能。 2、Ansible是基于 paramiko 開發(fā)的，并且基于模塊化工作，
2024年04月16日
瀏覽(20)
python批量處理修改pdf內(nèi)容
? 將PDF轉(zhuǎn)換為Word：使用pdf2docx庫中的Converter類來進(jìn)行PDF轉(zhuǎn)換。 convert_pdf_to_docx 函數(shù)接受PDF文件路徑和輸出的Word文檔路徑作為參數(shù)。通過調(diào)用Converter對象的 convert 方法將PDF轉(zhuǎn)換為Docx格式。最后調(diào)用 close 方法關(guān)閉Converter對象并保存轉(zhuǎn)換后的文檔。將Word轉(zhuǎn)換為Excel：使用docx庫
2024年01月25日
瀏覽(22)
用python提取PDF中各類文本內(nèi)容的方法
從PDF文檔中提取信息，是很多類似RAG這樣的應(yīng)用第一步要處理的事情，這里需要做好三件事：提取出來的文本要保持信息完整性，也就是準(zhǔn)確性提出的結(jié)果需要有附加信息，也就是要保存元數(shù)據(jù) 提取過程要完成自動化，也就是流程化然而，在我們開始之前，我們需要指定目
2024年02月01日
瀏覽(20)
【PDFBox】PDFBox操作PDF文檔之讀取指定頁面文本內(nèi)容、讀取所有頁面文本內(nèi)容、根據(jù)模板文件生成PDF文檔
這篇文章，主要介紹PDFBox操作PDF文檔之讀取指定頁面文本內(nèi)容、讀取所有頁面文本內(nèi)容、根據(jù)模板文件生成PDF文檔。目錄一、PDFBox操作文本 1.1、讀取所有頁面文本內(nèi)容 1.2、讀取指定頁面文本內(nèi)容 1.3、寫入文本內(nèi)容 1.4、替換文本內(nèi)容（1）自定義PDTextStripper類（2）創(chuàng)建Key
2024年02月16日
瀏覽(23)
python讀取word/pdf文檔，指定文字內(nèi)容和圖片
任務(wù)要求：將每頁需要的內(nèi)容讀取出來放到不同的文件夾，找出含有指定內(nèi)容的頁面創(chuàng)建文件夾，然后把相關(guān)的內(nèi)容和圖片放進(jìn)去。 pdf 讀起來比較方便，按頁碼讀取文件:
2024年02月12日
瀏覽(40)
Python讀取指定的TXT文本文件并從中提取指定數(shù)據(jù)的方法
??本文介紹基于 Python 語言，遍歷文件夾并從中找到文件名稱符合我們需求的多個 .txt 格式文本文件，并從上述每一個文本文件中，找到我們需要的指定數(shù)據(jù) ，最后得到所有文本文件中我們需要的數(shù)據(jù)的合集的方法。 ??首先，我們來明確一下本文的具體需求。現(xiàn)有
2024年02月14日
瀏覽(96)
使用Python批量將Word文件轉(zhuǎn)為PDF文件
說明：在使用Minio服務(wù)器時，無法對word文件預(yù)覽，如果有需要的話，可以將word文件轉(zhuǎn)為pdf文件，再存儲到Minio中，本文介紹如何批量將word文件，轉(zhuǎn)為pdf格式的文件；首先，需要安裝一個庫， pywin32 ；可以在cmd窗口敲下面的命令安裝，使用阿里云鏡像：如果你使用的是pycha
2024年02月12日
瀏覽(24)
caj文件怎么轉(zhuǎn)換成pdf？了解一下這種方法
caj文件怎么轉(zhuǎn)換成pdf？如果你曾經(jīng)遇到過需要將CAJ文件轉(zhuǎn)換成PDF格式的情況，那么你一定知道這是一件麻煩的事情。幸運(yùn)的是，現(xiàn)在有許多軟件和工具可以幫助你完成這項任務(wù)。下面就給大家介紹一款使用工具。 ? 【迅捷PDF轉(zhuǎn)換器】是一款功能強(qiáng)大的工具，可以快速將CA
2024年02月14日
瀏覽(20)
（Arcgis）Python3.8批量裁剪利用shp文件裁剪tif柵格影像數(shù)據(jù)
使用環(huán)境： pycharm2020 arcgis pro 中的python3.8 一、pycharm中設(shè)置python編譯器。左上角“文件”——“設(shè)置”——找到python interpreter——找到arcgis pro安裝文件夾中的python 使用arcgis pro原因：自帶 arcpy 庫，不需要進(jìn)行 pip install 安裝。（我是有python官網(wǎng)上的，但是不知道為什么裝不了
2024年01月21日
瀏覽(23)

感谢您访问我们的网站，您可能还对以下资源感兴趣：
国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区