前言
一、PyPDF2庫(kù)是什么?
PyPDF2是一個(gè)用于處理PDF文件的Python庫(kù),它提供了許多用于讀取和操作PDF文件的功能。它可以對(duì)PDF文件進(jìn)行合并、分割、旋轉(zhuǎn)、提取頁(yè)面、加密和解密等操作,也可以添加文本、圖像和水印等元素到PDF文件中。
PyPDF2庫(kù)允許開(kāi)發(fā)人員通過(guò)Python代碼輕松地處理PDF文件,因?yàn)樗峁┝艘恍┖?jiǎn)單易用的接口,同時(shí)它也非常靈活,可以根據(jù)需要進(jìn)行自定義操作。對(duì)于需要處理PDF文件的Python應(yīng)用程序,PyPDF2是一個(gè)非常實(shí)用的工具庫(kù)。
二、安裝PyPDF2庫(kù)
pip install PyPDF2
三、查看PyPDF2庫(kù)版本
pip show PyPDF2
Name: PyPDF2
Version: 3.0.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page:
Author:
Author-email: Mathieu Fenniak biziqe@mathieu.fenniak.net
License:
Requires: typing_extensions
Required-by:
四、使用方法
1.引入庫(kù)
import PyPDF2
2.定義pdf路徑
local = '/Users/kkstar/Downloads/'
3.打開(kāi)PDF文件
with open(local+'demo.pdf', 'rb') as pdf_file:
4.創(chuàng)建PDF閱讀器對(duì)象
pdf_reader = PyPDF2.PdfReader(pdf_file)
5.獲取PDF文件中的頁(yè)數(shù)
num_pages = len(pdf_reader.pages)
6.遍歷每一頁(yè)
for page_num in range(num_pages):
7.獲取當(dāng)前頁(yè)內(nèi)容
page = pdf_reader.pages[page_num]
8.提取當(dāng)前頁(yè)文本
page_text = page.extract_text()
9.打印當(dāng)前頁(yè)文本
print(page_text)
10.效果
大家好,我是空空star,這是第一頁(yè)。
大家好,我是空空star,這是第二頁(yè)。
大家好,我是空空star,這是第三頁(yè)。
Process finished with exit code 0文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-505261.html
總結(jié)
需要提取的pdf截圖文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-505261.html

到了這里,關(guān)于通過(guò)Python的PyPDF2庫(kù)提取pdf中的文字的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!