国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

求助Claude GPT | PyPDF2 親測可用

2年前作者：丁丁貓 Codeye分類：Toy博客閱讀(24)違法舉報

這篇具有很好參考價值的文章主要介紹了求助Claude GPT | PyPDF2 親測可用。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

直接Copy網(wǎng)上流傳最廣的代碼完成提取PDF轉(zhuǎn)文本，十有八九報錯！

流傳的是舊版本用法，造成的問題是命令規(guī)則用法變化。

常見的報錯：

1、讀取PDF文檔命令的變化：

去除PdfFileReader不可用，

改為PyPDF2.PdfReader(read_pdf)

**報錯信息：

PyPDF2.errors.DeprecationError:?
PdfFileReader?is?deprecated?and?
was?removed?in?PyPDF2?3.0.0.?
Use?PdfReader?instead.

2、獲取PDF文檔頁數(shù)的命令變化：

去除reader.getPage(page_number)不可用，

改為reader.pages[page_number]

PyPDF2.errors.DeprecationError:?
reader.getPage(pageNumber)?is?
deprecated?and?was?removed?in?
PyPDF2?3.0.0.?
Use?reader.pages[page_number]?instead.

3、編碼格式錯誤提示

location.writelines(extract_text)
UnicodeEncodeError:?

'cp950'?codec?can't?encode?character
'\u2212'?in?position?0:?
illegal?multibyte?sequence

求助Claude GPT給出的修改建議

錯誤表示在寫入提取的文本時,遇到了無法使用指定的編碼'cp950'來編碼文本中的某個字符。

具體是遇到了一個破折號字符'\u2212',它在Unicode中的編碼無法用cp950來表示，所以拋出了UnicodeEncodeError。

可能的解決方案:

嘗試使用其他編碼格式來寫入文件,比如'utf-8':

#1?方案
location.writelines(extract_text.encode('utf-8'))

將無法編碼的字符替換為可編碼的字符:

#2?方案
extract_text?=?extract_text.replace('\u2212',?'-')
location.writelines(extract_text)

忽略無法編碼的字符:

#3?方案
location.writelines(extract_text.encode('cp950',?errors='ignore'))

將文本轉(zhuǎn)化為另一種兼容格式再寫入:

#4?方案
extract_text?=?extract_text.encode('cp950',?errors='ignore').decode('cp950')?
location.writelines(extract_text)

主要原因是'cp950'編碼范圍有限,無法表示文本中的所有Unicode字符。

可以嘗試更高版本的Unicode編碼如utf-8,或者處理掉無法編碼的字符。

結(jié)論：經(jīng)過測試方案#3 有效，一次運(yùn)行成功通過！

完整的PDF 2 TXT 的代碼：

import?PyPDF2
read_pdf?=?open("D://0?All_in_one//Alevel?教程//Game?Theory?An?Introduction.pdf",?'rb')
pdfload?=?PyPDF2.PdfReader(read_pdf)

num_pages?=?len(pdfload.pages)#read_pdf.numPages
print(num_pages)

#?初始化文本字符串變量
text?=?""

#?遍歷每一頁
for?pageNum?in?range(num_pages):
????pageObj?=?pdfload.pages[pageNum-1]
????text?+=?pageObj.extract_text()

#?保存文本結(jié)果
location?=?open("D://0?All_in_one//Alevel?教程//Game?Theory?An?Introduction.txt",?"a")
outfile?=?"D://0?All_in_one//Alevel?教程//Game?Theory?An?Introduction.txt"
with?open(outfile,?'w')?as?f:
????f.writelines(text.encode('cp950',?errors='ignore').decode('cp950'))

更多相關(guān)鏈接：

本文由 mdnice 多平臺發(fā)布文章來源地址http://www.zghlxwxcb.cn/news/detail-562829.html

到了這里，關(guān)于求助Claude GPT | PyPDF2 親測可用的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python—遇到的問題，使用PyPDF2轉(zhuǎn)化pdf時候遇到的各種問題。
PDF 轉(zhuǎn)化時候出現(xiàn)異常問題，直接出現(xiàn)報錯，提示刪除了該方法。上傳字體
2024年02月13日
瀏覽(36)
「Python-PDF 專欄」PyPDF2 打開并獲取PDF的信息
導(dǎo)入必要的模塊和函數(shù)：首先，我們需要導(dǎo)入 PyPDF2 庫，以便能夠訪問其中的功能。使用以下代碼將PyPDF2導(dǎo)入到Python腳本中：
2024年02月02日
瀏覽(24)
【Python入門教程】Python壓縮PDF（fitz、aspose.pdf、PyPDF2）
????????我們平時在使用PDF時有時會遇到PDF過大的情況，例如最近我在進(jìn)行工程制圖時，需要將影像使用PDF導(dǎo)出，這就導(dǎo)致PDF文件會非常大，一般有200M左右，這對于數(shù)據(jù)傳輸非常不友好。同時有很多軟件的PDF壓縮功能都需要收費，所以今天就跟大家分享一下如何使用Pyth
2024年02月22日
瀏覽(21)
python使用第三方庫PyPDF2、PDFMiner或pdfplumber來解析PDF文件
使用第三方庫PyPDF2、PDFMiner或pdfplumber來解析PDF文件可以實現(xiàn)PDF文件的內(nèi)容提取、搜索和修改等功能。下面是使用PDFMiner來解析PDF文件的安裝說明和代碼示例： PDFMiner 下面是一些PDFMiner的常見操作： 1.安裝PDFMiner庫：在Python環(huán)境中，可以使用pip命令安裝PDFMiner庫。 2.導(dǎo)入PDFMiner庫
2024年02月09日
瀏覽(28)
【ChatGPT】通過 Monica 免費使用 GPT-4 （親測可用）
? 目錄 Monica - Your ChatGPT AI Assistant Chrome Extension Monica是什么？
2024年02月08日
瀏覽(48)
AIGC分享交流平臺、GPT-4、GPT實時聯(lián)網(wǎng)、Claude
擁有無限暢談的AI個人助理，提高效率和創(chuàng)造力，引領(lǐng)未來的智能生活；不僅承載著最前沿的科技理念，更集成了對人工智能可能性的深度理解。已支持基于GPT、Claude等主流大模型的對話內(nèi)容生成、支持GPT聯(lián)網(wǎng)查詢實時信息；基于Stable Diffusion模型的圖片生成；還可以分享獲
2024年02月14日
瀏覽(16)
分享一個國內(nèi)可用的AIGC網(wǎng)站，PC/手機(jī)端通用｜免費無限制，支持Claude3 Claude2
背景 AIGC作為一種基于人工智能技術(shù)的自然語言處理工具，近期的熱度直接沸騰??。作為一個AI愛好者，翻遍了各大基于AIGC的網(wǎng)站，終于找到一個免費！免登陸！手機(jī)電腦通用！國內(nèi)可直接對話的AIGC，也有各種提供工作效率的工具供大家使用。產(chǎn)品名稱百曉生網(wǎng)站地址
2024年04月09日
瀏覽(28)
Claude3與GPT4全面對比
Claude 3是由人工智能公司Anthropic推出的最新大語言模型,一經(jīng)推出就在學(xué)術(shù)界和普通用戶中引起轟動。Claude 3在邏輯推理、數(shù)學(xué)、編程、多語言理解和視覺等方面表現(xiàn)出色,被認(rèn)為全面超越了此前的GPT-4模型。一些用戶甚至認(rèn)為Claude 3展現(xiàn)出了自我意識的跡象,但專家們對此持懷疑
2024年04月17日
瀏覽(23)
碾壓GPT-4！Claude3到底有多強(qiáng)？
2024年3月4日，官方宣布推出 Claude 3 模型系列，它在廣泛的認(rèn)知任務(wù)中樹立了新的行業(yè)基準(zhǔn)。該系列包括三個按能力遞增排序的最先進(jìn)模型：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。每個后續(xù)模型都提供越來越強(qiáng)大的性能，允許用戶為其特定應(yīng)用選擇智能、速度和成本之間的最
2024年03月12日
瀏覽(27)
Claude 2，它有 GPT-4 一些無法超越的能力
和 ChatGPT 相比，Claude 2 最大的優(yōu)勢就是它高達(dá) 10 萬的 Token 數(shù)量。要知道標(biāo)準(zhǔn)的 GPT-4 才 8000，而 GPT-32K 也僅僅 3 萬 2。和 ChatGPT 或 Claude 2 這樣的大模型對話就像與一個擁有短期記憶的朋友聊天。它可以記住你最后說過的幾句話，通過理解上下文，讓對話順利進(jìn)行。而 Token 數(shù)量
2024年02月09日
瀏覽(18)