一 、介紹
Tesseract是一款由Google贊助的開源OCR。 pytesseract是python包裝器,它為可執(zhí)行文件提供了pythonic API。
Tesseract 已經(jīng)有 30 年歷史,開始它是惠普實(shí)驗(yàn)室的一款專利軟件,在2005年后由Google接手并進(jìn)一步開發(fā)和完善。Tesseract支持多種語(yǔ)言文字的檢測(cè)和識(shí)別,包括中文、英語(yǔ)、德語(yǔ)、法語(yǔ)、意大利語(yǔ)等多種主要語(yǔ)言,同時(shí)也支持針對(duì)特定場(chǎng)景或應(yīng)用的領(lǐng)域OCR開發(fā)。
Tesseract基于機(jī)器學(xué)習(xí)技術(shù),使用了多層神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)(SVM)等算法進(jìn)行文字特征提取和識(shí)別。同時(shí),Tesseract通過(guò)圖像預(yù)處理、二值化、斑點(diǎn)去除和邊框檢測(cè)等多個(gè)環(huán)節(jié)優(yōu)化頁(yè)面處理流程,并且提供了多種字體、大小、旋轉(zhuǎn)角度和噪聲等挑戰(zhàn)場(chǎng)景下的訓(xùn)練數(shù)據(jù)集,使得識(shí)別精度可以獲得不錯(cuò)的性能表現(xiàn)。
二、安裝
1、python安裝pytesseract
pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple/
?2、python安裝Pillow圖片處理
pip install Pillow -i https://pypi.tuna.tsinghua.edu.cn/simple/
3、pytesseract需要和安裝在本地的tesseract-ocr.exe文件一起使用
tesseract-ocr.exe 下載地址?github
根據(jù)你的操作系統(tǒng),選擇適當(dāng)?shù)陌姹具M(jìn)行下載和安裝。安裝勾選中文語(yǔ)言包
?4、系統(tǒng)變量path添加tesseract的安裝路徑xx:\Program Files\tesseract
系統(tǒng)變量path詳細(xì)添加,或者遇到?jīng)]有找到文件問(wèn)題請(qǐng)看我的下一篇
三、使用
import pytesseract
from PIL import Image
#英文lang='eng'#中文:lang='chi_sim'#中英文混合:lang='chi_sim+eng'
text = pytesseract.image_to_string(Image.open(r"./img/a.jpg"), lang='eng')
print("英文:",text)
上述代碼假設(shè)你有一個(gè)名為"a.png"的圖像文件,它位于同級(jí)/img工作目錄下。通過(guò)image_to_string()
函數(shù),將圖像轉(zhuǎn)換為文本,并將結(jié)果存儲(chǔ)在text
變量中。最后,可以使用print
語(yǔ)句打印出識(shí)別的文本。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-608499.html
這就是使用Tesseract及pytesseract進(jìn)行OCR的基本步驟。你可以根據(jù)自己的需求進(jìn)一步探索和調(diào)整代碼。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-608499.html
到了這里,關(guān)于Tesseract開源的OCR工具及python pytesseract安裝使用的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!