通過上一篇博客,我們成功將有角度的圖片進行“擺正”,接下來我們來提取圖片中的文字。
我們使用Tesseract來處理圖片并提取文字,相關(guān)下載安裝請參考:Python下Tesseract Ocr引擎及安裝介紹 - 黯然銷魂掌2015 - 博客園 (cnblogs.com)
同時我們需要下載第三方Lib——pytesseract,使用pip下載好后,我們進入Lib\site-packages\pytesseract然后打開pytesseract.py,修改“tesseract_cmd”變量,更改為安裝好的Tesseract目錄文件夾下的tesseract.exe。
以下是我的路徑:
tesseract安裝路徑——D:\soft\tesseract-OCR
pytesseract路徑——D:\soft\Python\virtualenvs\Cameo\venv\Lib\site-packages\pytesseract
修改“tesseract_cmd”變量,賦值為 = r'D:\soft\tesseract-OCR\tesseract.exe'
然后我們就可以在程序中開始調(diào)用pytesseract庫了,上代碼:
import pytesseract from PIL import Image res = pytesseract.image_to_string(Image.fromarray(img)) print(res)
?文章來源地址http://www.zghlxwxcb.cn/news/detail-784286.html
先導(dǎo)入pytesseract和PIL庫,然后使用image_to_string()方法來提取圖片中的文字,其中我們使用了Image.fromarray這個方法,因為我們在使用OpenCV處理圖像的時候,是以數(shù)組的形式,但是image_to_string需要的是圖像,所以我們需要把數(shù)組轉(zhuǎn)換成圖像再傳入。
?
運行輸出:


a wee TAX 000 BAL 101.33 WHOLE FOODS Cm AR KE TY WHOLE FOODS MARKET - WESTPORT. CT 06880 399 POST RD WEST - (203) 227-6858 365 BACONLS NP 4.99 365 BACONLS NP 4.99 365 BACON LS NP 4.99 365 BACONLS NP 4.99 BROTH CHIC NP = 2.19 FLOUR ALMOND NP..11.99 CHKN BRST BNLSS SK NP 18.80 HEAVY CREAM NP = 3.39 BALSMC REDUCT NP 6.49 BEEF GRND 85/15 NP 5.04 JUICE COF CASHEW C NP 8.99 DOCS PINT ORGANIC NP 14,49 HNY ALMOND BUTTER NP 9.99 “TABATA AAA Tra
可以看到運行結(jié)果還是較為準確的,如果需要識別中文,則需要相關(guān)的中文語料,這里就不過多贅述了。文章來源:http://www.zghlxwxcb.cn/news/detail-784286.html
?
到了這里,關(guān)于【Python】【OpenCV】OCR識別(三)——字符識別的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!