国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Tesseract開源的OCR工具及python pytesseract安裝使用

2年前作者：jijinduoduo分類：Toy博客閱讀(99)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Tesseract開源的OCR工具及python pytesseract安裝使用。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、介紹

Tesseract是一款由Google贊助的開源OCR。 pytesseract是python包裝器，它為可執(zhí)行文件提供了pythonic API。

Tesseract 已經(jīng)有 30 年歷史，開始它是惠普實(shí)驗(yàn)室的一款專利軟件，在2005年后由Google接手并進(jìn)一步開發(fā)和完善。Tesseract支持多種語(yǔ)言文字的檢測(cè)和識(shí)別，包括中文、英語(yǔ)、德語(yǔ)、法語(yǔ)、意大利語(yǔ)等多種主要語(yǔ)言，同時(shí)也支持針對(duì)特定場(chǎng)景或應(yīng)用的領(lǐng)域OCR開發(fā)。

Tesseract基于機(jī)器學(xué)習(xí)技術(shù)，使用了多層神經(jīng)網(wǎng)絡(luò)以及支持向量機(jī)(SVM)等算法進(jìn)行文字特征提取和識(shí)別。同時(shí)，Tesseract通過(guò)圖像預(yù)處理、二值化、斑點(diǎn)去除和邊框檢測(cè)等多個(gè)環(huán)節(jié)優(yōu)化頁(yè)面處理流程，并且提供了多種字體、大小、旋轉(zhuǎn)角度和噪聲等挑戰(zhàn)場(chǎng)景下的訓(xùn)練數(shù)據(jù)集，使得識(shí)別精度可以獲得不錯(cuò)的性能表現(xiàn)。

二、安裝

1、python安裝pytesseract

pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple/

Tesseract開源的OCR工具及python pytesseract安裝使用,ocr,python,開發(fā)語(yǔ)言

?2、python安裝Pillow圖片處理

pip install Pillow -i https://pypi.tuna.tsinghua.edu.cn/simple/

3、pytesseract需要和安裝在本地的tesseract-ocr.exe文件一起使用

tesseract-ocr.exe 下載地址?github

根據(jù)你的操作系統(tǒng)，選擇適當(dāng)?shù)陌姹具M(jìn)行下載和安裝。安裝勾選中文語(yǔ)言包

Tesseract開源的OCR工具及python pytesseract安裝使用,ocr,python,開發(fā)語(yǔ)言

Tesseract開源的OCR工具及python pytesseract安裝使用,ocr,python,開發(fā)語(yǔ)言

?4、系統(tǒng)變量path添加tesseract的安裝路徑xx:\Program Files\tesseract

系統(tǒng)變量path詳細(xì)添加,或者遇到?jīng)]有找到文件問(wèn)題請(qǐng)看我的下一篇

三、使用

import pytesseract
from PIL import Image
#英文lang='eng'#中文:lang='chi_sim'#中英文混合：lang='chi_sim+eng'
text = pytesseract.image_to_string(Image.open(r"./img/a.jpg"), lang='eng')
print("英文：",text)

上述代碼假設(shè)你有一個(gè)名為"a.png"的圖像文件，它位于同級(jí)/img工作目錄下。通過(guò)image_to_string()函數(shù)，將圖像轉(zhuǎn)換為文本，并將結(jié)果存儲(chǔ)在text變量中。最后，可以使用print語(yǔ)句打印出識(shí)別的文本。

這就是使用Tesseract及pytesseract進(jìn)行OCR的基本步驟。你可以根據(jù)自己的需求進(jìn)一步探索和調(diào)整代碼。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-608499.html

到了這里，關(guān)于Tesseract開源的OCR工具及python pytesseract安裝使用的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

OCR之Tesseract安裝
Tesseract是常用的開源OCR識(shí)別引擎，后續(xù)的圖片文字識(shí)別項(xiàng)目我們將會(huì)調(diào)用該庫(kù)進(jìn)行識(shí)別，本文針對(duì)Tesseract的安裝配置進(jìn)行相關(guān)說(shuō)明。下載地址:Tesseract 選擇最新的版本進(jìn)行下載，下載完成后，解壓安裝在自己設(shè)定的安裝路徑，一直選擇next即可完成安裝。打開系統(tǒng)屬性頁(yè)面，
2024年02月14日
瀏覽(20)
OCR--基于Tesseract詳細(xì)教程（python）
目錄 1.介紹 2. 準(zhǔn)備工作 2.1 安裝Tesseract 2.2 安裝pytesseract 3.?Tesseract的基礎(chǔ)應(yīng)用 ?3.1 翻譯圖像文字——image_to_string ?3.2 獲取單個(gè)字符的外框——image_to_boxes ?3.3? 輸出區(qū)域、置信度文字內(nèi)容以及其他——image_to_data 3.4 設(shè)定配置實(shí)現(xiàn)過(guò)濾功能? 3.4.1? OEM 3.4.2? PEM 3.4.3 示例：只檢
2024年04月27日
瀏覽(24)
Mac 上使用 Tesseract OCR 識(shí)別圖片文本
Tesseract OCR 引擎：Tesseract是一個(gè)開源的OCR引擎，你需要先安裝它?？梢詮腡esseract官方網(wǎng)站（https://github.com/tesseract-ocr/tesseract）下載適用于你的操作系統(tǒng)的安裝程序或源代碼，并按照官方文檔進(jìn)行安裝。 Tesseract OCR 對(duì)于低分辨率或模糊的圖片可能無(wú)法準(zhǔn)確識(shí)別。嘗試使用更高分
2024年02月15日
瀏覽(20)
java使用tesseract-ocr進(jìn)行文字識(shí)別
提示：文章寫完后，目錄可以自動(dòng)生成，如何生成可參考右邊的幫助文檔公司使用AI進(jìn)行OCR文字識(shí)別效果不好，并且提供的服務(wù)不穩(wěn)定，本次查找到使用java也能連接的OCR開源項(xiàng)目進(jìn)行識(shí)別的學(xué)習(xí) tesseract-ocr是一個(gè)開源的OCR文字識(shí)別項(xiàng)目，目前版本已經(jīng)更新到5.X.X了，并且提供
2024年02月04日
瀏覽(22)
100天精通Python（實(shí)用腳本篇）——第113天：基于Tesseract-OCR實(shí)現(xiàn)OCR圖片文字識(shí)別實(shí)戰(zhàn)
???? 本文已收錄于《100天精通Python從入門到就業(yè)》：本專欄專門針對(duì)零基礎(chǔ)和需要進(jìn)階提升的同學(xué)所準(zhǔn)備的一套完整教學(xué)，從0到100的不斷進(jìn)階深入，后續(xù)還有實(shí)戰(zhàn)項(xiàng)目，輕松應(yīng)對(duì)面試，專欄訂閱地址：https://blog.csdn.net/yuan2019035055/category_11466020.html 優(yōu)點(diǎn) ：訂閱限時(shí)9.9付費(fèi)專
2024年01月22日
瀏覽(29)
已解決pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it‘s not in your PA
已解決pytesseract模塊提取圖片內(nèi)文字信息，拋出異常pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.的正確解決方法，親測(cè)有效?。?！一個(gè)粉絲群小伙伴遇到問(wèn)題跑來(lái)私信我，想用pytesseract模塊提取圖片內(nèi)文字信息，但
2024年02月15日
瀏覽(25)
【爬蟲】8.1. 深度使用tesseract-OCR技術(shù)識(shí)別圖形驗(yàn)證碼
前言：本片文章是基于我之前發(fā)的一篇文章《【爬蟲】8.1. 使用OCR技術(shù)識(shí)別圖形驗(yàn)證碼》而寫的，鏈接為：【爬蟲】8.1. 使用OCR技術(shù)識(shí)別圖形驗(yàn)證碼，前面這篇文章比較基礎(chǔ)。入門了tesseract-OCR技術(shù)之后對(duì)它比較感興趣，故繼續(xù)深度學(xué)習(xí)以下。為了銜接比較好，故本篇文章前面
2024年02月09日
瀏覽(33)
基于Tesseract模塊Python實(shí)現(xiàn)提取圖片中的文字信息（安裝+使用教程）
Python實(shí)現(xiàn)提取圖片中的文字可以使用Optical Character Recognition (OCR) 技術(shù)來(lái)解決。OCR是指將圖像中的文本轉(zhuǎn)換成可編輯的文本的過(guò)程。Python有許多OCR庫(kù)，但最流行和最廣泛使用的是Tesseract庫(kù)。下面是一個(gè)使用Python和Tesseract來(lái)提取圖像中的文本的簡(jiǎn)單示例代碼。 OCR，即光學(xué)字符識(shí)
2024年02月05日
瀏覽(19)
Android開發(fā)：通過(guò)Tesseract第三方庫(kù)實(shí)現(xiàn)OCR
一、引言 ????????什么是 OCR ？OCR(Optical Character Recognition，光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符，通過(guò)檢測(cè)暗、亮的模式確定其形狀，然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過(guò)程。簡(jiǎn)單地說(shuō)，OCR是一種技術(shù)，該項(xiàng)技術(shù)采用光學(xué)的
2024年02月16日
瀏覽(159)
28k 的開源 OCR 工具
要從圖像、照片中提取文本嗎？是否剛剛拍了講義的照片并想將其轉(zhuǎn)換為文本？那么您將需要一個(gè)可以通過(guò) OCR（光學(xué)字符識(shí)別）識(shí)別文本的應(yīng)用程序。今天，我們介紹一款用強(qiáng)大的開源 OCR 庫(kù)：Tesseract.js。 Tesseract.js 是一個(gè) javascript 庫(kù)，可以從圖像中獲取幾乎任何語(yǔ)言的文字
2024年02月10日
瀏覽(493)