国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<tr id="puqvz"></tr>

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)

2年前作者：袁袁袁袁滿分類：Toy博客閱讀(28)違法舉報

這篇具有很好參考價值的文章主要介紹了100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

專欄導(dǎo)讀

????本文已收錄于《100天精通Python從入門到就業(yè)》：本專欄專門針對零基礎(chǔ)和需要進(jìn)階提升的同學(xué)所準(zhǔn)備的一套完整教學(xué)，從0到100的不斷進(jìn)階深入，后續(xù)還有實戰(zhàn)項目，輕松應(yīng)對面試，專欄訂閱地址：https://blog.csdn.net/yuan2019035055/category_11466020.html

優(yōu)點(diǎn)：訂閱限時9.9付費(fèi)專欄進(jìn)入千人全棧VIP答疑群，作者優(yōu)先解答機(jī)會（代碼指導(dǎo)、遠(yuǎn)程服務(wù)），群里大佬眾多可以抱團(tuán)取暖（大廠內(nèi)推機(jī)會）
專欄福利：簡歷指導(dǎo)、招聘內(nèi)推、每周送實體書、80G全棧學(xué)習(xí)視頻、300本IT電子書：Python、Java、前端、大數(shù)據(jù)、數(shù)據(jù)庫、算法、爬蟲、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、面試題庫等等

1. OCR技術(shù)介紹

OCR，即光學(xué)字符識別（Optical Character Recognition），是一種將印刷體字符轉(zhuǎn)化為計算機(jī)可讀文字的技術(shù)。OCR技術(shù)可以將紙質(zhì)文檔、掃描文檔、照片等轉(zhuǎn)化為可編輯的電子文件，方便用戶進(jìn)行編輯、存儲和共享。

OCR技術(shù)的應(yīng)用范圍非常廣泛。例如，銀行和保險公司可以使用OCR技術(shù)來處理各種表格和文件，包括支票、發(fā)票、合同等，從而提高辦公效率。醫(yī)院可以使用OCR技術(shù)來處理病歷、處方和醫(yī)學(xué)報告，從而提高醫(yī)療質(zhì)量和效率。政府機(jī)構(gòu)可以使用OCR技術(shù)來處理各種表格和文件，例如稅務(wù)申報表、選民登記表等，從而提高政府服務(wù)的效率和質(zhì)量。

OCR技術(shù)的原理是利用光學(xué)掃描儀將紙質(zhì)文檔轉(zhuǎn)化為數(shù)字圖像，然后通過圖像處理算法將圖像中的字符識別出來，并轉(zhuǎn)化為計算機(jī)可讀的文字。OCR技術(shù)的核心是字符識別算法，這個算法需要考慮到各種字體、字號、字距、傾斜度、噪聲等因素。

OCR技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)50年代，當(dāng)時的OCR技術(shù)只能處理單一字體、字號、字距的文本。隨著計算機(jī)技術(shù)的不斷發(fā)展，OCR技術(shù)也不斷進(jìn)步，現(xiàn)在的OCR技術(shù)能夠處理各種字體、字號、字距、傾斜度、噪聲等復(fù)雜條件下的文本，并且具備高精度和高速度的特點(diǎn)。

總之，OCR技術(shù)是一種非常實用的技術(shù)，可以幫助用戶將紙質(zhì)文檔轉(zhuǎn)化為電子文件，從而提高辦公效率和工作質(zhì)量。隨著計算機(jī)技術(shù)的不斷進(jìn)步，OCR技術(shù)也將不斷發(fā)展，為用戶提供更加高效和便捷的服務(wù)。

2. 模塊介紹

Tesseract OCR（Optical Character Recognition）是一個免費(fèi)的開源OCR引擎，由Google開發(fā)和維護(hù)。它能夠識別圖像中的文本，并將其轉(zhuǎn)換為可編輯和可搜索的文本格式。Tesseract支持超過100種語言的文本識別，并且具有高度的準(zhǔn)確性和可擴(kuò)展性。

3. 模塊安裝

1、安裝Tesseract、Tesseract、Pillow模塊，可以使用以下命令：

pip install pytesseract
pip install pillow
pip install tesseract-ocr # 如果這個安裝報錯就用下面的手動安裝方法

2、從網(wǎng)上找到相應(yīng)的‘Tesseract-OCR’下載安裝（自行尋找對應(yīng)版本）：https://digi.bib.uni-mannheim.de/tesseract/
100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

3、無腦默認(rèn)安裝即可，

4、安裝后的默認(rèn)文件路徑為（這里使用的是Windows版本）：C:\Program Files\Tesseract-OCR\

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4. 代碼實戰(zhàn)

4.1 英文圖片測試

1. 測試圖片準(zhǔn)備：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、修改下面的Tesseract-OCR的安裝路徑和圖片路徑：

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑（注意：圖片路徑不能有中文
img = cv2.imread(r'English.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串
text = pytesseract.image_to_string(gray)

# 5. 打印字符串
print(text)

3、運(yùn)行結(jié)果，識別成功：
100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4.2 數(shù)字圖片測試

測試圖片準(zhǔn)備：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、修改下面的Tesseract-OCR的安裝路徑和圖片路徑：

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑（注意：圖片路徑不能有中文
img = cv2.imread(r'number.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串
text = pytesseract.image_to_string(gray)

# 5. 打印字符串
print(text)

3、運(yùn)行結(jié)果，識別成功：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4.3 中文圖片識別

注意：上面的代碼不能直接識別中文，我們需要下載中文語言包

1、下載下面的4個中文語言包文件，復(fù)制到Tesseract-OCR安裝目錄tessdata文件夾里：https://gitcode.com/tesseract-ocr/tessdata/overview

chi_sim.traineddata
chi_sim_vert.traineddata
chi_tra.traineddata
chi_tra_vert.traineddata

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

網(wǎng)速慢的小伙伴們，博主這里為大家下載好了，搜索公眾號：袁袁袁袁滿，回復(fù)：tessdata，即可：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、將下載好的中文語言包復(fù)制在Tesseract-ocr安裝路徑的tessdata文件夾里：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

3、準(zhǔn)備圖片：

100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4、與之前代碼區(qū)別在于設(shè)置了中文語言包：

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑（注意：圖片路徑不能有中文
img = cv2.imread(r'Chinese.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串，并設(shè)置為中文
lang = 'chi_sim'
text = pytesseract.image_to_string(gray,lang)

# 5. 打印字符串
print(text)

5、運(yùn)行結(jié)果，提取成功：
100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

書籍分享

《Web前端開發(fā)全程實戰(zhàn)》
100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

《Web前端開發(fā)全程實戰(zhàn)——HTML5+CSS3+JavaScript+jQuery+Bootstrap》從初學(xué)者角度出發(fā)，結(jié)合大量實例講解了如何使用HTML5、CSS3、JavaScript、jQuery、Ajax、Boostrap、Vue、PHP 等基本技術(shù)搭建Web 前端，力求向讀者提供一套極簡的Web 前端一站式高效學(xué)習(xí)方案。全書共28 章，內(nèi)容包括HTML5基礎(chǔ)、設(shè)計HTML5 文檔結(jié)構(gòu)、設(shè)計HTML5 文本、設(shè)計HTML5 圖像和多媒體、設(shè)計列表和超鏈接、設(shè)計表格和表單、CSS3 基礎(chǔ)、設(shè)計文本樣式、設(shè)計特效和動畫樣式、CSS 頁面布局、JavaScript 基礎(chǔ)、處理字符串、使用數(shù)組、使用函數(shù)、使用對象、jQuery 基礎(chǔ)、文檔操作、事件處理、使用Ajax、CSS 樣式操作、jQuery 動畫、Bootstrap基礎(chǔ)、CSS 組件、JavaScript 插件、使用Vue、PHP 基礎(chǔ)、使用PHP 與網(wǎng)頁交互、使用PDO 操作數(shù)據(jù)庫、項目實戰(zhàn)。書中所有知識點(diǎn)均結(jié)合具體實例展開講解，代碼注釋詳盡，可使讀者輕松掌握前端技術(shù)精髓，提升實際開發(fā)能力。

本書特色：30萬+讀者體驗，暢銷叢書新增精品；10年開發(fā)教學(xué)經(jīng)驗，一線講師半生心血。

京東地址：https://item.jd.com/13512401.html文章來源地址http://www.zghlxwxcb.cn/news/detail-815530.html

到了這里，關(guān)于100天精通Python（實用腳本篇）——第113天：基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點(diǎn)擊違法舉報進(jìn)行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【爬蟲】8.1. 深度使用tesseract-OCR技術(shù)識別圖形驗證碼
前言：本片文章是基于我之前發(fā)的一篇文章《【爬蟲】8.1. 使用OCR技術(shù)識別圖形驗證碼》而寫的，鏈接為：【爬蟲】8.1. 使用OCR技術(shù)識別圖形驗證碼，前面這篇文章比較基礎(chǔ)。入門了tesseract-OCR技術(shù)之后對它比較感興趣，故繼續(xù)深度學(xué)習(xí)以下。為了銜接比較好，故本篇文章前面
2024年02月09日
瀏覽(32)
OCR--基于Tesseract詳細(xì)教程（python）
目錄 1.介紹 2. 準(zhǔn)備工作 2.1 安裝Tesseract 2.2 安裝pytesseract 3.?Tesseract的基礎(chǔ)應(yīng)用 ?3.1 翻譯圖像文字——image_to_string ?3.2 獲取單個字符的外框——image_to_boxes ?3.3? 輸出區(qū)域、置信度文字內(nèi)容以及其他——image_to_data 3.4 設(shè)定配置實現(xiàn)過濾功能? 3.4.1? OEM 3.4.2? PEM 3.4.3 示例：只檢
2024年04月27日
瀏覽(23)
基于Tesseract模塊Python實現(xiàn)提取圖片中的文字信息（安裝+使用教程）
Python實現(xiàn)提取圖片中的文字可以使用Optical Character Recognition (OCR) 技術(shù)來解決。OCR是指將圖像中的文本轉(zhuǎn)換成可編輯的文本的過程。Python有許多OCR庫，但最流行和最廣泛使用的是Tesseract庫。下面是一個使用Python和Tesseract來提取圖像中的文本的簡單示例代碼。 OCR，即光學(xué)字符識
2024年02月05日
瀏覽(19)
99個Python腳本實用實例
題目：有四個數(shù)字：1、2、3、4，能組成多少個互不相同且無重復(fù)數(shù)字的三位數(shù)？各是多少？題目：一個整數(shù)，它加上100后是一個完全平方數(shù)，再加上168又是一個完全平方數(shù)，請問該數(shù)是多少？題目：輸入某年某月某日，判斷這一天是這一年的第幾天？題目：輸入三個整數(shù)
2024年01月17日
瀏覽(19)
【100天精通python】Day14：python 標(biāo)準(zhǔn)模塊，自定義模塊
目錄 1 python 模塊 2 標(biāo)準(zhǔn)模塊 2.1 常見的標(biāo)準(zhǔn)模塊 2.2 標(biāo)準(zhǔn)模塊的導(dǎo)入 3 自定義模塊
2024年02月16日
瀏覽(22)
【100天精通python】Day4：運(yùn)算符
目錄 1 算數(shù)運(yùn)算符 2 賦值運(yùn)算符 3 比較（關(guān)系運(yùn)算符） 4 邏輯運(yùn)算符
2024年02月16日
瀏覽(33)
5個實用的自動化Python腳本
Python 是一種功能強(qiáng)大的語言，廣泛用于自動執(zhí)行各種任務(wù)。無論您是開發(fā)人員、系統(tǒng)管理員，還是只是想通過自動化日常任務(wù)來節(jié)省時間的人，Python 都能滿足您的需求。這里有 5 個 Python 腳本，可以幫助您自動執(zhí)行各種任務(wù)。 Python 中的文件傳輸腳本是一組指令或用 Python 編
2024年02月14日
瀏覽(20)
20個好用到爆的Python實用腳本！
最近小編認(rèn)真整理了20+個基于python的實戰(zhàn)案例，主要包含：數(shù)據(jù)分析、可視化、機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、時序預(yù)測等，案例的主要特點(diǎn)：提供源碼：代碼都是基于jupyter notebook，附帶一定的注釋，運(yùn)行即可數(shù)據(jù)齊全：大部分案例都有提供數(shù)據(jù)，部分案例使用內(nèi)置數(shù)據(jù)集基于pyth
2024年01月19日
瀏覽(23)
【100天精通python】Day5：python 基本語句，流程控制語句
目錄 1. 條件語句 1.1 if語句 1.2 if-else語句? 1.3? if-elif-else語句 2?循環(huán)語句 2.1 for循環(huán)
2024年02月17日
瀏覽(30)
【100天精通python】Day14：python模塊_標(biāo)準(zhǔn)模塊，自定義模塊
目錄 1 python 模塊 2 標(biāo)準(zhǔn)模塊 2.1 常見的標(biāo)準(zhǔn)模塊 2.2 標(biāo)準(zhǔn)模塊的導(dǎo)入 3 自定義模塊
2024年02月14日
瀏覽(20)

^{<legend id="iiy07"></legend>}

<mark id="iiy07"></mark>

^{<td id="iiy07"><tr id="iiy07"></tr></td>}

^{<legend id="iiy07"></legend>}