国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)

這篇具有很好參考價值的文章主要介紹了100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

專欄導(dǎo)讀

????本文已收錄于《100天精通Python從入門到就業(yè)》:本專欄專門針對零基礎(chǔ)和需要進(jìn)階提升的同學(xué)所準(zhǔn)備的一套完整教學(xué),從0到100的不斷進(jìn)階深入,后續(xù)還有實戰(zhàn)項目,輕松應(yīng)對面試,專欄訂閱地址:https://blog.csdn.net/yuan2019035055/category_11466020.html

  • 優(yōu)點(diǎn)訂閱限時9.9付費(fèi)專欄進(jìn)入千人全棧VIP答疑群,作者優(yōu)先解答機(jī)會(代碼指導(dǎo)、遠(yuǎn)程服務(wù)),群里大佬眾多可以抱團(tuán)取暖(大廠內(nèi)推機(jī)會)
  • 專欄福利簡歷指導(dǎo)、招聘內(nèi)推、每周送實體書、80G全棧學(xué)習(xí)視頻、300本IT電子書:Python、Java、前端、大數(shù)據(jù)、數(shù)據(jù)庫、算法、爬蟲、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)、面試題庫等等
    100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別
    100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

1. OCR技術(shù)介紹

OCR,即光學(xué)字符識別(Optical Character Recognition),是一種將印刷體字符轉(zhuǎn)化為計算機(jī)可讀文字的技術(shù)。OCR技術(shù)可以將紙質(zhì)文檔、掃描文檔、照片等轉(zhuǎn)化為可編輯的電子文件,方便用戶進(jìn)行編輯、存儲和共享。

OCR技術(shù)的應(yīng)用范圍非常廣泛。例如,銀行和保險公司可以使用OCR技術(shù)來處理各種表格和文件,包括支票、發(fā)票、合同等,從而提高辦公效率。醫(yī)院可以使用OCR技術(shù)來處理病歷、處方和醫(yī)學(xué)報告,從而提高醫(yī)療質(zhì)量和效率。政府機(jī)構(gòu)可以使用OCR技術(shù)來處理各種表格和文件,例如稅務(wù)申報表、選民登記表等,從而提高政府服務(wù)的效率和質(zhì)量。

OCR技術(shù)的原理是利用光學(xué)掃描儀將紙質(zhì)文檔轉(zhuǎn)化為數(shù)字圖像,然后通過圖像處理算法將圖像中的字符識別出來,并轉(zhuǎn)化為計算機(jī)可讀的文字。OCR技術(shù)的核心是字符識別算法,這個算法需要考慮到各種字體、字號、字距、傾斜度、噪聲等因素。

OCR技術(shù)的發(fā)展歷史可以追溯到20世紀(jì)50年代,當(dāng)時的OCR技術(shù)只能處理單一字體、字號、字距的文本。隨著計算機(jī)技術(shù)的不斷發(fā)展,OCR技術(shù)也不斷進(jìn)步,現(xiàn)在的OCR技術(shù)能夠處理各種字體、字號、字距、傾斜度、噪聲等復(fù)雜條件下的文本,并且具備高精度和高速度的特點(diǎn)。

總之,OCR技術(shù)是一種非常實用的技術(shù),可以幫助用戶將紙質(zhì)文檔轉(zhuǎn)化為電子文件,從而提高辦公效率和工作質(zhì)量。隨著計算機(jī)技術(shù)的不斷進(jìn)步,OCR技術(shù)也將不斷發(fā)展,為用戶提供更加高效和便捷的服務(wù)。

2. 模塊介紹

Tesseract OCR(Optical Character Recognition)是一個免費(fèi)的開源OCR引擎,由Google開發(fā)和維護(hù)。它能夠識別圖像中的文本,并將其轉(zhuǎn)換為可編輯和可搜索的文本格式。Tesseract支持超過100種語言的文本識別,并且具有高度的準(zhǔn)確性和可擴(kuò)展性。

3. 模塊安裝


1、安裝Tesseract、Tesseract、Pillow模塊,可以使用以下命令:

pip install pytesseract
pip install pillow
pip install tesseract-ocr # 如果這個安裝報錯就用下面的手動安裝方法

2、從網(wǎng)上找到相應(yīng)的‘Tesseract-OCR’下載安裝(自行尋找對應(yīng)版本):https://digi.bib.uni-mannheim.de/tesseract/
100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

3、無腦默認(rèn)安裝即可,

4、安裝后的默認(rèn)文件路徑為(這里使用的是Windows版本)C:\Program Files\Tesseract-OCR\

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4. 代碼實戰(zhàn)

4.1 英文圖片測試

1. 測試圖片準(zhǔn)備:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、修改下面的Tesseract-OCR的安裝路徑和圖片路徑:

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑(注意:圖片路徑不能有中文
img = cv2.imread(r'English.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串
text = pytesseract.image_to_string(gray)

# 5. 打印字符串
print(text)

3、運(yùn)行結(jié)果,識別成功:
100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4.2 數(shù)字圖片測試

  1. 測試圖片準(zhǔn)備:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、修改下面的Tesseract-OCR的安裝路徑和圖片路徑:

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑(注意:圖片路徑不能有中文
img = cv2.imread(r'number.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串
text = pytesseract.image_to_string(gray)

# 5. 打印字符串
print(text)

3、運(yùn)行結(jié)果,識別成功:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4.3 中文圖片識別

注意:上面的代碼不能直接識別中文,我們需要下載中文語言包

1、下載下面的4個中文語言包文件,復(fù)制到Tesseract-OCR安裝目錄tessdata文件夾里:https://gitcode.com/tesseract-ocr/tessdata/overview

chi_sim.traineddata
chi_sim_vert.traineddata
chi_tra.traineddata
chi_tra_vert.traineddata

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

網(wǎng)速慢的小伙伴們,博主這里為大家下載好了,搜索公眾號:袁袁袁袁滿,回復(fù):tessdata,即可:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

2、將下載好的中文語言包復(fù)制在Tesseract-ocr安裝路徑的tessdata文件夾里:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

3、準(zhǔn)備圖片:

100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

4、與之前代碼區(qū)別在于設(shè)置了中文語言包:

import cv2
import pytesseract

# 1. 找到Tesseract-OCR的安裝路徑
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 2. 圖片的路徑(注意:圖片路徑不能有中文
img = cv2.imread(r'Chinese.png')

# 3. 對圖片進(jìn)行灰度處理
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)

# 4. 提取字符串,并設(shè)置為中文
lang = 'chi_sim'
text = pytesseract.image_to_string(gray,lang)

# 5. 打印字符串
print(text)

5、運(yùn)行結(jié)果,提取成功:
100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

書籍分享

《Web前端開發(fā)全程實戰(zhàn)》
100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn),100天精通Python,python,ocr,Tesseract-OCR,人工智能,OCR圖片文字識別實戰(zhàn),中文識別,英文識別

《Web前端開發(fā)全程實戰(zhàn)——HTML5+CSS3+JavaScript+jQuery+Bootstrap》從初學(xué)者角度出發(fā),結(jié)合大量實例講解了如何使用HTML5、CSS3、JavaScript、jQuery、Ajax、Boostrap、Vue、PHP 等基本技術(shù)搭建Web 前端,力求向讀者提供一套極簡的Web 前端一站式高效學(xué)習(xí)方案。全書共28 章,內(nèi)容包括HTML5基礎(chǔ)、設(shè)計HTML5 文檔結(jié)構(gòu)、設(shè)計HTML5 文本、設(shè)計HTML5 圖像和多媒體、設(shè)計列表和超鏈接、設(shè)計表格和表單、CSS3 基礎(chǔ)、設(shè)計文本樣式、設(shè)計特效和動畫樣式、CSS 頁面布局、JavaScript 基礎(chǔ)、處理字符串、使用數(shù)組、使用函數(shù)、使用對象、jQuery 基礎(chǔ)、文檔操作、事件處理、使用Ajax、CSS 樣式操作、jQuery 動畫、Bootstrap基礎(chǔ)、CSS 組件、JavaScript 插件、使用Vue、PHP 基礎(chǔ)、使用PHP 與網(wǎng)頁交互、使用PDO 操作數(shù)據(jù)庫、項目實戰(zhàn)。書中所有知識點(diǎn)均結(jié)合具體實例展開講解,代碼注釋詳盡,可使讀者輕松掌握前端技術(shù)精髓,提升實際開發(fā)能力。

本書特色:30萬+讀者體驗,暢銷叢書新增精品;10年開發(fā)教學(xué)經(jīng)驗,一線講師半生心血。

京東地址:https://item.jd.com/13512401.html文章來源地址http://www.zghlxwxcb.cn/news/detail-815530.html

到了這里,關(guān)于100天精通Python(實用腳本篇)——第113天:基于Tesseract-OCR實現(xiàn)OCR圖片文字識別實戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【爬蟲】8.1. 深度使用tesseract-OCR技術(shù)識別圖形驗證碼

    【爬蟲】8.1. 深度使用tesseract-OCR技術(shù)識別圖形驗證碼

    前言:本片文章是基于我之前發(fā)的一篇文章《【爬蟲】8.1. 使用OCR技術(shù)識別圖形驗證碼》而寫的,鏈接為: 【爬蟲】8.1. 使用OCR技術(shù)識別圖形驗證碼,前面這篇文章比較基礎(chǔ)。入門了tesseract-OCR技術(shù)之后對它比較感興趣,故繼續(xù)深度學(xué)習(xí)以下。為了銜接比較好,故本篇文章前面

    2024年02月09日
    瀏覽(32)
  • OCR--基于Tesseract詳細(xì)教程(python)

    OCR--基于Tesseract詳細(xì)教程(python)

    目錄 1.介紹 2. 準(zhǔn)備工作 2.1 安裝Tesseract 2.2 安裝pytesseract 3.?Tesseract的基礎(chǔ)應(yīng)用 ?3.1 翻譯圖像文字——image_to_string ?3.2 獲取單個字符的外框——image_to_boxes ?3.3? 輸出區(qū)域、置信度 文字內(nèi)容以及其他——image_to_data 3.4 設(shè)定配置實現(xiàn)過濾功能? 3.4.1? OEM 3.4.2? PEM 3.4.3 示例:只檢

    2024年04月27日
    瀏覽(23)
  • 基于Tesseract模塊Python實現(xiàn)提取圖片中的文字信息(安裝+使用教程)

    基于Tesseract模塊Python實現(xiàn)提取圖片中的文字信息(安裝+使用教程)

    Python實現(xiàn)提取圖片中的文字可以使用Optical Character Recognition (OCR) 技術(shù)來解決。OCR是指將圖像中的文本轉(zhuǎn)換成可編輯的文本的過程。Python有許多OCR庫,但最流行和最廣泛使用的是Tesseract庫。 下面是一個使用Python和Tesseract來提取圖像中的文本的簡單示例代碼。 OCR,即光學(xué)字符識

    2024年02月05日
    瀏覽(19)
  • 99個Python腳本實用實例

    題目:有四個數(shù)字:1、2、3、4,能組成多少個互不相同且無重復(fù)數(shù)字的三位數(shù)?各是多少? 題目:一個整數(shù),它加上100后是一個完全平方數(shù),再加上168又是一個完全平方數(shù),請問該數(shù)是多少? 題目:輸入某年某月某日,判斷這一天是這一年的第幾天? 題目:輸入三個整數(shù)

    2024年01月17日
    瀏覽(19)
  • 【100天精通python】Day14:python 標(biāo)準(zhǔn)模塊,自定義模塊

    目錄 1 python 模塊 2 標(biāo)準(zhǔn)模塊 2.1 常見的標(biāo)準(zhǔn)模塊 2.2 標(biāo)準(zhǔn)模塊的導(dǎo)入 3 自定義模塊

    2024年02月16日
    瀏覽(22)
  • 【100天精通python】Day4:運(yùn)算符

    目錄 1 算數(shù)運(yùn)算符 2 賦值運(yùn)算符 3 比較(關(guān)系運(yùn)算符) 4 邏輯運(yùn)算符

    2024年02月16日
    瀏覽(33)
  • 5個實用的自動化Python腳本

    Python 是一種功能強(qiáng)大的語言,廣泛用于自動執(zhí)行各種任務(wù)。無論您是開發(fā)人員、系統(tǒng)管理員,還是只是想通過自動化日常任務(wù)來節(jié)省時間的人,Python 都能滿足您的需求。 這里有 5 個 Python 腳本,可以幫助您自動執(zhí)行各種任務(wù)。 Python 中的文件傳輸腳本是一組指令或用 Python 編

    2024年02月14日
    瀏覽(20)
  • 20個好用到爆的Python實用腳本!

    20個好用到爆的Python實用腳本!

    最近小編認(rèn)真整理了20+個基于python的實戰(zhàn)案例,主要包含:數(shù)據(jù)分析、可視化、機(jī)器學(xué)習(xí)/深度學(xué)習(xí)、時序預(yù)測等,案例的主要特點(diǎn): 提供源碼:代碼都是基于jupyter notebook,附帶一定的注釋,運(yùn)行即可 數(shù)據(jù)齊全:大部分案例都有提供數(shù)據(jù),部分案例使用內(nèi)置數(shù)據(jù)集 基于pyth

    2024年01月19日
    瀏覽(23)
  • 【100天精通python】Day5:python 基本語句,流程控制語句

    目錄 1. 條件語句 1.1 if語句 1.2 if-else語句? 1.3? if-elif-else語句 2?循環(huán)語句 2.1 for循環(huán)

    2024年02月17日
    瀏覽(30)
  • 【100天精通python】Day14:python模塊_標(biāo)準(zhǔn)模塊,自定義模塊

    目錄 1 python 模塊 2 標(biāo)準(zhǔn)模塊 2.1 常見的標(biāo)準(zhǔn)模塊 2.2 標(biāo)準(zhǔn)模塊的導(dǎo)入 3 自定義模塊

    2024年02月14日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包