国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

提取圖像中的文本信息(Tesseract OCR 和 pytesseract)

這篇具有很好參考價(jià)值的文章主要介紹了提取圖像中的文本信息(Tesseract OCR 和 pytesseract)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

環(huán)境準(zhǔn)備

安裝Tesseract:點(diǎn)這里參考本人博客

下載第三方庫

pip install Pytesseract

這個(gè)庫只自帶了一個(gè)英語的語言包,這個(gè)時(shí)候如果我們圖片中有對(duì)中文或者其他語言的識(shí)別需求,就需要去下載其他語言包

下載其他語言包

進(jìn)入官網(wǎng)以后進(jìn)入Traineddata Files
提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
找到這個(gè)位置提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
tessdata_best適用于愿意以大量速度換取稍微好一點(diǎn)的準(zhǔn)確性的人。它也是 唯一可用于高級(jí)用戶的某些再培訓(xùn)方案的文件集。

tessdata 中的第三組是唯一支持舊識(shí)別器的集合。4 年 00 月的 2016.4 文件既有舊版 LSTM 模型,也有舊版 LSTM 模型。tessdata 中的當(dāng)前文件集具有舊模型和較新的 LSTM 模型(tessdata_best 中 00.00.<> alpha 模型的整數(shù)版本)。
點(diǎn)這里直接拿傳送的到github的語言包下載地址
下載完成后將traineddata文件拷貝到tesseract的安裝目錄下tessdata中(像這樣?。。?!)
提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr

小案例

輸出tesseract的版本號(hào)

import pytesseract

from PIL import Image
# 輸出版本號(hào)
print(pytesseract.get_tesseract_version())

結(jié)果:5.0.1.20220107

輸出能夠識(shí)別的語言列表

import pytesseract

from PIL import Image
# 輸出版本號(hào)
print(pytesseract.get_languages())

結(jié)果:['chi_sim', 'chi_sim_vert', 'eng', 'osd']

讀取中文

import pytesseract

from PIL import Image

case = pytesseract.image_to_string(Image.open('a.png'), lang='chi_sim')
print(case)

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
讀取英文

import pytesseract

from PIL import Image

case = pytesseract.image_to_string(Image.open('a.png'), lang='chi_sim')
print(case)

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
4、獲取圖片中文字的詳細(xì)信息
image_to_data()用來獲取識(shí)別出來的文字的詳細(xì)信息,包含識(shí)別到的文本內(nèi)容,可信度,位置等:

import pytesseract
from PIL import Image
im = Image.open('1.jpg')
獲取圖片中文字的詳細(xì)信息
print(pytesseract.image_to_data(im, lang='chi_sim'))

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
5、識(shí)別圖片中的文字和位置
image_to_boxes()用來獲取識(shí)別出來的文字和位置信息:

import pytesseract
from PIL import Image
im = Image.open('1.jpg')
print(pytesseract.image_to_boxes(im, lang='chi_sim'))

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
識(shí)別osd信息
image_to_osd()返回識(shí)別到的osd信息:


import pytesseract
from PIL import Image

im = Image.open('c.png')
print(pytesseract.image_to_osd(im, lang='chi_sim'))

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr
7、識(shí)別并生成xml文件
image_to_pdf_or_hocr()可以將識(shí)別的文字信息轉(zhuǎn)為xml格式字節(jié)流,從而可以寫入到xml文件中,其中入?yún)xtension設(shè)置為’hocr’:

import pytesseract
from PIL import Image

im = Image.open('c.png')
hocr = pytesseract.image_to_pdf_or_hocr(im, lang='chi_sim', extension='hocr')
with open('test.xml',"w+b") as f:
    f.write(hocr)
print(type(hocr))

提取圖像中的文本信息(Tesseract OCR 和 pytesseract),ocr文章來源地址http://www.zghlxwxcb.cn/news/detail-527290.html

到了這里,關(guān)于提取圖像中的文本信息(Tesseract OCR 和 pytesseract)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【Python ? 圖片識(shí)別】pytesseract快速識(shí)別提取圖片中的文字

    【Python ? 圖片識(shí)別】pytesseract快速識(shí)別提取圖片中的文字

    提示:本文多圖,請(qǐng)手機(jī)端注意流量。 利用python做圖片識(shí)別,識(shí)別提取圖片中的文字會(huì)有很多方法,但是想要簡(jiǎn)單一點(diǎn)怎么辦,那就可以使用tesseract識(shí)別引擎來實(shí)現(xiàn),一行代碼就可以做到提取圖片文本。 本程序用到了兩個(gè)python庫,pytesseract和PIL,所以先來安裝。 運(yùn)行以下命

    2024年02月02日
    瀏覽(29)
  • OCR提取學(xué)歷證信息

    OCR提取學(xué)歷證信息

    2024年02月12日
    瀏覽(15)
  • 已解決pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it‘s not in your PA

    已解決pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it‘s not in your PA

    已解決pytesseract模塊提取圖片內(nèi)文字信息,拋出異常pytesseract.pytesseract.TesseractNotFoundError: tesseract is not installed or it’s not in your PATH. See README file for more information.的正確解決方法,親測(cè)有效?。?! 一個(gè)粉絲群小伙伴遇到問題跑來私信我,想用pytesseract模塊提取圖片內(nèi)文字信息,但

    2024年02月15日
    瀏覽(25)
  • 免費(fèi)開源的高精度OCR文本提取,支持 100 多種語言、自動(dòng)文本定位和腳本檢測(cè),幾行代碼即可實(shí)現(xiàn)離線使用(附源碼)

    免費(fèi)開源的高精度OCR文本提取,支持 100 多種語言、自動(dòng)文本定位和腳本檢測(cè),幾行代碼即可實(shí)現(xiàn)離線使用(附源碼)

    免費(fèi)開源的高精度OCR文本提取,支持 100 多種語言、自動(dòng)文本定位和腳本檢測(cè),幾行代碼即可實(shí)現(xiàn)離線使用(附源碼)。 要從圖像、照片中提取文本嗎?是否剛剛拍了講義的照片并想將其轉(zhuǎn)換為文本?那么您將需要一個(gè)可以通過 OCR(光學(xué)字符識(shí)別)識(shí)別文本的應(yīng)用程序。 圖

    2024年02月01日
    瀏覽(101)
  • OCR之Tesseract安裝

    OCR之Tesseract安裝

    Tesseract是常用的開源OCR識(shí)別引擎,后續(xù)的圖片文字識(shí)別項(xiàng)目我們將會(huì)調(diào)用該庫進(jìn)行識(shí)別,本文針對(duì)Tesseract的安裝配置進(jìn)行相關(guān)說明。 下載地址:Tesseract 選擇最新的版本進(jìn)行下載,下載完成后,解壓安裝在自己設(shè)定的安裝路徑,一直選擇next即可完成安裝。 打開系統(tǒng)屬性頁面,

    2024年02月14日
    瀏覽(20)
  • Tesseract OCR安裝與簡(jiǎn)單使用

    Tesseract OCR安裝與簡(jiǎn)單使用

    1.下載Tesseract OCR 下載地址:https://digi.bib.uni-mannheim.de/tesseract/ 2.安裝Tesseract OCR 雙擊安裝程序,進(jìn)入安裝界面。 接受協(xié)議,下一步。 選擇用戶 選擇組件 如果電腦配置夠好、網(wǎng)速夠快,可以之間勾選”Additional language data(download)“,下載全部額外的語言數(shù)據(jù)。 直接全選的話,后

    2024年02月12日
    瀏覽(34)
  • OCR--基于Tesseract詳細(xì)教程(python)

    OCR--基于Tesseract詳細(xì)教程(python)

    目錄 1.介紹 2. 準(zhǔn)備工作 2.1 安裝Tesseract 2.2 安裝pytesseract 3.?Tesseract的基礎(chǔ)應(yīng)用 ?3.1 翻譯圖像文字——image_to_string ?3.2 獲取單個(gè)字符的外框——image_to_boxes ?3.3? 輸出區(qū)域、置信度 文字內(nèi)容以及其他——image_to_data 3.4 設(shè)定配置實(shí)現(xiàn)過濾功能? 3.4.1? OEM 3.4.2? PEM 3.4.3 示例:只檢

    2024年04月27日
    瀏覽(24)
  • Python OCR 使用easyocr庫將圖片中的文章提取出來

    Python OCR 使用easyocr庫將圖片中的文章提取出來

    EasyOCR是一個(gè)開源的Python庫,專注于提供易用而準(zhǔn)確的文字識(shí)別功能。它基于深度學(xué)習(xí)技術(shù),使用了一種端到端的方法,能夠在多種語言和字體下進(jìn)行穩(wěn)定的識(shí)別。 希望能寫一些簡(jiǎn)單的教程和案例分享給需要的人 Python 3.10.12 系統(tǒng): ubuntu 22.04 接下來我分享如何使用Python的easy

    2024年02月11日
    瀏覽(28)
  • java使用tesseract-ocr進(jìn)行文字識(shí)別

    java使用tesseract-ocr進(jìn)行文字識(shí)別

    提示:文章寫完后,目錄可以自動(dòng)生成,如何生成可參考右邊的幫助文檔 公司使用AI進(jìn)行OCR文字識(shí)別效果不好,并且提供的服務(wù)不穩(wěn)定,本次查找到使用java也能連接的OCR開源項(xiàng)目進(jìn)行識(shí)別的學(xué)習(xí) tesseract-ocr是一個(gè)開源的OCR文字識(shí)別項(xiàng)目,目前版本已經(jīng)更新到5.X.X了,并且提供

    2024年02月04日
    瀏覽(22)
  • Android開發(fā):通過Tesseract第三方庫實(shí)現(xiàn)OCR

    Android開發(fā):通過Tesseract第三方庫實(shí)現(xiàn)OCR

    一、引言 ????????什么是 OCR ?OCR(Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。簡(jiǎn)單地說,OCR是一種技術(shù),該項(xiàng)技術(shù)采用光學(xué)的

    2024年02月16日
    瀏覽(160)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包