免費(fèi)開源的高精度OCR文本提取,支持 100 多種語言、自動(dòng)文本定位和腳本檢測,幾行代碼即可實(shí)現(xiàn)離線使用(附源碼)。
要從圖像、照片中提取文本嗎?是否剛剛拍了講義的照片并想將其轉(zhuǎn)換為文本?那么您將需要一個(gè)可以通過 OCR(光學(xué)字符識別)識別文本的應(yīng)用程序。
圖片文字識別依據(jù)的是文字識別原理,通過對文字的亮暗檢測,并且與字符庫進(jìn)行對比,從而判斷是哪個(gè)文字。并作輸出。該軟件基于開放式的XML數(shù)據(jù)結(jié)構(gòu),可以對數(shù)據(jù)進(jìn)行擴(kuò)充和再定義。支持第三方開發(fā)廠商方便地進(jìn)行文檔數(shù)據(jù)的轉(zhuǎn)換、遷移和再利用。OCR圖片文字識別軟件采用UNICODE國際編碼標(biāo)準(zhǔn)。系統(tǒng)可在一個(gè)統(tǒng)一的平臺(tái)下,同時(shí)處理包括中文、日文、韓文、英文在內(nèi)的多種文字的識別和校對修改。
圖片文字識別的中文識別率達(dá)99.8%以上。日文、英文、韓文的識別率也高居世界水平。圖片文字識別還有一個(gè)很重要的特點(diǎn):版面還原,支持字體、字號、版面位置、字體顏色等,可以讓信息以原版的狀態(tài)呈現(xiàn)。這對于報(bào)刊、圖書、雜志等文檔的識別具有很重要的意義。
文章來源:http://www.zghlxwxcb.cn/news/detail-429439.html
Tesseract.js 是一個(gè) javascript 庫,可以從圖像中獲取幾乎任何語言的文字。它將原始的 Tesseract 從 C 編譯為 JavaScript WebAssembly,從而使 OCR 可以在瀏覽器中訪問。Tesseract.js 引擎最初是用 ASM.js 編寫的,后來移植到 WebAssembly?文章來源地址http://www.zghlxwxcb.cn/news/detail-429439.html
到了這里,關(guān)于免費(fèi)開源的高精度OCR文本提取,支持 100 多種語言、自動(dòng)文本定位和腳本檢測,幾行代碼即可實(shí)現(xiàn)離線使用(附源碼)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!