国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

java讀取圖片、PDF中圖片上的文字

這篇具有很好參考價值的文章主要介紹了java讀取圖片、PDF中圖片上的文字。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

讀取圖片上的文字


提示:本文是基于tess4j


前言

總是有一些與眾不同的需求在等著研發(fā)人員去探索,本文介紹如何通過java讀取圖片上的文字。


一、tess4j是什么?

說tess4j之前,先說說Tesseract,因為tess4j是基于它的封裝。

Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經成為OCR業(yè)內最準確的三款識別引擎之一。Tesseract目前已作為開源頂目發(fā)布在GoogleProject,它與Leptonica圖片處理庫結合,可以讀取各種格式的圖像并將它們轉化成超過60種語言的文本,我們還可以不斷訓 練自己的庫,使圖像轉換文本的能力不斷增強,如果團隊深度需要,還可以以它為模板,開發(fā)出等合自身需求的OCR引擎。

Tess4J 是Java (JNA) 對 Tesseract OCR API 的封裝。

Tesseract:https://tesseract-ocr.github.io/

Tess4J官網:http://tess4j.sourceforge.net/codesample.html

語言庫:(需要科學上網下載)

https://github.com/tesseract-ocr/tessdata

https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata


Tess4J是Tesseract在Java PC上的應用。在英文和數(shù)字識別中性能還是不錯的,但是在中文識別中,無論速度還是識別率還是較弱,建議有條件的話,針對場景進行訓練,會獲得較好結果,本文僅對目前Tess4J的中文識別進行簡單介紹 。

二、使用步驟

1.POM引入庫

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.6.0</version>
        </dependency>

2.實例代碼

    public static void main1(String[] args) throws IOException {
        Tesseract tesseract = new Tesseract();
        //設置語言庫位置
        tesseract.setDatapath("/xxx/tessdata");
        //設置語言類型
        tesseract.setLanguage("chi_sim");
        //img
        BufferedImage image = ImageIO.read(new File("a.png"));
        try  {
            String result = tesseract.doOCR(image);
            //PDF
            //String result = tesseract.doOCR(new File("xxx.pdf"));
            System.out.println(result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

對代碼進行說明:
支持操作圖片:支持jpg、png等格式的圖片。
支持操作PDF。
代碼其實不多,因為已經封裝了很多細節(jié),我們只需要知道是借助Tesseract實體,通過給他設置語言庫和操作語言來實現(xiàn)OCR光學識別。
<

我這里將語言庫打包了,有需要的伙伴可以下載:

https://download.csdn.net/download/qq_38653981/87695195


java讀取圖片、PDF中圖片上的文字
java讀取圖片、PDF中圖片上的文字

其實Tesseract支持渲染格式類型有很多,上面一個枚舉其實可以看到,所以不僅僅是圖片,比如PDF也是支持的,原理基本都是OCR光學識別,當然,越清楚識別的越精準,如果有特殊要求,比如識別手寫的內容,需要做語言訓練,說白了就是要新增語言庫的識別對應關系,不然程序沒法匹配出來特殊的字,比如草書、特定簽名、特殊標識等。

如果需要針對手寫中文等特殊處理的字進行訓練,可以參考這位朋友寫的博客:
https://blog.csdn.net/weixin_29254673/article/details/113322249

總結

網上有很多操作的實現(xiàn)方式,我只是針對Tess4J進行了研究學習,更多的細節(jié)其實可以多去看看源碼,里面有一些更深入的講解,Tesseract因為涉及安裝,所以操作有點麻煩,但是更加精準。一般我們項目開發(fā),還是結合使用最佳,關鍵的東西就是語言庫,這個東西只要完善了,Tess4J會很強大。
以上就是本次分享的內容,歡迎大家點贊學習文章來源地址http://www.zghlxwxcb.cn/news/detail-494464.html

到了這里,關于java讀取圖片、PDF中圖片上的文字的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯(lián)網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • JAVA讀?。―OC、DOCX、PDF、PPT、PPTX)文件文本內容及圖片

    JAVA讀?。―OC、DOCX、PDF、PPT、PPTX)文件文本內容及圖片

    溫馨提示:有很多方法均可以解析這些常見的文件,以下內容使用的是apache-poi + apache-pdfbox實現(xiàn)的。 ????????關于文檔解析,在網上搜索了很久,無奈內容太過繁雜,找不到合適的代碼,一大半都是只支持文本。沒辦法,只能自己在網上一點一點CV了,最終提取了這些代碼

    2024年02月03日
    瀏覽(36)
  • ps去除圖片上的文字

    ps去除圖片上的文字

    ? ? ?

    2024年01月23日
    瀏覽(18)
  • 圖片怎么翻譯?三分鐘教會你如何翻譯圖片上的文字

    圖片怎么翻譯?三分鐘教會你如何翻譯圖片上的文字

    嘿,小伙伴們!你們有沒有碰到過這種情況:有時候我們會看到一張有趣的圖片,上面可能寫著奇怪的字母、生僻的文字或者是令人費解的符號。這時應該怎么辦呢?其實我們可以借助圖片翻譯成文字的軟件把它翻譯過來就行了。但是,現(xiàn)在市面上的這種軟件好壞參差不齊,

    2024年02月15日
    瀏覽(17)
  • python提取圖片型pdf中的文字(提取pdf掃描件文字)

    python提取圖片型pdf中的文字(提取pdf掃描件文字)

    前言 文字型pdf提取,python的庫一大堆,但是圖片型pdf和pdf掃描件提取,還是有些難度的,我們需要用到OCR(光學字符識別)功能。 一、準備 1、安裝OCR(光學字符識別)支持庫 首先要安裝 pytesseract 和 Tesserac OCR ,Tesseract OCR是一種廣泛使用的OCR工具,它可以用于從圖像中提取

    2024年03月23日
    瀏覽(29)
  • C# 圖片轉PDF,PDF增加水印文字

    好久沒寫博客了,今天給大家分享一個圖片轉PDF的相關操作,也算是一次總結吧。 首先需要準備動態(tài)庫itextsharp.dll,這個dll去網上下載,都可以下載到,C#對PDF的操作都是基于這個類庫來實現(xiàn)的。話不多說,直接上代碼。

    2024年02月09日
    瀏覽(29)
  • 零代碼編程:用ChatGPT批量識別圖片PDF中的文字

    零代碼編程:用ChatGPT批量識別圖片PDF中的文字

    有些PDF頁面是圖片格式,要怎么批量把圖片中的文字識別出來?借助ChatGPT可以輕松完成這個任務。 首先要安裝一些相關的軟件和Python庫。 安裝tesseract-ocr(OCR)軟件,最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ,下載地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-se

    2024年02月15日
    瀏覽(24)
  • 為什么使用fitz讀取pdf轉為圖片模糊

    出現(xiàn)這樣的原因有可能是因為,在進行頁面讀取的時候未指定讀取的dpi是多少,使得默認讀取去96dpi 所以在進行讀取時使用 遇到苦難找文檔哦 牢記 : color{red}{牢記:} 牢記 : help()和查看官方文檔呀 相關的其他參數(shù)還有: matrix:指定應用于頁面的轉換矩陣(fitz.Matrix 對象)。默

    2024年02月12日
    瀏覽(30)
  • Word導出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失

    Word導出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失

    Word 2021 Visio 2019 Adobe Acrobat Pro 2020 公式馬賽克化,是指在Word中使用MathType編輯的公式,然后在Visio中使用 圖片(增強型圖元文件) 形式得到的粘貼對象,效果如下 文字缺失,是指Word 導出 → 創(chuàng)建Adobe PDF → 創(chuàng)建Adobe PDF 獲得的PDF文件中,原來的emf矢量圖部分文字缺失,效果如下

    2024年02月11日
    瀏覽(284)
  • 【批量區(qū)域識別內容重命名】批量識別圖片區(qū)域文字并重命名,批量圖片部分識別內容重命文件,PDF區(qū)域識別提取重命名

    【批量區(qū)域識別內容重命名】批量識別圖片區(qū)域文字并重命名,批量圖片部分識別內容重命文件,PDF區(qū)域識別提取重命名

    我們在工作和生活中經常遇到這樣的需求:比如將以下的圖片區(qū)域識別進行重命名,批量識別后改成以時間和工作內容重命名,便于日后檢索,快速查詢 首先我們拍攝照片用到的是水印相機,這里的文字呢我們需要加個背景,這樣在文字識別就很容易的被識別,準確率也非常

    2024年04月25日
    瀏覽(28)
  • Java pdf添加文字水印

    Java pdf添加文字水印

    最近在開發(fā)一個項目,其中就有導出的功能,而甲方提了一個需求,要對導出的pdf加文字水印,所以我就加班了整整10分鐘肝出了這個功能,既然做出來了就和大家分享一下吧,拿走不謝?。?! 總共就三步,非常簡單 1.導入maven依賴 2.PDF增加水印工具類 3.運行工具類下面的m

    2024年02月12日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包