国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<meter id="gcbhl"><xmp id="gcbhl"></xmp></meter>

java讀取圖片、PDF中圖片上的文字

2年前作者：幾層山下分類：Toy博客閱讀(17)違法舉報

這篇具有很好參考價值的文章主要介紹了java讀取圖片、PDF中圖片上的文字。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

讀取圖片上的文字

提示：本文是基于tess4j

前言

總是有一些與眾不同的需求在等著研發(fā)人員去探索，本文介紹如何通過java讀取圖片上的文字。

一、tess4j是什么？

說tess4j之前，先說說Tesseract，因為tess4j是基于它的封裝。

Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經成為OCR業(yè)內最準確的三款識別引擎之一。Tesseract目前已作為開源頂目發(fā)布在GoogleProject,它與Leptonica圖片處理庫結合,可以讀取各種格式的圖像并將它們轉化成超過60種語言的文本,我們還可以不斷訓練自己的庫,使圖像轉換文本的能力不斷增強,如果團隊深度需要,還可以以它為模板,開發(fā)出等合自身需求的OCR引擎。

Tess4J 是Java （JNA）對 Tesseract OCR API 的封裝。

Tesseract：https://tesseract-ocr.github.io/

Tess4J官網：http://tess4j.sourceforge.net/codesample.html

語言庫：(需要科學上網下載)

https://github.com/tesseract-ocr/tessdata

https://codechina.csdn.net/mirrors/tesseract-ocr/tessdata

Tess4J是Tesseract在Java PC上的應用。在英文和數(shù)字識別中性能還是不錯的，但是在中文識別中，無論速度還是識別率還是較弱，建議有條件的話，針對場景進行訓練，會獲得較好結果，本文僅對目前Tess4J的中文識別進行簡單介紹。

二、使用步驟

1.POM引入庫

        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>4.6.0</version>
        </dependency>

2.實例代碼

    public static void main1(String[] args) throws IOException {
        Tesseract tesseract = new Tesseract();
        //設置語言庫位置
        tesseract.setDatapath("/xxx/tessdata");
        //設置語言類型
        tesseract.setLanguage("chi_sim");
        //img
        BufferedImage image = ImageIO.read(new File("a.png"));
        try  {
            String result = tesseract.doOCR(image);
            //PDF
            //String result = tesseract.doOCR(new File("xxx.pdf"));
            System.out.println(result);
        } catch (Exception e) {
            e.printStackTrace();
        }
    }

對代碼進行說明：
支持操作圖片：支持jpg、png等格式的圖片。
支持操作PDF。
代碼其實不多，因為已經封裝了很多細節(jié)，我們只需要知道是借助Tesseract實體，通過給他設置語言庫和操作語言來實現(xiàn)OCR光學識別。
<

我這里將語言庫打包了，有需要的伙伴可以下載：

https://download.csdn.net/download/qq_38653981/87695195

java讀取圖片、PDF中圖片上的文字

其實Tesseract支持渲染格式類型有很多，上面一個枚舉其實可以看到，所以不僅僅是圖片，比如PDF也是支持的，原理基本都是OCR光學識別，當然，越清楚識別的越精準，如果有特殊要求，比如識別手寫的內容，需要做語言訓練，說白了就是要新增語言庫的識別對應關系，不然程序沒法匹配出來特殊的字，比如草書、特定簽名、特殊標識等。

如果需要針對手寫中文等特殊處理的字進行訓練，可以參考這位朋友寫的博客：
https://blog.csdn.net/weixin_29254673/article/details/113322249

總結

網上有很多操作的實現(xiàn)方式，我只是針對Tess4J進行了研究學習，更多的細節(jié)其實可以多去看看源碼，里面有一些更深入的講解，Tesseract因為涉及安裝，所以操作有點麻煩，但是更加精準。一般我們項目開發(fā)，還是結合使用最佳，關鍵的東西就是語言庫，這個東西只要完善了，Tess4J會很強大。
以上就是本次分享的內容，歡迎大家點贊學習文章來源地址http://www.zghlxwxcb.cn/news/detail-494464.html

到了這里，關于java讀取圖片、PDF中圖片上的文字的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

JAVA讀?。―OC、DOCX、PDF、PPT、PPTX）文件文本內容及圖片
溫馨提示：有很多方法均可以解析這些常見的文件，以下內容使用的是apache-poi + apache-pdfbox實現(xiàn)的。 ????????關于文檔解析，在網上搜索了很久，無奈內容太過繁雜，找不到合適的代碼，一大半都是只支持文本。沒辦法，只能自己在網上一點一點CV了，最終提取了這些代碼
2024年02月03日
瀏覽(36)
ps去除圖片上的文字
? ? ?
2024年01月23日
瀏覽(18)
圖片怎么翻譯？三分鐘教會你如何翻譯圖片上的文字
嘿，小伙伴們！你們有沒有碰到過這種情況：有時候我們會看到一張有趣的圖片，上面可能寫著奇怪的字母、生僻的文字或者是令人費解的符號。這時應該怎么辦呢？其實我們可以借助圖片翻譯成文字的軟件把它翻譯過來就行了。但是，現(xiàn)在市面上的這種軟件好壞參差不齊，
2024年02月15日
瀏覽(17)
python提取圖片型pdf中的文字（提取pdf掃描件文字）
前言文字型pdf提取，python的庫一大堆，但是圖片型pdf和pdf掃描件提取，還是有些難度的，我們需要用到OCR（光學字符識別）功能。一、準備 1、安裝OCR（光學字符識別）支持庫首先要安裝 pytesseract 和 Tesserac OCR ，Tesseract OCR是一種廣泛使用的OCR工具，它可以用于從圖像中提取
2024年03月23日
瀏覽(29)
C# 圖片轉PDF，PDF增加水印文字
好久沒寫博客了，今天給大家分享一個圖片轉PDF的相關操作，也算是一次總結吧。首先需要準備動態(tài)庫itextsharp.dll，這個dll去網上下載，都可以下載到，C#對PDF的操作都是基于這個類庫來實現(xiàn)的。話不多說，直接上代碼。
2024年02月09日
瀏覽(29)
零代碼編程：用ChatGPT批量識別圖片PDF中的文字
有些PDF頁面是圖片格式，要怎么批量把圖片中的文字識別出來？借助ChatGPT可以輕松完成這個任務。首先要安裝一些相關的軟件和Python庫。安裝tesseract-ocr（OCR）軟件，最新版的是tesseract-ocr-w64-setup-v5.3.0.20221214.exe ，下載地址是https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-se
2024年02月15日
瀏覽(24)
為什么使用fitz讀取pdf轉為圖片模糊
出現(xiàn)這樣的原因有可能是因為，在進行頁面讀取的時候未指定讀取的dpi是多少，使得默認讀取去96dpi 所以在進行讀取時使用遇到苦難找文檔哦牢記 : color{red}{牢記:} 牢記 : help()和查看官方文檔呀相關的其他參數(shù)還有： matrix：指定應用于頁面的轉換矩陣（fitz.Matrix 對象）。默
2024年02月12日
瀏覽(30)
Word導出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失
Word 2021 Visio 2019 Adobe Acrobat Pro 2020 公式馬賽克化，是指在Word中使用MathType編輯的公式，然后在Visio中使用圖片(增強型圖元文件) 形式得到的粘貼對象，效果如下文字缺失，是指Word 導出 → 創(chuàng)建Adobe PDF → 創(chuàng)建Adobe PDF 獲得的PDF文件中，原來的emf矢量圖部分文字缺失，效果如下
2024年02月11日
瀏覽(284)
【批量區(qū)域識別內容重命名】批量識別圖片區(qū)域文字并重命名，批量圖片部分識別內容重命文件，PDF區(qū)域識別提取重命名
我們在工作和生活中經常遇到這樣的需求：比如將以下的圖片區(qū)域識別進行重命名，批量識別后改成以時間和工作內容重命名，便于日后檢索，快速查詢首先我們拍攝照片用到的是水印相機，這里的文字呢我們需要加個背景，這樣在文字識別就很容易的被識別，準確率也非常
2024年04月25日
瀏覽(28)
Java pdf添加文字水印
最近在開發(fā)一個項目，其中就有導出的功能，而甲方提了一個需求，要對導出的pdf加文字水印，所以我就加班了整整10分鐘肝出了這個功能，既然做出來了就和大家分享一下吧，拿走不謝?。?！總共就三步，非常簡單 1.導入maven依賴 2.PDF增加水印工具類 3.運行工具類下面的m
2024年02月12日
瀏覽(30)