国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Java也能做OCR!SpringBoot 整合 Tess4J 實(shí)現(xiàn)圖片文字識(shí)別

這篇具有很好參考價(jià)值的文章主要介紹了Java也能做OCR!SpringBoot 整合 Tess4J 實(shí)現(xiàn)圖片文字識(shí)別。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

什么是Tess4j庫(kù)

先簡(jiǎn)單給沒(méi)聽(tīng)過(guò)的xdm解釋下,這里要分清楚Tesseract和Tess4j的區(qū)別。

Tesseract是一個(gè)開(kāi)源的光學(xué)字符識(shí)別(OCR)引擎,它可以將圖像中的文字轉(zhuǎn)換為計(jì)算機(jī)可讀的文本。支持多種語(yǔ)言和書(shū)面語(yǔ)言,并且可以在命令行中執(zhí)行。它是一個(gè)流行的開(kāi)源OCR工具,可以在許多不同的操作系統(tǒng)上運(yùn)行。

Tess4J是一個(gè)基于Tesseract OCR引擎的Java接口,可以用來(lái)識(shí)別圖像中的文本,說(shuō)白了,就是封裝了它的API,讓Java可以直接調(diào)用。

搞清楚這倆東西,就足夠了。

案例

1、引入依賴(lài)

既然是SpringBoot,基礎(chǔ)依賴(lài)我就不贅述了,這里貼下Tess4J的依賴(lài),是可以用maven下載的。

<!-- tess4j -->
<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>4.5.4</version>
</dependency>

2、yml配置

這里,我特地把訓(xùn)練數(shù)據(jù)的目錄路徑配置在yml里,后續(xù)可以擴(kuò)展到配置中心。

server:
  port: 8888

# 訓(xùn)練數(shù)據(jù)文件夾的路徑
tess4j:
  datapath: D:/tessdata

然后我解釋下什么是訓(xùn)練數(shù)據(jù)

Tesseract OCR庫(kù)通過(guò)訓(xùn)練數(shù)據(jù)來(lái)學(xué)習(xí)不同語(yǔ)言和字體的特征,以便更好地識(shí)別圖片中的文字。

在安裝Tesseract OCR庫(kù)時(shí),通常會(huì)生成一個(gè)包含多個(gè)子文件夾的訓(xùn)練數(shù)據(jù)文件夾,其中每個(gè)子文件夾都包含了特定語(yǔ)言或字體的訓(xùn)練數(shù)據(jù)。

比如我這里是下載后放到了D盤(pán)的tessdata目錄下,如圖所示,其實(shí)就是一個(gè).traineddata為后綴的文件,大小約2M多。

java tess4j,java,spring boot,程序員,編程,后端

如果你沒(méi)有特定的訓(xùn)練數(shù)據(jù)需求,使用默認(rèn)的訓(xùn)練數(shù)據(jù)文件即可,我這里就是直接下載默認(rèn)的來(lái)用的。

還有一點(diǎn)要注意的是,直接讀resource目錄下的路徑是讀不到的哈,所以我放到了D盤(pán),訓(xùn)練數(shù)據(jù)本身也是更推薦放到獨(dú)立的位置,方便后續(xù)訓(xùn)練數(shù)據(jù)。

3、config配置類(lèi)

我們新建一個(gè)配置類(lèi),初始化一下Tesseract類(lèi),交給Spring管理,這樣借用了Spring的單例模式。

package com.example.tesseractocr.config;

import net.sourceforge.tess4j.Tesseract;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;

/**
 * @作者: 
 * @日期: 2023/10/12 22:58
 * @描述:
 */
@Configuration
public class TesseractOcrConfiguration {

   @Value("${tess4j.datapath}")
   private String dataPath;

   @Bean
   public Tesseract tesseract() {

      Tesseract tesseract = new Tesseract();
      // 設(shè)置訓(xùn)練數(shù)據(jù)文件夾路徑
      tesseract.setDatapath(dataPath);
      // 設(shè)置為中文簡(jiǎn)體
      tesseract.setLanguage("chi_sim");
      return tesseract;
   }
}

4、service實(shí)現(xiàn)

就幾行代碼,非常簡(jiǎn)單。
package com.example.tesseractocr.service;

import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.*;
import org.springframework.stereotype.Service;
import org.springframework.web.multipart.MultipartFile;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayInputStream;
import java.io.IOException;
import java.io.InputStream;

@Service
@AllArgsConstructor
public class OcrService {

    private final Tesseract tesseract;

   /**
    * 識(shí)別圖片中的文字
    * @param imageFile 圖片文件
    * @return 文字信息
    */
    public String recognizeText(MultipartFile imageFile) throws TesseractException, IOException {

        // 轉(zhuǎn)換
        InputStream sbs = new ByteArrayInputStream(imageFile.getBytes());
        BufferedImage bufferedImage = ImageIO.read(sbs);

        // 對(duì)圖片進(jìn)行文字識(shí)別
        return tesseract.doOCR(bufferedImage);
    }
}

5、新增rest接口

我們新建一個(gè)rest接口,用來(lái)測(cè)試效果,使用上傳圖片文件的方式。
package com.example.tesseractocr.controller;

import com.example.tesseractocr.service.OcrService;
import lombok.AllArgsConstructor;
import net.sourceforge.tess4j.TesseractException;
import org.springframework.http.MediaType;
import org.springframework.web.bind.annotation.PostMapping;
import org.springframework.web.bind.annotation.RequestMapping;
import org.springframework.web.bind.annotation.RequestParam;
import org.springframework.web.bind.annotation.RestController;
import org.springframework.web.multipart.MultipartFile;

import java.io.IOException;

@RequestMapping("/api")
@RestController
@AllArgsConstructor
public class OcrController {
    private final OcrService ocrService;

    @PostMapping(value = "/recognize", consumes = MediaType.MULTIPART_FORM_DATA_VALUE)
    public String recognizeImage(@RequestParam("file") MultipartFile file) throws TesseractException, IOException {

      // 調(diào)用OcrService中的方法進(jìn)行文字識(shí)別
      return ocrService.recognizeText(file);
    }
}

6、測(cè)試效果

這里我用ApiPost工具來(lái)測(cè)試下最終效果

我準(zhǔn)備的一張圖片如下,是從知乎上隨便截取的一張。

java tess4j,java,spring boot,程序員,編程,后端

我們調(diào)接口試一下,這里要設(shè)置Header的Content-Type,別忘了哈。

java tess4j,java,spring boot,程序員,編程,后端

這里是body中的參數(shù),我們選擇form-data中的File屬性,表示以上傳文件形式來(lái)調(diào)接口。

java tess4j,java,spring boot,程序員,編程,后端

看下效果,其實(shí)還是挺不錯(cuò)的,我和圖片比對(duì)了一下,基本上都識(shí)別出來(lái)了。

java tess4j,java,spring boot,程序員,編程,后端

相關(guān)地址

1)、Tesseract-ocr官方Github地址:http://github.com/tesseract-o…

2)、Tesseract-ocr安裝下載:http://digi.bib.uni-mannheim.de/tesseract/

PS:這里我沒(méi)有用官方Github文檔中給的地址,因?yàn)樘?,找了一個(gè)下載比較快的,你們可以往下拉找到win64位的安裝即可,如果沒(méi)有訓(xùn)練需求,不用下也可以)

3)、訓(xùn)練文件:http://digi.bib.uni-mannheim.de/tesseract/t…

PS:在2)的路徑下,有一個(gè)tessdata_fast目錄,點(diǎn)進(jìn)去就能直接下載到默認(rèn)訓(xùn)練文件,這種比較簡(jiǎn)便,省去了前面安裝下載的過(guò)程。

4)、案例代碼:http://gitee.com/fangfuji/ja…

PS:代碼放在Gitee上,在同名博文目錄里面,包含代碼+安裝文件+訓(xùn)練文件。

總結(jié)

是不是非常簡(jiǎn)單xdm,反正我覺(jué)得挺有意思的,后面抽空再試試訓(xùn)練數(shù)據(jù)。

好了,今天的小知識(shí),你學(xué)會(huì)了嗎?文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-757894.html

到了這里,關(guān)于Java也能做OCR!SpringBoot 整合 Tess4J 實(shí)現(xiàn)圖片文字識(shí)別的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀(guān)點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 有道OCR圖文識(shí)別整合SpringBoot

    背景需求, 官方SDK,在SpringBoot項(xiàng)目中過(guò)于臃腫,需要引入的Jar包過(guò)多, 在SpringBoot中, 本文使用SpringBoot中的RestTemplate對(duì)象進(jìn)行請(qǐng)求接口 案例代碼如下

    2024年02月15日
    瀏覽(18)
  • SpringBoot項(xiàng)目(百度AI整合)——如何在Springboot中使用文字識(shí)別OCR入門(mén)

    SpringBoot項(xiàng)目(百度AI整合)——如何在Springboot中使用文字識(shí)別OCR入門(mén)

    前言:本系列博客嘗試結(jié)合官網(wǎng)案例,闡述百度 AI 開(kāi)放平臺(tái)里的組件使用方式,核心是如何在spring項(xiàng)目中快速上手應(yīng)用。 本文介紹如何在Springboot中使用百度AI的文字識(shí)別OCR 其他相關(guān)的使用百度AI的文章列表如下: 如何在Springboot中使用語(yǔ)音文件識(shí)別 ffmpeg的安裝和使用 1.從官

    2024年02月02日
    瀏覽(25)
  • SpringBoot整合阿里云短信服務(wù)詳細(xì)過(guò)程(保證初學(xué)者也能實(shí)現(xiàn))

    SpringBoot整合阿里云短信服務(wù)詳細(xì)過(guò)程(保證初學(xué)者也能實(shí)現(xiàn))

    網(wǎng)上關(guān)于實(shí)操性的文章普遍大部分都記錄不全,要么只記錄重點(diǎn)部分,對(duì)于剛學(xué)習(xí)的小伙伴來(lái)說(shuō)看起來(lái)是比較困難的 所以,基于這一點(diǎn)。 該文章會(huì)詳細(xì)介紹使用SpringBoot整合阿里云短信服務(wù)的每一步過(guò)程,同時(shí)會(huì)將驗(yàn)證碼存放到Redis中并設(shè)置過(guò)期時(shí)間 , 盡量保證實(shí)戰(zhàn)的同時(shí)也

    2023年04月15日
    瀏覽(17)
  • 學(xué)習(xí)筆記|大模型優(yōu)質(zhì)Prompt開(kāi)發(fā)與應(yīng)用課(二)|第四節(jié):大模型幫你寫(xiě)代碼,小白也能做程序

    學(xué)習(xí)筆記|大模型優(yōu)質(zhì)Prompt開(kāi)發(fā)與應(yīng)用課(二)|第四節(jié):大模型幫你寫(xiě)代碼,小白也能做程序

    GT│飛槳開(kāi)發(fā)者技術(shù)專(zhuān)家 研發(fā)資源持續(xù)投入是企業(yè)為了獲取核心技術(shù).提升競(jìng)爭(zhēng)力而進(jìn)行的必要投資,同時(shí)也是企業(yè)實(shí)現(xiàn)長(zhǎng)期發(fā)展、保持核心競(jìng)爭(zhēng)力的關(guān)鍵因素。 在大型企業(yè)當(dāng)中,人力成本占研發(fā)投入通常超50%,互聯(lián)網(wǎng)頭部企業(yè)研發(fā)薪資通常在20k以上,可以看到技術(shù)性人才非

    2024年02月15日
    瀏覽(49)
  • 【Java】springboot整合jasypt

    保證項(xiàng)目中的賬號(hào)密碼不以明文的形式展示 讀取配置效果

    2024年02月19日
    瀏覽(23)
  • 【Java】SpringBoot快速整合Redis

    【Java】SpringBoot快速整合Redis

    ??????? 文末有源碼gitee地址 ????????【面試】淺學(xué)Redis_redis 廣播-CSDN博客 ????????Redis是一種 高性能開(kāi)源的基于內(nèi)存的,采用鍵值對(duì)存儲(chǔ)的非關(guān)系型數(shù)據(jù)庫(kù) ,它支持多種數(shù)據(jù)結(jié)構(gòu),包括字符串、哈希表、列表、集合、有序集合等。Redis的特點(diǎn)之一是 數(shù)據(jù)存儲(chǔ)在內(nèi)存

    2024年01月19日
    瀏覽(23)
  • 【Java閉關(guān)修煉】SpringBoot-SpringBoot整合其他框架

    【Java閉關(guān)修煉】SpringBoot-SpringBoot整合其他框架

    實(shí)現(xiàn)步驟 用于單元測(cè)試 首先編寫(xiě)一個(gè)業(yè)務(wù)類(lèi) UserService 編寫(xiě)測(cè)試類(lèi) 創(chuàng)建新的工程 勾選redis 查看依賴(lài)redis 勾選依賴(lài) MySQL Driver MyBatis FrameWork 配置datasource數(shù)據(jù)源信息 創(chuàng)建application.yml文件 填寫(xiě)配置信息 定義Mapper接口 使用Mapper接口操作數(shù)據(jù)庫(kù) 測(cè)試 在引導(dǎo)類(lèi)注入Mapper接口 進(jìn)行測(cè)試

    2023年04月08日
    瀏覽(19)
  • Java操作RabbitMq并整合SpringBoot

    秋風(fēng)閣-北溪入江流 RabbitMq自帶有專(zhuān)門(mén)的管理界面,可以在其管理界面對(duì)RabbitMq進(jìn)行管理查看等操作。 RabbitMq的管理界面的對(duì)外端口為 15672 ,當(dāng)我們啟動(dòng)RabbitMq后,需要啟動(dòng)管理界面插件后才能訪(fǎng)問(wèn)界面。 通過(guò)參數(shù)配置連接RabbitMq 通過(guò)amqp協(xié)議連接RabbitMq queueDeclarePassive: 創(chuàng)建或

    2024年02月16日
    瀏覽(26)
  • java springboot工程整合JUnit測(cè)試

    java springboot工程整合JUnit測(cè)試

    好啦從此文開(kāi)始 我們開(kāi)始學(xué)習(xí)整合第三方技術(shù)的知識(shí) 后續(xù) 我們會(huì)整合一下第三方技術(shù) 后續(xù)也還會(huì)用到很多 但大家要學(xué)的是思想 而不是某某技術(shù)怎么去整合 當(dāng)你會(huì)任何一種技術(shù) 你都能自如的整合到項(xiàng)目中 你才算掌握了整合技術(shù) 好 那么開(kāi)始先整合 JUnit 我們打開(kāi)idea 打開(kāi)我

    2024年02月08日
    瀏覽(20)
  • Java --- springboot3整合SSM

    目錄 一、整合SSM場(chǎng)景 二、自動(dòng)配置原理? ?引入pom依賴(lài) 數(shù)據(jù)庫(kù)表: 配置數(shù)據(jù)源 配置mybatis相關(guān)配置 實(shí)體類(lèi): mapper接口: mapper接口映射文件: service實(shí)現(xiàn)類(lèi): controller層: 在springboot啟動(dòng)類(lèi)添加注解: jdbc場(chǎng)景的自動(dòng)配置 :? ?1、 mybatis-spring-boot-starter 導(dǎo)入 spring-boot-starter-jd

    2024年02月08日
    瀏覽(24)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包