国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Springboot使用pdfbox提取PDF圖片

這篇具有很好參考價值的文章主要介紹了Springboot使用pdfbox提取PDF圖片。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

PDFBox的介紹

PDFBox是一個用于創(chuàng)建和處理PDF文檔的Java庫。它可以使用Java代碼創(chuàng)建、讀取、修改和提取PDF文檔中的內容。

PDFBox的功能:

  • Extract Text - 使用PDFBox,您可以從PDF文件中提取Unicode文本。

  • Split & Merge - 使用PDFBox,您可以將單個PDF文件分成多個文件,并將它們合并為一個文件。

  • Fill Forms - 使用PDFBox,您可以在文檔中填寫表單數據。

  • Print - 使用PDFBox,您可以使用標準Java打印API打印PDF文件。

  • Save as Image - 使用PDFBox,您可以將PDF保存為圖像文件,如PNG或JPEG。

  • Create PDFs - 使用PDFBox,您可以通過創(chuàng)建Java程序創(chuàng)建新的PDF文件,還可以包含圖像和字體。

  • Signing - 使用PDFBox,您可以將數字簽名添加到PDF文件。

Springboot集成PDFBox

本項目除了引入pdfbox的依賴之外,還引入了解決圖像問題的其他依賴。
例如:jai-imageio-jpeg2000jai-imageio-core是為了解決在轉換圖像時報錯:Cannot read JPEG2000 image: Java Advanced Imaging (JAI) Image I/O Tools are not installed

jbig2-imageio依賴引入是為了解決使用pdfbox2.0將PDF轉換為圖片時后臺報Cannot read JBIG2 image: jbig2-imageio is not installed錯誤

<!-- pdf提取封面依賴-->
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox</artifactId>
    <version>2.0.22</version>
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>pdfbox-tools</artifactId>
    <version>2.0.22</version>
</dependency>
<dependency>
    <groupId>org.apache.pdfbox</groupId>
    <artifactId>jbig2-imageio</artifactId>
    <version>3.0.2</version>
</dependency>
<!-- 解決提取pdf "Cannot read JPEG2000 image"封面失敗問題 -->
<dependency>
    <groupId>com.github.jai-imageio</groupId>
    <artifactId>jai-imageio-core</artifactId>
    <version>1.3.1</version>
</dependency>
<dependency>
    <groupId>com.github.jai-imageio</groupId>
    <artifactId>jai-imageio-jpeg2000</artifactId>
    <version>1.3.0</version>
</dependency>

一、提取pdf首頁為圖像

1. 實現需求

單個或者批量提取pdf的首頁作為封面,或者可以實現提取指定pdf頁為圖像

2. 項目代碼

核心工具類方法:PdfUtils.getPdfFirstImage

package com.zhouquan.utils;

import lombok.extern.slf4j.Slf4j;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.rendering.ImageType;
import org.apache.pdfbox.rendering.PDFRenderer;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.IOException;

/**
 * @author ZhouQuan
 * @desciption pdf工具類
 * @date 2023/6/17 9:52
 */
@Slf4j
public class PdfUtils {

    /**
     * 提取pdf首頁作為封面
     *
     * @param pdfFile
     * @param dpi     the DPI (dots per inch) to render at
     * @return
     */
    public static BufferedImage getPdfFirstImage(File pdfFile, float dpi) {
        long startTime = System.currentTimeMillis();
        if (!pdfFile.isFile() || !pdfFile.exists()) {
            return null;
        }

        try (PDDocument document = PDDocument.load(pdfFile)) {
            PDFRenderer pdfRenderer = new PDFRenderer(document);

            // 設置頁數(首頁從0開始)、每英寸點數、圖片類型
            BufferedImage bufferedImage = pdfRenderer.renderImageWithDPI(0, dpi, ImageType.RGB);

            log.info("提取耗時:{}ms", System.currentTimeMillis() - startTime);
            return bufferedImage;
        } catch (Exception e) {
            log.error(e.getMessage());
            e.printStackTrace();
            return null;
        }
    }
}

service方法類,負責將讀取的pdf的bufferedImage對象寫入指定的圖片對象中

package com.zhouquan.service.impl;

import com.zhouquan.service.PdfService;
import com.zhouquan.utils.PdfUtils;
import lombok.extern.slf4j.Slf4j;
import org.apache.commons.io.FileUtils;
import org.apache.commons.io.FilenameUtils;
import org.apache.pdfbox.tools.imageio.ImageIOUtil;
import org.springframework.stereotype.Service;

import java.awt.image.BufferedImage;
import java.io.File;

/**
 * @author ZhouQuan
 * @desciption pdf提取相關類
 * @date 2023/6/17 9:40
 */
@Slf4j
@Service
public class PdfServiceImpl implements PdfService {

    /**
     * 提取封面的存放路徑
     */
    private static String coverPath = "D:/pdf_test/cover";

    /**
     * 提取封面的文件后綴
     */
    private static final String coverExt = "png";

    /**
     * pdf 提取封面
     *
     * @param pdfFile pdf文件
     */
    @Override
    public void pickupCover(File pdfFile) {

        //要渲染的DPI(每英寸點數),可以理解為生成圖片的清晰度,值越高生成質量越高
        int dpi = 300;
        try {
            //提取封面工具類
            BufferedImage bufferedImage = PdfUtils.getPdfFirstImage(pdfFile, dpi);

            //獲取pdf文件名
            String fileName = FilenameUtils.getBaseName(pdfFile.getName());
            String currentCoverPath = coverPath + "/" + fileName + "." + coverExt;

            // 創(chuàng)建圖片文件對象
            FileUtils.createParentDirectories(new File(currentCoverPath));

            // 將圖片寫入到圖片對象中
            ImageIOUtil.writeImage(bufferedImage, currentCoverPath, dpi);

            byte[] coverByte = PdfUtils.bufferedImageToByteArray(bufferedImage);
            log.info("提取封面大小為: {}MB", String.format("%.2f", coverByte.length / 1024 / 1024.0));


        } catch (Exception e) {
            log.error(e.getMessage());
        }
    }
}

測試類

package com.zhouquan;

import com.zhouquan.service.PdfService;
import org.junit.jupiter.api.Test;
import org.springframework.boot.test.context.SpringBootTest;

import javax.annotation.Resource;
import java.io.File;

@SpringBootTest
public class PdfTests {

    @Resource
    public PdfService pdfService;

    /**
     * 提取單個文件封面
     */
    @Test
    public void pickupCover() {
        String pdfFilePath = "D:/pdf_test/pdf/三體三部曲-劉慈欣.pdf";
        pdfService.pickupCover(new File(pdfFilePath), 0);
    }

    /**
     * 批量單個文件封面
     */
    @Test
    public void batchPickupCover() {

        String pdfFilePath = "E:/開發(fā)項目/h化工出版社/opt";

        File[] files = new File(pdfFilePath).listFiles();
        if (files != null && files.length > 0) {
            for (File file : files) {
                pdfService.pickupCover(file, 0);
            }
        }
    }
}

3. 執(zhí)行結果

1.單本pdf提取封面
Springboot使用pdfbox提取PDF圖片2.批量提取pdf封面
Springboot使用pdfbox提取PDF圖片

二、將pdf內容全部轉換為圖像

1. 實現需求

將pdf中所有的頁轉換為圖片

2. 項目代碼

核心工具類方法:PdfUtils.getPdfAllImage

  /**
     * 加載讀取pdf并返回所有的BufferedImage對象
     *
     * @param pdfFile pdf文件對象
     * @param dpi     the DPI (dots per inch) to render at
     * @return
     */
    public static List<BufferedImage> getPdfAllImage(File pdfFile, float dpi) {
        if (!pdfFile.isFile() || !pdfFile.exists()) {
            return null;
        }

        //創(chuàng)建PDFDocument對象并加載PDF文件
        try (PDDocument document = PDDocument.load(pdfFile)) {

            //創(chuàng)建一個PDFRenderer對象并將PDDocument對象傳遞給它
            PDFRenderer pdfRenderer = new PDFRenderer(document);


            List<BufferedImage> bufferedImages = new ArrayList<>();
            BufferedImage bufferedImage;
            for (int pageIndex = 0; pageIndex < document.getNumberOfPages(); pageIndex++) {
                System.out.println("pageIndex:" + pageIndex);
                // 設置頁數(首頁從0開始)、每英寸點數、圖片類型
                bufferedImage = pdfRenderer.renderImageWithDPI(pageIndex, dpi, ImageType.RGB);
                bufferedImages.add(bufferedImage);
            }

            return bufferedImages;
        } catch (Exception e) {
            log.error(e.getMessage());
            e.printStackTrace();
            return null;
        }
    }

service方法類,負責將讀取的pdf的bufferedImage列表對象按順序寫入指定目錄的圖片文件中

 @Override
    public void pickupPdfToImage(File pdfFile) {

        //要渲染的DPI(每英寸點數),可以理解為生成圖片的清晰度,值越高生成質量越高
        int dpi = 100;
        try {
            //提取封面工具類
            List<BufferedImage> pdfAllImage = PdfUtils.getPdfAllImage(pdfFile, dpi);

            log.info("共提取到{}頁",pdfAllImage.size());

            String fileName = FilenameUtils.getBaseName(pdfFile.getName());

            String currentCoverPath;
            for (int i = 0; i < pdfAllImage.size(); i++) {
                currentCoverPath = coverPath + "/" + fileName + " 第" + i + "頁" + "." + coverExt;

                // 創(chuàng)建圖片文件對象
                FileUtils.createParentDirectories(new File(currentCoverPath));

                // 將圖片寫入到圖片對象中
                ImageIOUtil.writeImage(pdfAllImage.get(i), currentCoverPath, dpi);
            }

        } catch (Exception e) {
            log.error(e.getMessage());
        }
    }

測試類

/**
  * 批量提取文件封面
  */
 @Test
 public void pickupPdfToImage() {

     String pdfFilePath = "D:/pdf_test/pdf/三體三部曲-劉慈欣.pdf";
     pdfService.pickupPdfToImage(new File(pdfFilePath));

 }

3. 執(zhí)行結果

Springboot使用pdfbox提取PDF圖片

4.注意事項

由于pdf的提取是將pdf文件加載到堆內存中進行操作,因此在提取過程中容易導致堆內存溢出Java heap space,簡單來說就是在創(chuàng)建新的對象時, 堆內存中的空間不足以存放新創(chuàng)建的對象,導致此種問題的發(fā)生。
解決方案如下:

1.優(yōu)化項目代碼

根據報錯信息定位到內存消耗較大的代碼,然后對其進行重構或者優(yōu)化算法。如果是在生產環(huán)境,務必要在內存消耗過大的代碼出增加日志信息輸出,否則容易像我定位一晚上才找到問題所在

2.提升Java heap size

增加堆內存空間設置,此種方式容易操作??梢暂^快解決當前問題,但是總體來說還是需要找到項目代碼中的問題才是最優(yōu)解,畢竟內存總是有限的

根據自己的硬件配置進行分配對空間,例如8G內存配置的內存參數:

-Xms4096m 
-Xmx4096m

關于pdfbox比較好的學習文檔:
https://iowiki.com/pdfbox/pdfbox_overview.html文章來源地址http://www.zghlxwxcb.cn/news/detail-498284.html

到了這里,關于Springboot使用pdfbox提取PDF圖片的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • Java 利用pdfbox將圖片和成到pdf指定位置

    業(yè)務背景:用戶在手機APP上進行簽名,前端將簽完名字的圖片傳入后端,后端合成新的pdf. 廢話不多說,上代碼: 注意:前端傳過來的圖片必須是透明的,否則合成的時候簽名處會有邊框 ? ? ? ?

    2024年02月09日
    瀏覽(23)
  • java中pdfbox處理pdf常用方法(讀取、寫入、合并、拆分、寫文字、寫圖片)

    java中pdfbox處理pdf常用方法(讀取、寫入、合并、拆分、寫文字、寫圖片)

    方法代碼: 測試用例: 2.1寫文字 方法代碼: 測試用例: A.pdf: A2.pdf: 2.2寫圖片 方法代碼: 測試用例: A.pdf: pic.jpg: A2.pdf: 方法代碼: 測試用例: 方法代碼: 測試用例: 引用鏈接: (17條消息) 使用Apache PDFBox實現拆分、合并PDF_似有風中泣的博客-CSDN博客 (17條消息) Java使用P

    2024年02月11日
    瀏覽(32)
  • 使用pdfbox 為 PDF 增加水印

    使用pdfbox 為 PDF增加水印 https://www.jylt.cc/#/detail?activityIndex=2id=bd410851b0a72dad3105f9d50787f914 引入依賴 具體代碼實現

    2024年01月19日
    瀏覽(28)
  • 如何通過Java的Apache PDFBox庫制作一個PDF表格模板并填充數據

    要使用Java的Apache PDFBox庫制作一個PDF表格模板并填充數據,你需要遵循以下步驟: 添加依賴 :首先,確保你的項目中包含了Apache PDFBox的依賴。如果你使用Maven,可以在你的 pom.xml 文件中添加以下依賴: 創(chuàng)建PDF模板 :你可以使用PDFBox創(chuàng)建一個簡單的PDF模板,或者使用其他工具

    2024年02月22日
    瀏覽(24)
  • 開源PDF工具 Apache PDFBox 認識及使用(知識點+案例)

    開源PDF工具 Apache PDFBox 認識及使用(知識點+案例)

    博主介紹:?目前全網粉絲2W+,csdn博客專家、Java領域優(yōu)質創(chuàng)作者,博客之星、阿里云平臺優(yōu)質作者、專注于Java后端技術領域。 涵蓋技術內容:Java后端、算法、分布式微服務、中間件、前端、運維、ROS等。 博主所有博客文件目錄索引:博客目錄索引(持續(xù)更新) 視頻平臺:

    2024年02月20日
    瀏覽(26)
  • 【PDFBox】PDFBox操作PDF文檔之讀取指定頁面文本內容、讀取所有頁面文本內容、根據模板文件生成PDF文檔

    【PDFBox】PDFBox操作PDF文檔之讀取指定頁面文本內容、讀取所有頁面文本內容、根據模板文件生成PDF文檔

    這篇文章,主要介紹PDFBox操作PDF文檔之讀取指定頁面文本內容、讀取所有頁面文本內容、根據模板文件生成PDF文檔。 目錄 一、PDFBox操作文本 1.1、讀取所有頁面文本內容 1.2、讀取指定頁面文本內容 1.3、寫入文本內容 1.4、替換文本內容 (1)自定義PDTextStripper類 (2)創(chuàng)建Key

    2024年02月16日
    瀏覽(23)
  • Java實現自動化pdf打水印小項目 使用技術pdfbox、Documents4j

    Java實現自動化pdf打水印小項目 使用技術pdfbox、Documents4j

    博主介紹:?目前全網粉絲2W+,csdn博客專家、Java領域優(yōu)質創(chuàng)作者,博客之星、阿里云平臺優(yōu)質作者、專注于Java后端技術領域。 涵蓋技術內容:Java后端、算法、分布式微服務、中間件、前端、運維、ROS等。 博主所有博客文件目錄索引:博客目錄索引(持續(xù)更新) 視頻平臺:

    2024年02月20日
    瀏覽(39)
  • java利用pdfbox動態(tài)生成PDF

    Apache?PDFBox?是一個用于處理?PDF?文檔的?Java?庫。它提供了許多功能和方法來讀取、創(chuàng)建、操作和提取?PDF?文檔的內容。 PDDocument?類 引用源碼中對PDDocument?類的描述 This?is?the?in-memory?representation?of?the?PDF?document 這是PDF文檔的內存表示,在?java?程序中,你可以簡單理解

    2024年02月06日
    瀏覽(25)
  • 基于pdfbox實現的pdf添加文字水印工具

    最近有個需求需要給pdf加文字水印,于是開始搜索大法,但是發(fā)現網絡上的代碼基本都是將字體文件直接放在jar包里面。個人強迫癥發(fā)作(手動狗頭),想要像poi一樣直接加載系統字體,于是研究了一下午pdfbox的源代碼,發(fā)現 FontFileFinder 類可以實現這個功能。廢話不多說,直

    2023年04月11日
    瀏覽(27)
  • 【Java】OpenPDF、iText、PDFBox 是三種常用的 PDF 處理庫

    OpenPDF、iText、PDFBox 是三種常用的 PDF 處理庫,它們各自具有獨特的優(yōu)勢和特點,同時也存在一些局限性和差異。本文將對這四種庫進行詳細的比較,并通過代碼示例來展示它們的使用。 1、OpenPDF OpenPDF 是一個用于創(chuàng)建和編輯 PDF 文檔的 Java 庫,它基于 iText 庫的一個分支,提供

    2024年02月09日
    瀏覽(34)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包