国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

python讀取word/pdf文檔,指定文字內(nèi)容和圖片

這篇具有很好參考價值的文章主要介紹了python讀取word/pdf文檔,指定文字內(nèi)容和圖片。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

任務(wù)要求:

將每頁需要的內(nèi)容讀取出來放到不同的文件夾,找出含有指定內(nèi)容的頁面創(chuàng)建文件夾,然后把相關(guān)的內(nèi)容和圖片放進去。


一 先將word轉(zhuǎn)為PDF

pdf 讀起來比較方便, 按頁碼讀取文件:文章來源地址http://www.zghlxwxcb.cn/news/detail-653455.html

import pdfplumber
from PIL import Image
import cv2
import numpy as np
import re
import os
import logging
import io


def create_folder(folder_name):
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)


def CountPages(file_path):
    """
    根據(jù)編號創(chuàng)建文件夾
    :param file_path:
    :return:
    """
    with pdfplumber.open(file_path) as pdf:
        count = 0
        for page in pdf.pages:
            count += 1
            print(f"----------- 第{count}頁 ----------- \n\n")

            text = page.extract_text()
            matches = re.findall(r'編號\s*(\S+)', text)

            if matches:
                for match in matches:
                    if '*' in match:
                        logging.warning(f'編號名稱存在不能使用的字符,需要單獨調(diào)整,Page {count}, 編號后面的內(nèi)容: {match}')
                        folder_name = 'new_files/' + f'000 error Page_{count}'
                        # continue
                    else:
                        # folder_name = './new_files/' + match
                        folder_name = './new_files/' + f'{count}_' + match
                    create_folder(folder_name)

            images = page.images
            print(f'images: {images}')
            for i, img in enumerate(images):
                # x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]
                img_stream = img["stream"]

                # 從流中提取圖像數(shù)據(jù)
                img_data = img_stream.get_data()

                # 使用數(shù)據(jù)創(chuàng)建新圖像
                pil_img = Image.open(io.BytesIO(img_data))

                # 將圖像保存為 JPG
                img_filename = f"{folder_name}/image_{count}_{i + 1}.jpg"
                pil_img.save(img_filename, format="JPEG")
                print(f"保存圖像:{img_filename}")

        return count


"""
    1 需要先將文檔轉(zhuǎn)換為 pdf
    2 文件夾名稱不要頁碼改 39 行
    3 編號最好不要出現(xiàn) * 這種不能作為文件名的符號
    4 filePath 改文件路徑
    5 保存文件在同級文件目錄下
"""

# filePath = r"E:\11-normal_program\registration_card.pdf"
filePath = r"./registration_card.pdf"
CountPages(filePath)

到了這里,關(guān)于python讀取word/pdf文檔,指定文字內(nèi)容和圖片的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Python-pdfplumber讀取PDF所有內(nèi)容并自行提取指定內(nèi)容

    ?? 歡迎來到Python辦公自動化專欄—Python處理辦公問題,解放您的雙手 ?????? 博客主頁:一晌小貪歡的博客主頁 ?? 該系列文章專欄:Python辦公自動化專欄 文章作者技術(shù)和水平有限,如果文中出現(xiàn)錯誤,希望大家能指正?? ?? 歡迎各位佬關(guān)注! ?? 最近接到一個需求

    2024年02月15日
    瀏覽(32)
  • python實現(xiàn)圖片式PDF轉(zhuǎn)可搜索word文檔[OCR](已打包exe文件)

    python實現(xiàn)圖片式PDF轉(zhuǎn)可搜索word文檔[OCR](已打包exe文件)

    目錄 ?1、介紹 1.1、痛點 1.2、程序介紹 2、安裝方式 2.1、??必要環(huán)節(jié) 2.2、腳本安裝 2.2.1、不太推薦的方式 2.2.2、節(jié)約內(nèi)存的方式 2.3、?完整版安裝 3、使用 3.1、最終文件目錄 3.2、主程序 3.2.1、絕對路徑 3.2.2、是否為書籍 3.2.3、?截取區(qū)域 3.2.4、?進程數(shù) 3.3、運行完成 3.4、

    2024年01月19日
    瀏覽(31)
  • java讀取圖片、PDF中圖片上的文字

    java讀取圖片、PDF中圖片上的文字

    提示:本文是基于tess4j 總是有一些與眾不同的需求在等著研發(fā)人員去探索,本文介紹如何通過java讀取圖片上的文字。 說tess4j之前,先說說Tesseract,因為tess4j是基于它的封裝。 Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經(jīng)成為OCR業(yè)內(nèi)最準確的三款識別引擎之

    2024年02月09日
    瀏覽(18)
  • ios 實現(xiàn)PDF,Word,Excel等文檔類型的讀取與預(yù)覽

    最近正在研發(fā)的項目有一個需求: 允許用戶將iCloud中的文檔上傳,實現(xiàn)文件的流轉(zhuǎn)。 以前接觸的項目對于資料類的上傳大多是僅限于圖片與視頻。對于文檔類(PDF, Word, Excel, Text等), 因蘋果的沙箱環(huán)境限制,想要讀取文件是無法實現(xiàn)的。目前雖然可以支持選擇文件,但只能通

    2024年02月06日
    瀏覽(89)
  • SpringBoot 項目使用 Elasticsearch 對 Word、Pdf 等文檔內(nèi)容的檢索

    SpringBoot 項目使用 Elasticsearch 對 Word、Pdf 等文檔內(nèi)容的檢索

    本文參考自:https://blog.csdn.net/Q54665642ljf/article/details/127701719 本文適用于 elasticsearch 入門小白,還請大佬能指出我的不足(本人其實也是剛學(xué) elasticsearch 沒多久) (1)為什么要有文本抽取插件? 對于 word 、 pdf 等文檔類型的文件而言,它們文件底層的內(nèi)容除了純文本之外,還

    2024年02月16日
    瀏覽(30)
  • Word導(dǎo)出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失

    Word導(dǎo)出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失

    Word 2021 Visio 2019 Adobe Acrobat Pro 2020 公式馬賽克化,是指在Word中使用MathType編輯的公式,然后在Visio中使用 圖片(增強型圖元文件) 形式得到的粘貼對象,效果如下 文字缺失,是指Word 導(dǎo)出 → 創(chuàng)建Adobe PDF → 創(chuàng)建Adobe PDF 獲得的PDF文件中,原來的emf矢量圖部分文字缺失,效果如下

    2024年02月11日
    瀏覽(285)
  • Java word文檔轉(zhuǎn)圖片 || word轉(zhuǎn)pdf兩行代碼搞定

    Java word文檔轉(zhuǎn)圖片 || word轉(zhuǎn)pdf兩行代碼搞定

    目錄 一、首先引入我們需要的依賴。 二、準備一個word文檔模板,使用{{}}定義我們需要填充的數(shù)據(jù)。 三、word文檔動態(tài)數(shù)據(jù)填充轉(zhuǎn)換圖片demo示例 四、poi-tl(poi template language)Word模板引擎 五、把demo示例簡化封裝成Controller接口層 六、word文檔生成動態(tài)數(shù)據(jù)轉(zhuǎn)換成pdf 一、首先引

    2024年02月06日
    瀏覽(30)
  • PDF或圖片文檔內(nèi)容識別、關(guān)系抽取

    PDF或圖片文檔內(nèi)容識別、關(guān)系抽取

    ? ? ? ? 自動識別法院和公積金中心的文書(調(diào)解書、判決書、裁定書、通知書)掃描件(PDF或圖片),獲取特定結(jié)構(gòu)的數(shù)據(jù),自動對比。抽取結(jié)構(gòu)如: 執(zhí)行 搭建label studio標記,標記完成后導(dǎo)出JSON。 Label Studio JSON轉(zhuǎn)Doccano JSON 構(gòu)造數(shù)據(jù)集 工具,命名為utils.py ? 訓(xùn)練 ?模型部

    2024年02月08日
    瀏覽(36)
  • java中pdfbox處理pdf常用方法(讀取、寫入、合并、拆分、寫文字、寫圖片)

    java中pdfbox處理pdf常用方法(讀取、寫入、合并、拆分、寫文字、寫圖片)

    方法代碼: 測試用例: 2.1寫文字 方法代碼: 測試用例: A.pdf: A2.pdf: 2.2寫圖片 方法代碼: 測試用例: A.pdf: pic.jpg: A2.pdf: 方法代碼: 測試用例: 方法代碼: 測試用例: 引用鏈接: (17條消息) 使用Apache PDFBox實現(xiàn)拆分、合并PDF_似有風(fēng)中泣的博客-CSDN博客 (17條消息) Java使用P

    2024年02月11日
    瀏覽(31)
  • 【批量區(qū)域識別內(nèi)容重命名】批量識別圖片區(qū)域文字并重命名,批量圖片部分識別內(nèi)容重命文件,PDF區(qū)域識別提取重命名

    【批量區(qū)域識別內(nèi)容重命名】批量識別圖片區(qū)域文字并重命名,批量圖片部分識別內(nèi)容重命文件,PDF區(qū)域識別提取重命名

    我們在工作和生活中經(jīng)常遇到這樣的需求:比如將以下的圖片區(qū)域識別進行重命名,批量識別后改成以時間和工作內(nèi)容重命名,便于日后檢索,快速查詢 首先我們拍攝照片用到的是水印相機,這里的文字呢我們需要加個背景,這樣在文字識別就很容易的被識別,準確率也非常

    2024年04月25日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包