国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<video id="a9cnn"></video>

<td id="a9cnn"><progress id="a9cnn"></progress></td>

python讀取word/pdf文檔，指定文字內(nèi)容和圖片

2年前作者：處女座_三月分類：Toy博客閱讀(39)違法舉報

這篇具有很好參考價值的文章主要介紹了python讀取word/pdf文檔，指定文字內(nèi)容和圖片。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

任務(wù)要求：

將每頁需要的內(nèi)容讀取出來放到不同的文件夾，找出含有指定內(nèi)容的頁面創(chuàng)建文件夾，然后把相關(guān)的內(nèi)容和圖片放進去。

一先將word轉(zhuǎn)為PDF

pdf 讀起來比較方便，按頁碼讀取文件:文章來源地址http://www.zghlxwxcb.cn/news/detail-653455.html

import pdfplumber
from PIL import Image
import cv2
import numpy as np
import re
import os
import logging
import io


def create_folder(folder_name):
    if not os.path.exists(folder_name):
        os.makedirs(folder_name)


def CountPages(file_path):
    """
    根據(jù)編號創(chuàng)建文件夾
    :param file_path:
    :return:
    """
    with pdfplumber.open(file_path) as pdf:
        count = 0
        for page in pdf.pages:
            count += 1
            print(f"----------- 第{count}頁 ----------- \n\n")

            text = page.extract_text()
            matches = re.findall(r'編號\s*(\S+)', text)

            if matches:
                for match in matches:
                    if '*' in match:
                        logging.warning(f'編號名稱存在不能使用的字符，需要單獨調(diào)整，Page {count}, 編號后面的內(nèi)容: {match}')
                        folder_name = 'new_files/' + f'000 error Page_{count}'
                        # continue
                    else:
                        # folder_name = './new_files/' + match
                        folder_name = './new_files/' + f'{count}_' + match
                    create_folder(folder_name)

            images = page.images
            print(f'images: {images}')
            for i, img in enumerate(images):
                # x0, y0, x1, y1 = img["x0"], img["y0"], img["x1"], img["y1"]
                img_stream = img["stream"]

                # 從流中提取圖像數(shù)據(jù)
                img_data = img_stream.get_data()

                # 使用數(shù)據(jù)創(chuàng)建新圖像
                pil_img = Image.open(io.BytesIO(img_data))

                # 將圖像保存為 JPG
                img_filename = f"{folder_name}/image_{count}_{i + 1}.jpg"
                pil_img.save(img_filename, format="JPEG")
                print(f"保存圖像：{img_filename}")

        return count


"""
    1 需要先將文檔轉(zhuǎn)換為 pdf
    2 文件夾名稱不要頁碼改 39 行
    3 編號最好不要出現(xiàn) * 這種不能作為文件名的符號
    4 filePath 改文件路徑
    5 保存文件在同級文件目錄下
"""

# filePath = r"E:\11-normal_program\registration_card.pdf"
filePath = r"./registration_card.pdf"
CountPages(filePath)

到了這里，關(guān)于python讀取word/pdf文檔，指定文字內(nèi)容和圖片的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

Python-pdfplumber讀取PDF所有內(nèi)容并自行提取指定內(nèi)容
?? 歡迎來到Python辦公自動化專欄—Python處理辦公問題，解放您的雙手 ?????? 博客主頁：一晌小貪歡的博客主頁 ?? 該系列文章專欄：Python辦公自動化專欄文章作者技術(shù)和水平有限，如果文中出現(xiàn)錯誤，希望大家能指正?? ?? 歡迎各位佬關(guān)注！ ?? 最近接到一個需求
2024年02月15日
瀏覽(32)
python實現(xiàn)圖片式PDF轉(zhuǎn)可搜索word文檔[OCR](已打包exe文件)
目錄 ?1、介紹 1.1、痛點 1.2、程序介紹 2、安裝方式 2.1、??必要環(huán)節(jié) 2.2、腳本安裝 2.2.1、不太推薦的方式 2.2.2、節(jié)約內(nèi)存的方式 2.3、?完整版安裝 3、使用 3.1、最終文件目錄 3.2、主程序 3.2.1、絕對路徑 3.2.2、是否為書籍 3.2.3、?截取區(qū)域 3.2.4、?進程數(shù) 3.3、運行完成 3.4、
2024年01月19日
瀏覽(31)
java讀取圖片、PDF中圖片上的文字
提示：本文是基于tess4j 總是有一些與眾不同的需求在等著研發(fā)人員去探索，本文介紹如何通過java讀取圖片上的文字。說tess4j之前，先說說Tesseract，因為tess4j是基于它的封裝。 Tesseract的OCR引擎最先由HP實驗室于1985年開始研發(fā),至1995年時已經(jīng)成為OCR業(yè)內(nèi)最準確的三款識別引擎之
2024年02月09日
瀏覽(18)
ios 實現(xiàn)PDF,Word,Excel等文檔類型的讀取與預(yù)覽
最近正在研發(fā)的項目有一個需求：允許用戶將iCloud中的文檔上傳，實現(xiàn)文件的流轉(zhuǎn)。以前接觸的項目對于資料類的上傳大多是僅限于圖片與視頻。對于文檔類(PDF, Word, Excel, Text等)，因蘋果的沙箱環(huán)境限制，想要讀取文件是無法實現(xiàn)的。目前雖然可以支持選擇文件，但只能通
2024年02月06日
瀏覽(89)
SpringBoot 項目使用 Elasticsearch 對 Word、Pdf 等文檔內(nèi)容的檢索
本文參考自：https://blog.csdn.net/Q54665642ljf/article/details/127701719 本文適用于 elasticsearch 入門小白，還請大佬能指出我的不足（本人其實也是剛學(xué) elasticsearch 沒多久）（1）為什么要有文本抽取插件？對于 word 、 pdf 等文檔類型的文件而言，它們文件底層的內(nèi)容除了純文本之外，還
2024年02月16日
瀏覽(30)
Word導(dǎo)出創(chuàng)建Adobe PDF其中emf圖片公式馬賽克化及文字缺失
Word 2021 Visio 2019 Adobe Acrobat Pro 2020 公式馬賽克化，是指在Word中使用MathType編輯的公式，然后在Visio中使用圖片(增強型圖元文件) 形式得到的粘貼對象，效果如下文字缺失，是指Word 導(dǎo)出 → 創(chuàng)建Adobe PDF → 創(chuàng)建Adobe PDF 獲得的PDF文件中，原來的emf矢量圖部分文字缺失，效果如下
2024年02月11日
瀏覽(285)
Java word文檔轉(zhuǎn)圖片 || word轉(zhuǎn)pdf兩行代碼搞定
目錄一、首先引入我們需要的依賴。二、準備一個word文檔模板，使用{{}}定義我們需要填充的數(shù)據(jù)。三、word文檔動態(tài)數(shù)據(jù)填充轉(zhuǎn)換圖片demo示例四、poi-tl（poi template language）Word模板引擎五、把demo示例簡化封裝成Controller接口層六、word文檔生成動態(tài)數(shù)據(jù)轉(zhuǎn)換成pdf 一、首先引
2024年02月06日
瀏覽(30)
PDF或圖片文檔內(nèi)容識別、關(guān)系抽取
? ? ? ? 自動識別法院和公積金中心的文書（調(diào)解書、判決書、裁定書、通知書）掃描件（PDF或圖片），獲取特定結(jié)構(gòu)的數(shù)據(jù)，自動對比。抽取結(jié)構(gòu)如：執(zhí)行搭建label studio標記，標記完成后導(dǎo)出JSON。 Label Studio JSON轉(zhuǎn)Doccano JSON 構(gòu)造數(shù)據(jù)集工具，命名為utils.py ? 訓(xùn)練 ?模型部
2024年02月08日
瀏覽(36)
java中pdfbox處理pdf常用方法(讀取、寫入、合并、拆分、寫文字、寫圖片)
方法代碼：測試用例： 2.1寫文字方法代碼：測試用例： A.pdf: A2.pdf: 2.2寫圖片方法代碼：測試用例： A.pdf: pic.jpg: A2.pdf: 方法代碼：測試用例：方法代碼：測試用例：引用鏈接： (17條消息) 使用Apache PDFBox實現(xiàn)拆分、合并PDF_似有風(fēng)中泣的博客-CSDN博客 (17條消息) Java使用P
2024年02月11日
瀏覽(31)
【批量區(qū)域識別內(nèi)容重命名】批量識別圖片區(qū)域文字并重命名，批量圖片部分識別內(nèi)容重命文件，PDF區(qū)域識別提取重命名
我們在工作和生活中經(jīng)常遇到這樣的需求：比如將以下的圖片區(qū)域識別進行重命名，批量識別后改成以時間和工作內(nèi)容重命名，便于日后檢索，快速查詢首先我們拍攝照片用到的是水印相機，這里的文字呢我們需要加個背景，這樣在文字識別就很容易的被識別，準確率也非常
2024年04月25日
瀏覽(28)