国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【python】使用docx獲取word文檔的標題等級、大綱等級和編號等級

這篇具有很好參考價值的文章主要介紹了【python】使用docx獲取word文檔的標題等級、大綱等級和編號等級。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

標題等級、大綱等級、編號等級的區(qū)別

在Microsoft Word中:

  • 【標題X】是一個樣式,一般來說,【標題1】樣式的大綱級別是1級。
  • 大綱級別一般用于頁面導(dǎo)航和生成目錄??梢杂益I文字->段落里查看/設(shè)置大綱的級別。設(shè)置成【x級】后左側(cè)導(dǎo)航欄就會顯示。
  • 編號等級就是大家熟知的項目編號,常用于正文。

1、使用docx讀取word文檔

from docx import Document

source_path = "./test.docx"
docs = docx_Document(source_path)

基本沒有一個python庫能直接讀取doc文檔的,所以需要先把doc轉(zhuǎn)化為docx文件,參考:【python】linux系統(tǒng)下doc轉(zhuǎn)docx文件

2、使用docx獲取word文檔的標題 等級 樣式

import re

for paragraph in docs.paragraphs:
    if paragraph and paragraph.text:
        # 獲取xml源碼
        xml = paragraph._p.xml
        # 進行xml源碼字符匹配
        if xml.find('<w:outlineLvl') >= 0:
            start_index = xml.find('<w:outlineLvl')
            end_index = xml.find('>', start_index)
            outlineLvl_value = xml[start_index:end_index+1]
            outlineLvl_value = re.search("\d+", outlineLvl_value).group()
            print(f"文本:{paragraph.text}-->大綱等級:{outlineLvl_value}")

原理:
1、docx.Document()讀取文檔后會按照文章段落劃分成一段一段的。
2、然后我們再獲取每個段落的xml源碼,即:xml = paragraph._p.xml。
3、源碼中的<w:outlineLvl w:val=“2”/>就表示這是個3級大綱(因為是從0開始)。
4、接下來就好辦了,就用字符串匹配把這個值提取出來就行了。

3、使用docx獲取word文檔的編號等級

原理和代碼同上,只需要把outlineLvl改成ilvl即可。文章來源地址http://www.zghlxwxcb.cn/news/detail-775197.html

到了這里,關(guān)于【python】使用docx獲取word文檔的標題等級、大綱等級和編號等級的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • vue 使用docx庫生成word表格文檔

    ????????在Vue.js中生成Word表格文檔,可以通過前端庫來實現(xiàn)。這些庫可以幫助我們輕松地將HTML表格轉(zhuǎn)換為Word文檔(通常是.docx格式)。以下是一些流行的前端庫,它們可以用于在Vue項目中生成Word表格文檔: ???????? ????????docx是一個流行的JavaScript庫,用于在瀏覽

    2024年02月21日
    瀏覽(20)
  • 使用OpenXML庫替換docx文檔(Word文檔)中的特定字段

    使用OpenXML庫替換docx文檔(Word文檔)中的特定字段

    在批量生成Word文檔的應(yīng)用中,最常見的需求莫過于替換掉文檔中的特定字段以生成新的文檔。利用OpenXML庫可輕松實現(xiàn)這一需求。 首先放出最簡單然而有bug的版本: 該版本的原理是遍歷word文檔中的每個段落,搜索段落中的每個文字字段對象,如果找到匹配的值就將其替換成

    2024年02月11日
    瀏覽(23)
  • 使用VBA將大綱級別定義良好的單個Word文檔按指定的大綱樣式分割成多個文檔

    我們知道,大綱級別定義良好的 Word 文檔可以輕松用 Edraw master 轉(zhuǎn)換成思維導(dǎo)圖。但是,對于一個極長的文檔,例如一本教材,直接導(dǎo)入 Edraw master 轉(zhuǎn)換后的思維導(dǎo)圖,因為內(nèi)容過多,仍然很難閱讀。這時候,可以考慮分章節(jié)將長文檔分割成一個一個小文檔,再將小文檔導(dǎo)入

    2024年02月12日
    瀏覽(26)
  • Python 實現(xiàn) PDF 到 Word 文檔的高效轉(zhuǎn)換(DOC、DOCX)

    Python 實現(xiàn) PDF 到 Word 文檔的高效轉(zhuǎn)換(DOC、DOCX)

    PDF(Portable Document Format)已成為一種廣泛使用的電子文檔格式。PDF的主要優(yōu)勢是跨平臺,可以在不同設(shè)備上呈現(xiàn)一致的外觀。然而,當我們需要對文件內(nèi)容進行編輯或修改,直接編輯PDF文件會非常困難,而且效果也不理想。將PDF文件轉(zhuǎn)換為Word文檔(doc、docx)再進行編輯是一

    2024年02月03日
    瀏覽(30)
  • 【Python】導(dǎo)出docx格式Word文檔中的文本、圖片和附件等

    【Python】導(dǎo)出docx格式Word文檔中的文本、圖片和附件等

    為批量批改學(xué)生在機房提交的實驗報告,我需要對所有的實驗文檔內(nèi)容進行處理。需要批量提取Word文檔中的圖片和附件以便進一步檢查。如何提?。课蚁氲搅擞闷饋肀容^方便的Python,經(jīng)過試驗,方案可行,故此記錄。學(xué)生的作業(yè)主要是docx或者doc文檔,學(xué)生把項目打成壓縮包

    2024年02月07日
    瀏覽(23)
  • Node.js 使用 officecrypto-tool 讀取加密的 Excel (xls, xlsx) 和 Word( docx)文檔

    Node.js 使用 officecrypto-tool 讀取加密的 Excel (xls, xlsx) 和 Word( docx)文檔, 還支持 xlsx 和 docx 文件的加密(具體使用看文檔)。暫時不支持doc文件的解密 傳送門:officecrypto-tool 讀取加密的 Excel 示例 讀取加密的 Word 示例 使用:mammoth officecrypto-tool 使用其他的word讀取庫也是一樣的道理

    2024年02月10日
    瀏覽(37)
  • 借助文檔控件Aspose.Words,將 Word DOC/DOCX 轉(zhuǎn)換為 TXT

    借助文檔控件Aspose.Words,將 Word DOC/DOCX 轉(zhuǎn)換為 TXT

    在文檔處理領(lǐng)域,經(jīng)常需要將 Word 文檔轉(zhuǎn)換為更簡單的純文本格式。無論是出于數(shù)據(jù)提取、內(nèi)容分析還是兼容性原因,將 Word(.doc、.docx)文件轉(zhuǎn)換為純文本(.txt)的能力對于開發(fā)人員來說都是一項寶貴的技能。在這篇博文中,我們將探討如何在 C# 應(yīng)用程序中將 Word 文檔轉(zhuǎn)換

    2024年01月19日
    瀏覽(26)
  • Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔

    Python獲取豆丁文檔數(shù)據(jù)內(nèi)容, 保存word文檔

    前言 嗨嘍,大家好呀~這里是愛看美女的茜茜吶 開發(fā)環(huán)境: python 3.8 pycharm 模塊使用: requests -- pip install requests re base64 docx -- pip install python-docx 第三方模塊安裝方法: win + R 輸入cmd 輸入安裝命令 pip install 模塊名 (如果你覺得安裝速度比較慢, 你可以切換國內(nèi)鏡像源) 準備工作 在

    2024年02月13日
    瀏覽(23)
  • ppt技巧:如何將Word文檔大綱中導(dǎo)入到幻燈片中?

    ppt技巧:如何將Word文檔大綱中導(dǎo)入到幻燈片中?

    在PowerPoint中,將Word文檔的大綱導(dǎo)入到新的幻燈片是一種非常實用的技巧。以下是詳細的步驟: 首先,需要打開PowerPoint軟件并打開原始的幻燈片文件。 在PowerPoint的頂部【開始】菜單欄中,找到并點擊“新建幻燈片”按鈕,選擇下拉菜單。 在這個下拉菜單中,需要找到并點擊

    2024年04月15日
    瀏覽(23)
  • 20230507使用python3批量轉(zhuǎn)換DOCX文檔為TXT

    20230507使用python3批量轉(zhuǎn)換DOCX文檔為TXT

    20230507使用python3批量轉(zhuǎn)換DOCX文檔為TXT 2023/5/7 20:22 WIN10使用python3.11 # – coding: gbk – import os from pdf2docx import Converter from win32com import client as wc \\\"\\\"\\\"這里需要安轉(zhuǎn)包pywin32com\\\"\\\"\\\" # 讀取pdf文件文本內(nèi)容 def DocxToTxt(inputFinallyPath, outputFinallyPath): ? ? wordhandle = wc.Dispatch(\\\"Word.Application\\\") ? ?

    2024年02月13日
    瀏覽(19)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包