国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9種PDF內容提取方式

1年前作者：向日葵花籽兒分類：Toy博客閱讀(29)違法舉報

這篇具有很好參考價值的文章主要介紹了#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9種PDF內容提取方式。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

# 讀取markdown內容
from langchain_community.document_loaders import UnstructuredPDFLoader
from langchain import document_loaders

# 用到的所有方法
# load_pdf_file_langchain_unstructed # x按照行，無結構化
# load_pdf_file_pypdf # x按照頁碼，無結構化
# load_pdf_file_MathPix #  x需要填寫app_id、app_key（公司付費可申請api），可以轉成markdown，多級標題，字體大小相似不能識別
# load_pdf_file_unstructed # x按照行或者全文，無結構化
# load_pdf_file_PyPDFium2 # x按照頁碼，無結構化
# load_pdf_file_PDFMiner # x無結構化,甚至沒有分頁
# load_pdf_file_html # 需要改進算法
# load_pdf_file_PyPDFDirectory #  x無結構化，只是能從文件夾去讀取pdf文件，讀取結果還是按照頁碼
# load_pdf_file_AmazonTextractPDFLoader # x無結構話，官方文檔只提到提取文本，為提取到提取header或者提取結構


def load_pdf_file_langchain_unstructed(content_path):
    loader = loader = UnstructuredPDFLoader(content_path, mode="elements")
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_pypdf(content_path):
    from langchain_community.document_loaders import PyPDFLoader
    loader = PyPDFLoader(content_path)
    pages = loader.load_and_split()
    for page in pages:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return pages
    
def load_pdf_file_MathPix(content_path):
    from langchain_community.document_loaders import MathpixPDFLoader
    loader = MathpixPDFLoader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_unstructed(content_path):
    from langchain_community.document_loaders import UnstructuredPDFLoader
    loader = UnstructuredPDFLoader(content_path, mode="elements")
    loader2 = UnstructuredPDFLoader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_PyPDFium2(content_path):
    from langchain_community.document_loaders import PyPDFium2Loader
    loader = PyPDFium2Loader(content_path)
    data = loader.load()
    for page in data:
        print('-------------------')
        print('content')
        print(page.page_content)
        print('metadata')
        print(page.metadata)
    return data

def load_pdf_file_PDFMiner(content_path):
    from langchain_community.document_loaders import PDFMinerLoader
    loader = PDFMinerLoader(content_path)
    data = loader.load()
    for page in data:
        print(page.page_content)
        print(page.metadata)
    return data

def load_pdf_file_html(content_path):
    '''
    這個函數(shù)的邏輯可以分為以下幾個步驟：

使用 PDFMinerPDFasHTMLLoader 加載 PDF 文件并將其轉換為 HTML 格式。

使用 BeautifulSoup 解析 HTML 內容，并找到所有的 'div' 標簽。

遍歷所有的 'div' 標簽，并從每個標簽的 'style' 屬性中提取出字體大小（'font-size'）。

將具有相同字體大小的連續(xù)文本片段合并為一個片段，并將這些片段及其對應的字體大小存儲在 snippets 列表中。

遍歷 snippets 列表，根據(jù)每個片段的字體大小將其分類為標題或內容，并將其存儲在 semantic_snippets 列表中。具體的分類規(guī)則如下：

如果當前片段的字體大小大于前一個片段的標題字體大小，那么將當前片段視為新的標題。

如果當前片段的字體大小小于或等于前一個片段的內容字體大小，那么將當前片段視為前一個片段的內容。

如果當前片段的字體大小大于前一個片段的內容字體大小但小于前一個片段的標題字體大小，那么將當前片段視為新的標題。

返回 semantic_snippets 列表，其中每個元素都是一個 Document 對象，包含一個標題和其對應的內容。
    '''
    from langchain_community.document_loaders import PDFMinerPDFasHTMLLoader
    loader = PDFMinerPDFasHTMLLoader(content_path)
    data = loader.load()[0]   # entire PDF is loaded as a single Document
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(data.page_content,'html.parser')
    content = soup.find_all('div')
    import re
    cur_fs = None
    cur_text = ''
    snippets = []   # first collect all snippets that have the same font size
    for c in content:
        sp = c.find('span')
        if not sp:
            continue
        st = sp.get('style')
        if not st:
            continue
        fs = re.findall('font-size:(\d+)px',st)
        if not fs:
            continue
        fs = int(fs[0])
        if not cur_fs:
            cur_fs = fs
        if fs == cur_fs:
            cur_text += c.text
        else:
            snippets.append((cur_text,cur_fs))
            cur_fs = fs
            cur_text = c.text
    snippets.append((cur_text,cur_fs))
    # Note: The above logic is very straightforward. One can also add more strategies such as removing duplicate snippets (as
    # headers/footers in a PDF appear on multiple pages so if we find duplicates it's safe to assume that it is redundant info)
    from langchain.docstore.document import Document
    cur_idx = -1
    semantic_snippets = []
    # Assumption: headings have higher font size than their respective content
    for s in snippets:
        # if current snippet's font size > previous section's heading => it is a new heading
        if not semantic_snippets or s[1] > semantic_snippets[cur_idx].metadata['heading_font']:
            metadata={'heading':s[0], 'content_font': 0, 'heading_font': s[1]}
            metadata.update(data.metadata)
            semantic_snippets.append(Document(page_content='',metadata=metadata))
            cur_idx += 1
            continue

        # if current snippet's font size <= previous section's content => content belongs to the same section (one can also create
        # a tree like structure for sub sections if needed but that may require some more thinking and may be data specific)
        if not semantic_snippets[cur_idx].metadata['content_font'] or s[1] <= semantic_snippets[cur_idx].metadata['content_font']:
            semantic_snippets[cur_idx].page_content += s[0]
            semantic_snippets[cur_idx].metadata['content_font'] = max(s[1], semantic_snippets[cur_idx].metadata['content_font'])
            continue

        # if current snippet's font size > previous section's content but less than previous section's heading than also make a new
        # section (e.g. title of a PDF will have the highest font size but we don't want it to subsume all sections)
        metadata={'heading':s[0], 'content_font': 0, 'heading_font': s[1]}
        metadata.update(data.metadata)
        semantic_snippets.append(Document(page_content='',metadata=metadata))
        cur_idx += 1
    return semantic_snippets


def load_pdf_file_PyPDFDirectory(content_path):
    from langchain_community.document_loaders import PyPDFDirectoryLoader
    loader = PyPDFDirectoryLoader(content_path)
    docs = loader.load()
    for doc in docs:
        print('-------------------')
        print('content')
        print(doc.page_content)
        print('metadata')
        print(doc.metadata)
    return docs
def load_pdf_file_AmazonTextractPDFLoader(content_path):
    from langchain_community.document_loaders import AmazonTextractPDFLoader
    loader = AmazonTextractPDFLoader(content_path)
    documents = loader.load()
    for doc in documents:
        print('-------------------')
        print('content')
        print(doc.page_content)
        print('metadata')
        print(doc.metadata)
    return documents
content_path= r"/home/xinrui/project/xinren-rag-inti/tests/data/測試-導入文本策略.pdf"
Directory_path= r"/home/xinrui/project/xinren-rag-inti/tests/data/"
# load_pdf_file_AmazonTextractPDFLoader(content_path)

參考文件：
langchain_community.document_loaders.pdf.AmazonTextractPDFLoader

How to Extract Data From PDFs Using AWS Textract With Python
Amazon Textract
langchain-pdf文章來源地址http://www.zghlxwxcb.cn/news/detail-856788.html

到了這里，關于#langchain | RAG |富文本一致性解析 | NLP # langchain支持的9種PDF內容提取方式的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

緩存面試解析：穿透、擊穿、雪崩，一致性、分布式鎖、Redis過期，海量數(shù)據(jù)查找
在程序內部使用緩存，比如使用map等數(shù)據(jù)結構作為內部緩存，可以快速獲取對象。通過將經(jīng)常使用的數(shù)據(jù)存儲在緩存中，可以減少對數(shù)據(jù)庫的頻繁訪問，從而提高系統(tǒng)的響應速度和性能。緩存可以將數(shù)據(jù)保存在內存中，讀取速度更快，能夠大大縮短數(shù)據(jù)訪問的時間，提升用戶
2024年02月14日
瀏覽(37)
C++ 動態(tài)規(guī)劃經(jīng)典案例解析之最長公共子序列（LCS）_窺探遞歸和動態(tài)規(guī)劃的一致性
動態(tài)規(guī)劃處理字符相關案例中，求最長公共子序列以及求最短編輯距離，算是經(jīng)典中的經(jīng)典案例。講解此類問題的算法在網(wǎng)上一抓應用一大把，即便如此，還是忍不住有寫此文的想法。畢竟理解、看懂都不算是真正掌握，唯有瞧出其中玄機，能有自己獨有的見解和不一樣
2024年02月13日
瀏覽(28)
什么是一致性哈希？一致性哈希是如何工作的？如何設計一致性哈希？
如果你有 n 個緩存服務器，一個常見的負載均衡方式是使用以下的哈希方法：服務器索引 = 哈希(鍵) % N ，其中 N 是服務器池的大小。讓我們通過一個例子來說明這是如何工作的。如表5-1所示，我們有4臺服務器和8個字符串鍵及其哈希值。為了獲取存儲某個鍵的服務器，我們
2024年02月06日
瀏覽(36)
從kafka如何保證數(shù)據(jù)一致性看通常數(shù)據(jù)一致性設計
在數(shù)據(jù)庫系統(tǒng)中有個概念叫事務，事務的作用是為了保證數(shù)據(jù)的一致性，意思是要么數(shù)據(jù)成功，要么數(shù)據(jù)失敗，不存在數(shù)據(jù)操作了一半的情況，這就是數(shù)據(jù)的一致性。在很多系統(tǒng)或者組件中，很多場景都需要保證數(shù)據(jù)的一致性，有的是高度的一致性。特別是在交易系統(tǒng)等這樣
2024年02月19日
瀏覽(22)
分布式系統(tǒng)的一致性級別劃分及Zookeeper一致性級別分析
在談到Zookeeper的一致性是哪種級別的一致性問題，以及CAP原則中的C是哪一種一致性級別時有些疑惑。下面是大多數(shù)文章中提到的一致性級別一致性（Consistency）是指多副本（Replications）問題中的數(shù)據(jù)一致性?？梢苑譃閺娨恢滦浴㈨樞蛞恢滦耘c弱一致性。 1.1 強一致性（Stric
2024年04月12日
瀏覽(29)
深入理解高并發(fā)下的MySQL與Redis緩存一致性問題（增刪改查數(shù)據(jù)緩存的一致性、Canal、分布式系統(tǒng)CAP定理、BASE理論、強、弱一致性、順序、線性、因果、最終一致性）
一些小型項目，或極少有并發(fā)的項目，這些策略在無并發(fā)情況下，不會有什么問題。讀數(shù)據(jù)策略：有緩存則讀緩存，然后接口返回。沒有緩存，查詢出數(shù)據(jù)，載入緩存，然后接口返回。寫數(shù)據(jù)策略：數(shù)據(jù)發(fā)生了變動，先刪除緩存，再更新數(shù)據(jù)，等下次讀取的時候載入緩存，
2024年03月20日
瀏覽(30)
Redis 原理緩存過期、一致性hash、雪崩、穿透、并發(fā)、布隆、緩存更新策略、緩存數(shù)據(jù)庫一致性
redis的過期策略可以通過配置文件進行配置 redis會把設置了過期時間的key放在單獨的字典中，定時遍歷來刪除到期的key。 1）.每100ms從過期字典中隨機挑選20個，把其中過期的key刪除； 2）.如果過期的key占比超過1/4，重復步驟1 為了保證不會循環(huán)過度，導致卡頓，掃描時間上限
2024年02月08日
瀏覽(31)
【Redis】緩存一致性
讀緩存雙檢加鎖策略采用雙檢加鎖策略多個線程同時去查詢數(shù)據(jù)庫的這條數(shù)據(jù)，那么我們可以在第一個查詢數(shù)據(jù)的請求上使用一個互斥鎖來鎖住它。其他的線程走到這一步拿不到鎖就等著，等第一個線程查詢到了數(shù)據(jù)，然后做緩存。后面的線程進來發(fā)現(xiàn)已經(jīng)有緩存了，
2023年04月24日
瀏覽(23)
談談一致性哈希算法
一致性哈希算法是1997年由麻省理工的幾位學者提出的用于解決分布式緩存中的熱點問題。大家有沒有發(fā)現(xiàn)，我們之前介紹的例如快排之類的算法是更早的六七十年代，此時分布式還沒有發(fā)展起來，大家往往還在提高單機性能。但是九十年代開始，逐漸需要用分布式集群來解
2024年02月07日
瀏覽(31)
一致性協(xié)議淺析
Paxos 發(fā)明者是大名鼎鼎的 Lesile Lamport。Lamport 虛擬了一個叫做 Paxos 的希臘城邦，城邦按照議會民主制的政治模式制定法律。在 Lesile Lamport 的論文中，提出了 Basic Paxos、Multi Paxos、Fast Paxos 三種模型。 Client ：系統(tǒng)外部角色，請求發(fā)起者，類比于民眾。 Proposer ：接收 Client 請求，
2024年01月18日
瀏覽(25)