国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AIGC：【LLM（四）】——LangChain+ChatGLM:本地知識(shí)庫問答方案

2年前作者：J_Xiong0117分類：Toy博客閱讀(89)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了AIGC：【LLM（四）】——LangChain+ChatGLM:本地知識(shí)庫問答方案。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

LangChain+ChatGLM項(xiàng)目(https://github.com/chatchat-space/langchain-ChatGLM)實(shí)現(xiàn)原理如下圖所示 (與基于文檔的問答大同小異，過程包括：1 加載文檔 -> 2 讀取文檔 -> 3/4文檔分割 -> 5/6 文本向量化 -> 8/9 問句向量化 -> 10 在文檔向量中匹配出與問句向量最相似的top k個(gè) -> 11/12/13 匹配出的文本作為上下文和問題一起添加到prompt中 -> 14/15提交給LLM生成回答 )
AIGC：【LLM（四）】——LangChain+ChatGLM:本地知識(shí)庫問答方案,LLMs,應(yīng)用框架,自然語言處理,AIGC,langchain

一.文件加載與分割

加載文件：這是讀取存儲(chǔ)在本地的知識(shí)庫文件的步驟
讀取文件：讀取加載的文件內(nèi)容，通常是將其轉(zhuǎn)化為文本格式
文本分割(Text splitter)：按照一定的規(guī)則(例如段落、句子、詞語等)將文本分割

def _load_file(self, filename):
        # 判斷文件類型
        if filename.lower().endswith(".pdf"):  # 如果文件是 PDF 格式
            loader = UnstructuredFileLoader(filename)   # 使用 UnstructuredFileLoader 加載器來加載 PDF 文件
            text_splitor = CharacterTextSplitter()      # 使用 CharacterTextSplitter 來分割文件中的文本
            docs = loader.load_and_split(text_splitor)  # 加載文件并進(jìn)行文本分割
        else:          # 如果文件不是 PDF 格式
            loader = UnstructuredFileLoader(filename, mode="elements")  # 使用 UnstructuredFileLoader 加載器以元素模式加載文件
            text_splitor = CharacterTextSplitter()      # 使用 CharacterTextSplitter 來分割文件中的文本
            docs = loader.load_and_split(text_splitor)  # 加載文件并進(jìn)行文本分割
        return docs    # 返回處理后的文件數(shù)據(jù)

二.文本向量化與存儲(chǔ)

1.文本向量化(embedding)

這通常涉及到NLP的特征抽取，可以通過諸如TF-IDF、word2vec、BERT等方法將分割好的文本轉(zhuǎn)化為數(shù)值向量。

# 初始化方法，接受一個(gè)可選的模型名稱參數(shù)，默認(rèn)值為 None
    def __init__(self, model_name=None) -> None:  
        if not model_name:  # 如果沒有提供模型名稱
            # 使用默認(rèn)的嵌入模型
            # 創(chuàng)建一個(gè) HuggingFaceEmbeddings 對(duì)象，模型名稱為類的 model_name 屬性
            self.embeddings = HuggingFaceEmbeddings(model_name=self.model_name)

2.存儲(chǔ)到向量數(shù)據(jù)庫

文本向量化之后存儲(chǔ)到數(shù)據(jù)庫vectorstore。

def init_vector_store(self):
    persist_dir = os.path.join(VECTORE_PATH, ".vectordb")  # 持久化向量數(shù)據(jù)庫的地址
    print("向量數(shù)據(jù)庫持久化地址: ", persist_dir)              # 打印持久化地址


    # 如果持久化地址存在
    if os.path.exists(persist_dir):  
        # 從本地持久化文件中加載
        print("從本地向量加載數(shù)據(jù)...")
        # 使用 Chroma 加載持久化的向量數(shù)據(jù)
        vector_store = Chroma(persist_directory=persist_dir, embedding_function=self.embeddings)  


    # 如果持久化地址不存在
    else:      
        # 加載知識(shí)庫
        documents = self.load_knownlege()  
        # 使用 Chroma 從文檔中創(chuàng)建向量存儲(chǔ)
        vector_store = Chroma.from_documents(documents=documents, 
                                             embedding=self.embeddings,
                                             persist_directory=persist_dir)  
        vector_store.persist()      # 持久化向量存儲(chǔ)
    return vector_store             # 返回向量存儲(chǔ)

def load_knownlege(self):
    docments = []         # 初始化一個(gè)空列表來存儲(chǔ)文檔


    # 遍歷 DATASETS_DIR 目錄下的所有文件
    for root, _, files in os.walk(DATASETS_DIR, topdown=False):
        for file in files:
            filename = os.path.join(root, file)      # 獲取文件的完整路徑
            docs = self._load_file(filename)         # 加載文件中的文檔


            # 更新 metadata 數(shù)據(jù)
            new_docs = []             # 初始化一個(gè)空列表來存儲(chǔ)新文檔
            for doc in docs:
                # 更新文檔的 metadata，將 "source" 字段的值替換為不包含 DATASETS_DIR 的相對(duì)路徑
                doc.metadata = {"source": doc.metadata["source"].replace(DATASETS_DIR, "")} 
                print("文檔2向量初始化中, 請(qǐng)稍等...", doc.metadata)  # 打印正在初始化的文檔的 metadata
                new_docs.append(doc)  # 將文檔添加到新文檔列表


            docments += new_docs      # 將新文檔列表添加到總文檔列表


    return docments      # 返回所有文檔的列表

三.問句向量化

這是將用戶的查詢或問題轉(zhuǎn)化為向量，應(yīng)使用與文本向量化相同的方法，以便在相同的空間中進(jìn)行比較。

四.相似文檔檢索

在文本向量中匹配出與問句向量最相似的top k個(gè)，這一步是信息檢索的核心，通過計(jì)算余弦相似度、歐氏距離等方式，找出與問句向量最接近的文本向量。

def query(self, q):
        """在向量數(shù)據(jù)庫中查找與問句向量相似的文本向量"""
        vector_store = self.init_vector_store()
        docs = vector_store.similarity_search_with_score(q, k=self.top_k)
        for doc in docs:
            dc, s = doc
            yield s, dc

五.prompt構(gòu)建

匹配出的文本作為上下文和問題一起添加到prompt中，這是利用匹配出的文本來形成與問題相關(guān)的上下文，用于輸入給語言模型。

六.答案生成

最后，將這個(gè)問題和上下文一起構(gòu)成的prompt提交給在線(例如GPT-4/ChatGPT)或本地化部署大語言模型，讓它生成回答。

class KnownLedgeBaseQA:
    # 初始化
    def __init__(self) -> None:
        k2v = KnownLedge2Vector()      # 創(chuàng)建一個(gè)知識(shí)到向量的轉(zhuǎn)換器
        self.vector_store = k2v.init_vector_store()     # 初始化向量存儲(chǔ)
        self.llm = VicunaLLM()         # 創(chuàng)建一個(gè) VicunaLLM 對(duì)象

    # 獲得與查詢相似的答案
    def get_similar_answer(self, query):
        # 創(chuàng)建一個(gè)提示模板
        prompt = PromptTemplate(
            template=conv_qa_prompt_template, 
            input_variables=["context", "question"]  # 輸入變量包括 "context"（上下文） 和 "question"（問題）
        )


        # 使用向量存儲(chǔ)來檢索文檔
        retriever = self.vector_store.as_retriever(search_kwargs={"k": VECTOR_SEARCH_TOP_K}) 
        docs = retriever.get_relevant_documents(query=query)  # 獲取與查詢相關(guān)的文本


        context = [d.page_content for d in docs]     # 從文本中提取出內(nèi)容
        result = prompt.format(context="\n".join(context), question=query) # 格式化模板，并用從文本中提取出的內(nèi)容和問題填充
        return result                 # 返回結(jié)果

這種通過組合langchain+LLM的方式，特別適合一些垂直領(lǐng)域或大型集團(tuán)企業(yè)搭建通過LLM的智能對(duì)話能力搭建企業(yè)內(nèi)部的私有問答系統(tǒng)，也適合個(gè)人專門針對(duì)一些英文paper進(jìn)行問答，比如比較火的一個(gè)開源項(xiàng)目：ChatPDF，其從文檔處理角度來看，實(shí)現(xiàn)流程如下(圖源)：
AIGC：【LLM（四）】——LangChain+ChatGLM:本地知識(shí)庫問答方案,LLMs,應(yīng)用框架,自然語言處理,AIGC,langchain 文章來源地址http://www.zghlxwxcb.cn/news/detail-638657.html

到了這里，關(guān)于AIGC：【LLM（四）】——LangChain+ChatGLM:本地知識(shí)庫問答方案的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

從LangChain+LLM的本地知識(shí)庫問答到LLM與知識(shí)圖譜、數(shù)據(jù)庫的結(jié)合
過去半年，隨著ChatGPT的火爆，直接帶火了整個(gè)LLM這個(gè)方向，然LLM畢竟更多是基于過去的經(jīng)驗(yàn)數(shù)據(jù)預(yù)訓(xùn)練而來，沒法獲取最新的知識(shí)，以及各企業(yè)私有的知識(shí) 為了獲取最新的知識(shí)，ChatGPT plus版集成了bing搜索的功能，有的模型則會(huì)調(diào)用一個(gè)定位于 “鏈接各種AI模型、工具”的
2024年02月12日
瀏覽(53)
LLM本地知識(shí)庫問答系統(tǒng)（一）：使用LangChain和LlamaIndex從零構(gòu)建PDF聊天機(jī)器人指南
? ? ? ?隨著大型語言模型（LLM）（如ChatGPT和GPT-4）的興起，現(xiàn)在比以往任何時(shí)候都更容易構(gòu)建比普通熊更智能的智能聊天機(jī)器人，并且可以瀏覽堆積如山的文檔，為您的輸入提供準(zhǔn)確的響應(yīng)。 ? ? ? ?在本系列中，我們將探索如何使用pre-trained的LLM創(chuàng)建一個(gè)聊天機(jī)器人，該聊
2024年02月11日
瀏覽(99)
LLMs之RAG：LangChain-ChatGLM-Webui(一款基于本地知識(shí)庫(各種文本文檔)的自動(dòng)問答的GUI界面實(shí)現(xiàn))的簡介、安裝、使用方法之詳細(xì)攻略
LLMs之RAG：LangChain-ChatGLM-Webui(一款基于本地知識(shí)庫(各種文本文檔)的自動(dòng)問答的GUI界面實(shí)現(xiàn))的簡介、安裝、使用方法之詳細(xì)攻略目錄 LangChain-ChatGLM-Webui的簡介 1、支持的模型 LangChain-ChatGLM-Webui的安裝 1、安裝 T1、直接安裝? 環(huán)境準(zhǔn)備啟動(dòng)程序 T2、Docker安裝 (1)、Docker 基礎(chǔ)環(huán)境運(yùn)
2024年02月04日
瀏覽(16)
使用LangChain與ChatGLM實(shí)現(xiàn)本地知識(shí)庫（一）
??本篇主要內(nèi)容為介紹ChatGLM3的安裝使用，后續(xù)才會(huì)涉及到使用LangChain實(shí)現(xiàn)本地知識(shí)庫的內(nèi)容； ??ChatGLM為智譜與清華大學(xué)開源的一個(gè)大語言模型，支持多輪對(duì)話、內(nèi)容創(chuàng)作等，ChatGLM3-6B為ChatGLM3系列中門檻相對(duì)較低的一個(gè)，本地部署提供兼容OpenAI的API； ??LangChain用于快
2024年02月05日
瀏覽(27)
使用Langchain與ChatGLM實(shí)現(xiàn)本地知識(shí)庫（二）
??大語言模型也只是將用戶提供的大規(guī)模數(shù)據(jù)集訓(xùn)練而來，也并非萬能的什么都知道，特別是一些小眾知識(shí)、內(nèi)部數(shù)據(jù)或私密的個(gè)人數(shù)據(jù)等，此時(shí)ChatGLM3肯定會(huì)胡亂回答就是ChatGPT4也不一定能給出滿意回答；不少公司、個(gè)人都有自己的知識(shí)庫或日志等此時(shí)如有可將這些數(shù)據(jù)以
2024年02月05日
瀏覽(31)
LangChain入門(四)-構(gòu)建本地知識(shí)庫問答機(jī)器人
在這個(gè)例子中，我們會(huì)介紹如何從我們本地讀取多個(gè)文檔構(gòu)建知識(shí)庫，并且使用 Openai API 在知識(shí)庫中進(jìn)行搜索并給出答案。目錄一、安裝向量數(shù)據(jù)庫chromadb和tiktoken 二、使用案例三、embeddings持久化四、在線的向量數(shù)據(jù)庫Pinecone 一、安裝向量數(shù)據(jù)庫chromadb和tiktoken ?? 其中h
2024年02月05日
瀏覽(102)
LLMs之RAG：LangChain-Chatchat(一款中文友好的全流程本地知識(shí)庫問答應(yīng)用)的簡介(支持 FastChat 接入的ChatGLM-2/LLaMA-2等多款主流LLMs+多款embe
LLMs之RAG：LangChain-Chatchat(一款中文友好的全流程本地知識(shí)庫問答應(yīng)用)的簡介(支持?FastChat 接入的ChatGLM-2/LLaMA-2等多款主流LLMs+多款embedding模型m3e等+多種TextSplitter分詞器)、安裝(鏡像部署【AutoDL云平臺(tái)/Docker鏡像】，離線私有部署+支持RTX3090 ，支持FAISS/Milvus/PGVector向量庫，基于
2024年02月08日
瀏覽(25)
LLM本地知識(shí)庫問答系統(tǒng)（二）：如何正確使用LlamaIndex索引
LLM本地知識(shí)庫問答系統(tǒng)（一）：使用LangChain和LlamaIndex從零構(gòu)建PDF聊天機(jī)器人指南 ? ? ? ?上一篇文章我們介紹了使用LlamaIndex構(gòu)建PDF聊天機(jī)器人，本文將介紹一下LlamaIndex的基本概念和原理。 ? ? ? ?LlamaIndex（也稱為GPT Index）是一個(gè)用戶友好的界面，可將外部數(shù)據(jù)連接到大型語
2024年02月10日
瀏覽(23)
Knowledge-QA-LLM: 基于本地知識(shí)庫+LLM的開源問答系統(tǒng)
基于本地知識(shí)庫+LLM的問答系統(tǒng)。該項(xiàng)目的思路是由langchain-ChatGLM啟發(fā)而來。緣由：之前使用過這個(gè)項(xiàng)目，感覺不是太靈活，部署不太友好。借鑒如何用大語言模型構(gòu)建一個(gè)知識(shí)問答系統(tǒng)中思路，嘗試以此作為實(shí)踐。優(yōu)勢(shì)：整個(gè)項(xiàng)目為模塊化配置，不依賴 lanchain 庫，各部分
2024年02月15日
瀏覽(27)
【ChatGLM】基于 ChatGLM-6B + langchain 實(shí)現(xiàn)本地化知識(shí)庫檢索與智能答案生成: 中文 LangChain 項(xiàng)目的實(shí)現(xiàn)開源工作
? 目錄【ChatGLM】基于 ChatGLM-6B + langchain 實(shí)現(xiàn)本地化知識(shí)庫檢索與智能答案生成: 中文 LangChain 項(xiàng)目的實(shí)現(xiàn)開源工作 1.克隆源代碼：
2024年02月11日
瀏覽(52)