国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【Langchain】+ 【baichuan】實(shí)現(xiàn)領(lǐng)域知識(shí)庫(kù)【RAG】問(wèn)答系統(tǒng)

2年前作者：giao客分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【Langchain】+ 【baichuan】實(shí)現(xiàn)領(lǐng)域知識(shí)庫(kù)【RAG】問(wèn)答系統(tǒng)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本項(xiàng)目使用Langchain 和 baichuan 大模型，結(jié)合領(lǐng)域百科詞條數(shù)據(jù)（用xlsx保存），簡(jiǎn)單地實(shí)現(xiàn)了領(lǐng)域百科問(wèn)答實(shí)現(xiàn)。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-832318.html

from langchain.text_splitter import CharacterTextSplitter, RecursiveCharacterTextSplitter
from langchain_community.embeddings import OpenAIEmbeddings, SentenceTransformerEmbeddings
from langchain_community.vectorstores import Chroma, FAISS
from langchain_community.llms import OpenAI, Baichuan
from langchain_community.chat_models import ChatOpenAI, ChatBaichuan
from langchain.memory import ConversationBufferWindowMemory
from langchain.chains import ConversationalRetrievalChain, RetrievalQA
#import langchain_community import chat_models
#print(chat_models.__all__)

import streamlit as st
import pandas as pd
import os
import warnings
import time
warnings.filterwarnings('ignore')




# 對(duì)存儲(chǔ)了領(lǐng)域百科詞條的xlsx文件進(jìn)行解析
def get_xlsx_text(xlsx_file):
    df = pd.read_excel(xlsx_file, engine='openpyxl')
    text = ""
    for index, row in df.iterrows():
        text += row['title'].replace('\n', '')
        text += row['content'].replace('\n', '')
        text += '\n\n'
    return text

# Splits a given text into smaller chunks based on specified conditions
def get_text_chunks(text):
    text_splitter = RecursiveCharacterTextSplitter(
        separators="\n\n",
        chunk_size=1000,
        chunk_overlap=200,
        length_function=len
    )
    chunks = text_splitter.split_text(text)
    return chunks


# 對(duì)切分的文本塊構(gòu)建編碼向量并存儲(chǔ)到FASISS
# Generates embeddings for given text chunks and creates a vector store using FAISS
def get_vectorstore(text_chunks):
    # embeddings = OpenAIEmbeddings() #有經(jīng)濟(jì)條件的可以使用　opanaiembending
    embeddings = SentenceTransformerEmbeddings(model_name='all-MiniLM-L6-v2')
    vectorstore = FAISS.from_texts(texts=text_chunks, embedding=embeddings)
    return vectorstore
# Initializes a conversation chain with a given vector store

# 對(duì)切分的文本塊構(gòu)建編碼向量并存儲(chǔ)到Chroma
# Generates embeddings for given text chunks and creates a vector store using Chroma
def get_vectorstore_chroma(text_chunks):
    # embeddings = OpenAIEmbeddings()
    embeddings = SentenceTransformerEmbeddings(model_name='all-MiniLM-L6-v2')
    vectorstore = Chroma.from_texts(
        texts=text_chunks, embedding=embeddings)
    return vectorstore


def get_conversation_chain_baichuan(vectorstore):
    memory = ConversationBufferWindowMemory(
        memory_key='chat_history', return_message=True)　# 設(shè)置記憶存儲(chǔ)器
    conversation_chain = ConversationalRetrievalChain.from_llm(
        llm=Baichuan(temperature=temperature_input, model_name=model_select),
        retriever=vectorstore.as_retriever(),
        get_chat_history=lambda h: h,
        memory=memory
    )
    return conversation_chain


os.environ["http_proxy"] = "http://127.0.0.1:7890"
os.environ["https_proxy"] = "http://127.0.0.1:7890"
 # langchain 可以通過(guò)設(shè)置環(huán)境變量來(lái)設(shè)置參數(shù)
os.environ['BAICHUAN_API_KEY'] = 'sk-88888888888888888888888888888888'
temperature_input = 0.7
model_select = 'Baichuan2-Turbo-192K'
raw_text = get_xlsx_text('領(lǐng)域文件/twiki百科問(wèn)答.xlsx')


text_chunks = get_text_chunks(raw_text)
vectorstore = get_vectorstore_chroma(text_chunks)
# Create conversation chain
qa = get_conversation_chain_baichuan(vectorstore)
questions = [
    "什么是森林經(jīng)營(yíng)項(xiàng)目?",
    "風(fēng)電項(xiàng)目開(kāi)發(fā)過(guò)程中需要的主要資料?",
    "什么是ESG"
]
for question in questions:
    result = qa(question)
    print(f"**Question**: {question} \n")
    print(f"**Answer__**: {result['answer']} \n")

到了這里，關(guān)于【Langchain】+ 【baichuan】實(shí)現(xiàn)領(lǐng)域知識(shí)庫(kù)【RAG】問(wèn)答系統(tǒng)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

從零實(shí)現(xiàn)Transformer、ChatGLM-6B、LangChain+LLM的本地知識(shí)庫(kù)問(wèn)答
最近一直在做類ChatGPT項(xiàng)目的部署微調(diào)，關(guān)注比較多的是兩個(gè)：一個(gè)LLaMA，一個(gè)ChatGLM，會(huì)發(fā)現(xiàn)有不少模型是基于這兩個(gè)模型去做微調(diào)的，說(shuō)到微調(diào)，那具體怎么微調(diào)呢，因此又詳細(xì)了解了一下微調(diào)代碼，發(fā)現(xiàn)微調(diào)LLM時(shí)一般都會(huì)用到Hugging face實(shí)現(xiàn)的Transformers庫(kù)的Trainer類從而發(fā)現(xiàn)
2024年02月08日
瀏覽(43)
Chinese-LangChain：基于ChatGLM-6b+langchain實(shí)現(xiàn)本地化知識(shí)庫(kù)檢索與智能答案生成
Chinese-LangChain：中文langchain項(xiàng)目，基于ChatGLM-6b+langchain實(shí)現(xiàn)本地化知識(shí)庫(kù)檢索與智能答案生成 https://github.com/yanqiangmiffy/Chinese-LangChain 俗稱：小必應(yīng)，Q.Talk，強(qiáng)聊，QiangTalk ?? 2023/04/19 引入ChuanhuChatGPT皮膚 ?? 2023/04/19 增加web search功能，需要確保網(wǎng)絡(luò)暢通！ ?? 2023/04/18 webui增加知
2024年02月06日
瀏覽(33)
【ChatGLM】基于 ChatGLM-6B + langchain 實(shí)現(xiàn)本地化知識(shí)庫(kù)檢索與智能答案生成: 中文 LangChain 項(xiàng)目的實(shí)現(xiàn)開(kāi)源工作
? 目錄【ChatGLM】基于 ChatGLM-6B + langchain 實(shí)現(xiàn)本地化知識(shí)庫(kù)檢索與智能答案生成: 中文 LangChain 項(xiàng)目的實(shí)現(xiàn)開(kāi)源工作 1.克隆源代碼：
2024年02月11日
瀏覽(52)
AIGC內(nèi)容分享(三)：AIGC應(yīng)用：基于RAG構(gòu)建個(gè)人知識(shí)庫(kù)
目錄前言 Collect (收集) 收集是什么？ Organize (組織) 組織信息 Distill (提煉) 提煉信息 Express (表達(dá)) 表達(dá)見(jiàn)解 Finetune調(diào)優(yōu) 調(diào)整輸出內(nèi)容總結(jié)一下在信息爆炸的時(shí)代，如何有效地處理和汲取大量的信息成為一個(gè)關(guān)鍵的挑戰(zhàn)，尤其對(duì)于知識(shí)工作者。如果有一個(gè)知識(shí)庫(kù)就像外掛大腦
2024年02月02日
瀏覽(18)
AnythingLLM：基于RAG方案構(gòu)專屬私有知識(shí)庫(kù)（開(kāi)源｜高效｜可定制）
繼OpenAI和Google的產(chǎn)品發(fā)布會(huì)之后，大模型的能力進(jìn)化速度之快令人驚嘆，然而，對(duì)于很多個(gè)人和企業(yè)而言，為了數(shù)據(jù)安全不得不考慮私有化部署方案，從GPT-4發(fā)布以來(lái)，國(guó)內(nèi)外的大模型就拉開(kāi)了很明顯的差距，能夠?qū)崿F(xiàn)的此路徑無(wú)非就只剩下國(guó)內(nèi)的開(kāi)源大模型可以選擇了。而
2024年02月04日
瀏覽(23)
【高級(jí)RAG技巧】在大模型知識(shí)庫(kù)問(wèn)答中增強(qiáng)文檔分割與表格提取
文檔分割是一項(xiàng)具有挑戰(zhàn)性的任務(wù)，它是任何知識(shí)庫(kù)問(wèn)答系統(tǒng)的基礎(chǔ)。高質(zhì)量的文檔分割結(jié)果對(duì)于顯著提升問(wèn)答效果至關(guān)重要，但是目前大多數(shù)開(kāi)源庫(kù)的處理能力有限。這些開(kāi)源的庫(kù)或者方法缺點(diǎn)大致可以羅列如下：只能處理文本，無(wú)法提取表格中的內(nèi)容缺乏有效的分割策
2024年04月22日
瀏覽(24)
langchain ChatGPT AI私有知識(shí)庫(kù)
原理就是把文檔變?yōu)橄蛄繑?shù)據(jù)庫(kù)，然后搜索向量數(shù)據(jù)庫(kù)，把相似的數(shù)據(jù)和問(wèn)題作為prompt，輸入到大模型，再利用GPT強(qiáng)大的自然語(yǔ)言處理、推理和分析等方面的能力將答案返回給用戶 langchain是一個(gè)強(qiáng)大的框架，旨在幫助開(kāi)發(fā)人員使用語(yǔ)言模型構(gòu)建端到端的應(yīng)用程序。它提供了
2024年02月11日
瀏覽(61)
LangChain-Chatchat 開(kāi)源知識(shí)庫(kù)來(lái)了
LangChain-Chatchat 是基于 ChatGLM 等大語(yǔ)言模型與 LangChain 等應(yīng)用框架實(shí)現(xiàn)，開(kāi)源、可離線部署的 RAG 檢索增強(qiáng)生成大模型知識(shí)庫(kù)項(xiàng)目。最新版本為 v0.2.10，目前已收獲 26.7k Stars，非常不錯(cuò)的一個(gè)開(kāi)源知識(shí)庫(kù)項(xiàng)目。項(xiàng)目地址：https://github.com/chatchat-space/Langchain-Chatchat 顧名思義，LangC
2024年04月17日
瀏覽(18)
LangChain入門(四)-構(gòu)建本地知識(shí)庫(kù)問(wèn)答機(jī)器人
在這個(gè)例子中，我們會(huì)介紹如何從我們本地讀取多個(gè)文檔構(gòu)建知識(shí)庫(kù)，并且使用 Openai API 在知識(shí)庫(kù)中進(jìn)行搜索并給出答案。目錄一、安裝向量數(shù)據(jù)庫(kù)chromadb和tiktoken 二、使用案例三、embeddings持久化四、在線的向量數(shù)據(jù)庫(kù)Pinecone 一、安裝向量數(shù)據(jù)庫(kù)chromadb和tiktoken ?? 其中h
2024年02月05日
瀏覽(102)
基于 InternLM 和 LangChain 搭建你的知識(shí)庫(kù)
如何打造垂域大模型是一個(gè)重要落地方向。如何打造個(gè)人專屬的大模型應(yīng)用也是重要的問(wèn)題。 RAG 外掛一個(gè)知識(shí)庫(kù) 優(yōu)勢(shì)：成本低，實(shí)時(shí)更新劣勢(shì)：能力受基座模型影響大，RAG每次需要將檢索文檔和問(wèn)題提交給大模型，極大占用上下文限制。 Finetune 輕量級(jí)的微調(diào) 優(yōu)勢(shì)：可以充
2024年01月19日
瀏覽(19)