国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手

這篇具有很好參考價值的文章主要介紹了NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

??在文章NLP(六十)Baichuan-13B-Chat模型使用體驗中,我們介紹了Baichuan-13B-Chat模型及其在向量嵌入和文檔閱讀上的初步嘗試。
??本文將詳細介紹如何使用Baichuan-13B-Chat模型來構建智能文檔問答助手。

文檔問答流程

??智能文檔問答助手的流程圖如下:

NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手,NLP,自然語言處理,人工智能

  • 文檔加載(Document Loading):加載文檔,文檔格式為URL,PDF,Database。本項目暫時先支持txt文件,后續(xù)將支持更多文件格式;
  • 文檔劃分(Splitting):將文檔按照特定格式進行劃分,形成文檔片段。本項目采用的文檔劃分方式為LangChain中的RecursiveCharacterTextSplitter,參考網(wǎng)址為:https://python.langchain.com/docs/modules/data_connection/document_transformers/text_splitters/recursive_text_splitter。
  • 文檔存儲(Storage):將劃分后的文檔進行向量嵌入,再插入至向量數(shù)據(jù)庫。本項目采用的儲存方式為ElasticSearch及向量數(shù)據(jù)庫Milvus。
  • 文檔召回:對于輸入query,從文檔存儲中召回相關文檔片段。本項目采用的召回方式為ElasticSearch中的內置BM25相似度算法及Milvus中的向量距離。
  • 問答輸出:對于召回文檔和輸入query,構建合適的Prompt,利用大模型(LLM)輸出最終答案。

??下面講介紹細節(jié)。本項目已在Github上開源,項目網(wǎng)址為:https://github.com/percent4/document_qa_with_llm 。

環(huán)境搭建

??本項目開發(fā)的Web框架為Flask,API接口兩個:文件上傳接口和文檔問答接口。文件上傳接口如下:
NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手,NLP,自然語言處理,人工智能
??文檔召回采用ElasticSearch和Milvus相結合的方式,設置ElasticSearch和Milvus召回最相似文本數(shù)量為2。
??ElasticSearch中創(chuàng)建的index為docs,mapping結構如下:

{
  "docs" : {
    "mappings" : {
      "properties" : {
        "cont_id" : {
          "type" : "integer"
        },
        "content" : {
          "type" : "text",
          "analyzer" : "ik_smart"
        },
        "source" : {
          "type" : "text"
        }
      }
    }
  }
}

其中source代表上傳文檔名稱,cont_id為文本片段編號,content為文本片段。content字段采用的analyzer為ik_smart,該analyzer可較好地對中文進行分詞。
??Milvus創(chuàng)建的collection為docs_qa,schema如下:

NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手,NLP,自然語言處理,人工智能
embeddings字段為Baichuan-13B-Chat模型的文本向量嵌入,向量維度為512,范數(shù)為1(即單位向量),搜索距離度量采用IP,即兩個向量的內積。
??大模型采用Baichuan-13B-Chat,主要用于文本片段的向量嵌入和文檔問答。關于Baichuan-13B-Chat模型的部署和使用,可參考文章NLP(六十)Baichuan-13B-Chat模型使用體驗。

文檔問答

??本文使用的文檔為《封神》耗資30億,第一部上映第次日,北京文化跌停,訪問網(wǎng)址為:https://m.jrj.com.cn/madapter/stock/2023/07/22141537710254.shtml ,將其文本內容保存為txt文件,并通過文件上傳接口,將數(shù)據(jù)內容插入至ES和Milvus。
??我們的問題(輸入query)為:封神第一部什么時候上映的?,對其進行向量嵌入,在ES和Milvus中召回的相似文本為:

《封神》耗資30億,第一部上映第次日,北京文化跌停熱點快報 2023-07-22 14:15:04《封神第一部》剛剛上映,北京文化股價卻出現(xiàn)下跌。7月21日,A股影視傳媒板塊震蕩下挫,北京文化收于跌停,報7.56元,總市值54.12億元,板塊內個股慈文傳媒、榮信文化、中國出版、上海電影等跟跌。值得關注的是,《封神第一部》7月20日才正式上映,北京文化為該影片的出品方。
落地誤差只有1公里,3條飛船實現(xiàn)了第一階段的全部任務。
北京文化曾成功投資《我不是藥神》《戰(zhàn)狼》《流浪地球》《你好,李煥英》等多部爆款影片。此前《封神第一部》宣布定檔,北京文化曾迎來3連板。

??大模型問答的Prompt為:

[
    {
        "role": "system",
        "content": "你是一個出色的文檔問答助手,回答要合理、簡潔,回復語言采用中文,。若問題與文本片段相關,請根據(jù)給定的文本片段和問題,答案以\"根據(jù)文檔知識\"開頭若問題與文本片段相關性較小,則使用外部知識回答問題,答案以\"根據(jù)外部知識\"開頭。"
    },
    {
        "role": "user",
        "content": "使用下面的文本片段列表,回答問題:封神第一部什么時候上映的?\n\n文本片段1: 《封神》耗資30億,第一部上映第次日,北京文化跌停熱點快報 2023-07-22 14:15:04《封神第一部》剛剛上映,北京文化股價卻出現(xiàn)下跌。7月21日,A股影視傳媒板塊震蕩下挫,北京文化收于跌停,報7.56元,總市值54.12億元,板塊內個股慈文傳媒、榮信文化、中國出版、上海電影等跟跌。值得關注的是,《封神第一部》7月20日才正式上映,北京文化為該影片的出品方。\n文本片段2: 落地誤差只有1公里,3條飛船實現(xiàn)了第一階段的全部任務。\n文本片段3: 北京文化曾成功投資《我不是藥神》《戰(zhàn)狼》《流浪地球》《你好,李煥英》等多部爆款影片。此前《封神第一部》宣布定檔,北京文化曾迎來3連板。\n"
    }
]

輸出答案為:

根據(jù)文檔知識,《封神第一部》于2023年7月20日上映。

更多測試內容可參考本項目的Github網(wǎng)址。

總結

??本項目的Github網(wǎng)址為:https://github.com/percent4/document_qa_with_llm ,后續(xù)將持續(xù)優(yōu)化這個項目,提升文檔問答的方便性和智能性。
??本文詳細介紹了如何使用Baichuan-13B-Chat模型來構建智能文檔問答助手,希望能給讀者們一些啟發(fā)。

??歡迎關注我的公眾號NLP奇幻之旅,原創(chuàng)技術文章第一時間推送。

NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手,NLP,自然語言處理,人工智能

??歡迎關注我的知識星球“自然語言處理奇幻之旅”,筆者正在努力構建自己的技術社區(qū)。文章來源地址http://www.zghlxwxcb.cn/news/detail-609933.html

NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手,NLP,自然語言處理,人工智能

到了這里,關于NLP(六十一)使用Baichuan-13B-Chat模型構建智能文檔問答助手的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • NLP(六十八)使用Optimum進行模型量化

    NLP(六十八)使用Optimum進行模型量化

    ??本文將會介紹如何使用HuggingFace的 Optimum ,來對微調后的BERT模型進行量化(Quantization)。 ??在文章NLP(六十七)BERT模型訓練后動態(tài)量化(PTDQ)中,我們使用PyTorch自帶的PTDQ(Post Training Dynamic Quantization)量化策略對微調后的BERT模型進行量化,取得了模型推理性能的提升

    2024年02月09日
    瀏覽(18)
  • 【大模型】0.5B的大模型通義千問1.5-0.5B-Chat來了!!

    Qwen1.5是Qwen2的測試版,這是一個基于轉換器的純解碼器語言模型,在大量數(shù)據(jù)上進行了預訓練。與之前發(fā)布的Qwen相比,改進之處包括: 顯著改善了人類對聊天模型的偏好; 對基本模式和聊天模式的多語言支持; 穩(wěn)定支持32K上下文長度,適用于各種尺寸的模型 不需要trust_r

    2024年02月20日
    瀏覽(25)
  • NLP(六十四)使用FastChat計算LLaMA-2模型的token長度

    NLP(六十四)使用FastChat計算LLaMA-2模型的token長度

    LLaMA-2模型部署 ??在文章NLP(五十九)使用FastChat部署百川大模型中,筆者介紹了 FastChat 框架,以及如何使用 FastChat 來部署百川模型。 ??本文將會部署LLaMA-2 70B模型,使得其兼容OpenAI的調用風格。部署的 Dockerfile 文件如下: Docker-compose.yml 文件如下: 部署成功后,會占用

    2024年02月12日
    瀏覽(22)
  • 基于SWIFT和Qwen1.5-14B-Chat進行大模型LoRA微調測試

    操作系統(tǒng):Ubuntu 18.04.5 LTS (GNU/Linux 3.10.0-1127.el7.x86_64 x86_64) Anaconda3:Anaconda3-2023.03-1-Linux-x86_64 根據(jù)服務器網(wǎng)絡情況配置好conda源和pip源,此處使用的是超算山河源 服務器硬件配置:CPU 96核;GPU 8×NVIDIA A100 40GB 通過源代碼安裝SWIFT: 創(chuàng)建一個新的conda環(huán)境: 激活剛剛創(chuàng)建的conda環(huán)境

    2024年03月09日
    瀏覽(40)
  • NLP(六十七)BERT模型訓練后動態(tài)量化(PTDQ)

    NLP(六十七)BERT模型訓練后動態(tài)量化(PTDQ)

    ??本文將會介紹BERT模型訓練后動態(tài)量化(Post Training Dynamic Quantization,PTDQ)。 量化 ??在深度學習中,量化(Quantization)指的是使用更少的bit來存儲原本以浮點數(shù)存儲的tensor,以及使用更少的bit來完成原本以浮點數(shù)完成的計算。這么做的好處主要有如下幾點: 更少的模型

    2024年02月09日
    瀏覽(19)
  • Baichuan-13B:130億參數(shù)的開源語言模型,引領中文和英文benchmark

    Baichuan-13B:130億參數(shù)的開源語言模型,引領中文和英文benchmark

    Baichuan-13B: 一個強大的開源大規(guī)模語言模型 標題:Baichuan-13B:130億參數(shù)的開源語言模型,引領中文和英文benchmark Baichuan-13B是由百川智能開發(fā)的一個開源大規(guī)模語言模型項目,包含了130億參數(shù)。該模型在中文和英文的權威benchmark上達到了同尺寸模型的最佳效果。這個項目發(fā)布了

    2024年02月16日
    瀏覽(30)
  • NLP(六十二)HuggingFace中的Datasets使用

    NLP(六十二)HuggingFace中的Datasets使用

    ?? Datasets 庫是 HuggingFace 生態(tài)系統(tǒng)中一個重要的數(shù)據(jù)集庫,可用于輕松地訪問和共享數(shù)據(jù)集,這些數(shù)據(jù)集是關于音頻、計算機視覺、以及自然語言處理等領域。 Datasets 庫可以通過一行來加載一個數(shù)據(jù)集,并且可以使用 Hugging Face 強大的數(shù)據(jù)處理方法來快速準備好你的數(shù)據(jù)集

    2024年02月15日
    瀏覽(17)
  • 大模型開發(fā)(十一):Chat Completions模型的Function calling功能詳解

    大模型開發(fā)(十一):Chat Completions模型的Function calling功能詳解

    授權聲明: 本文基于九天Hector的原創(chuàng)課程資料創(chuàng)作,已獲得其正式授權。 原課程出處:九天Hector的B站主頁,感謝九天Hector為學習者帶來的寶貴知識。 請尊重原創(chuàng),轉載或引用時,請標明來源。 全文共6000余字,預計閱讀時間約15~25分鐘 | 滿滿干貨(附代碼案例),建議收藏!

    2024年02月16日
    瀏覽(22)
  • LLaMA-Factory 8卡4090 deepspeed zero3 微調Qwen14B-chat

    LLaMA-Factory 8卡4090 deepspeed zero3 微調Qwen14B-chat

    環(huán)境安裝 推薦使用docker,Ubuntu20.04 https://www.modelscope.cn/docs/%E7%8E%AF%E5%A2%83%E5%AE%89%E8%A3%85 下載模型 在modelscope主頁,找到模型 https://modelscope.cn/models/qwen/Qwen-14B-Chat/summary 可以使用如下腳本 微調 使用LLaMA-Factory, 下載下面?zhèn)}庫的代碼, https://github.com/hiyouga/LLaMA-Factory 在代碼目錄,

    2024年04月15日
    瀏覽(24)
  • 【Chatgpt4 教學】 NLP(自然語言處理)第十一課 n-gram模型原理

    我起/點更新NLP(自然語言處理)——《王老師帶我成為救世主》 (1)--------------------------------------------------------------------------------------- 我:簡要介紹n-gram模型及其優(yōu)缺點; AI: n-gram模型是一種用于語言建模和文本生成的基本模型,它基于一個簡單的假設:一個單詞在出現(xiàn)

    2023年04月19日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包