国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

2年前作者：bluishfish分類：Toy博客閱讀(25)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

前言

最近 LLM 模型很火，chatGPT 涵蓋的知識(shí)范圍之廣，令人嘆為觀止。然而碼農(nóng)肯定不能滿足于現(xiàn)有的知識(shí)庫，要擴(kuò)展自有數(shù)據(jù)才能發(fā)揮其更大的實(shí)用價(jià)值。

一般來說，深度學(xué)習(xí)模型大多采用 finetune 的方式來增加訓(xùn)練數(shù)據(jù)，但 LLM 模型太大了，訓(xùn)練成本過高。無論是離線或是在線訓(xùn)練樣本，短時(shí)間只有 OpenAI 可為。隨著通用大模型的興起，另外一種被稱為 ”前導(dǎo)詞注入“ 的提示工程（prompt）逐漸成熟，也能接入自有數(shù)據(jù)。

本篇主要采用后面這種方法，將軟件開發(fā)文檔轉(zhuǎn)換為矢量數(shù)據(jù)，再通過 chatGPT 構(gòu)建更好的問答交互體驗(yàn)，利用強(qiáng)大的歸納搜索能力，大大提高信息獲取效率。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

文心一言

環(huán)境準(zhǔn)備

安裝 python 3.8

conda create -n chat python=3.8
conda activate chat

配置 jupyter 環(huán)境

conda install ipykernel
python -m ipykernel install --user --name chat --display-name "chat"

安裝 pytorch

pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

這里注意版本匹配，我筆記本上采用的是 cuda 11.6 的版本。若顯卡不夠強(qiáng)大的話，也可以安裝 cpu 版本。

安裝依賴

pip install langchain
pip install unstructured
pip install openai
pip install pybind11
pip install chromadb
pip install Cython
pip3 install "git+https://github.com/philferriere/cocoapi.git#egg=pycocotools&subdirectory=PythonAPI"
pip install unstructured[local-inference]
pip install layoutparser[layoutmodels,tesseract]
pip install pytesseract

安裝編譯 detectron2

git clone https://github.com/facebookresearch/detectron2.git
python -m pip install -e detectron2

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

由于要在 windows 環(huán)境下通過源碼編譯 detectron2，這里有幾個(gè)坑要提示一下：

pdf2image 出錯(cuò)

pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

https://github.com/oschwartz10612/poppler-windows/releases/

下載 poppler，并添加環(huán)境變量。

pdfminer 與 pdfminer.six 版本沖突

'LTChar' object has no attribute 'graphicstate' Error in a docker container

卸載 pdfminer 和 pdfminer.six 后重新安裝即可修復(fù)。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

gcc 和 ninja

編譯過程中需要配置 gcc，我這里采用的是 MinGW，而 ninja 在windows 下并非可選（否則編譯不通過），需放置到 Path 下。（文末有相關(guān)文件下載鏈接）

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

準(zhǔn)備訓(xùn)練數(shù)據(jù)

將 pdf 文檔放置于 /text 目錄下，可放置多個(gè)文件，這里使用的是音視頻的開發(fā)文檔 meeting.pdf。

jupyter notebook

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

import os
os.environ['OPENAI_API_KEY'] = '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'

萬事俱備，我們來配置一下 OpenAI 的 api key。（這里省略一萬步，最近申請 ChatGPT 的難度又提升了不少，看來白嫖黨給 OpenAI 的算力壓力很大啊~~，plus 又對國內(nèi)發(fā)行的國際信用卡拒絕，總之很煩）

from langchain.document_loaders import UnstructuredPDFLoader
from langchain.indexes import VectorstoreIndexCreator

配置訓(xùn)練采用 gpu 或是 cpu

from detectron2.config import get_cfg
cfg = get_cfg()    
cfg.MODEL.DEVICE = 'gpu' #GPU is recommended

將自定義數(shù)據(jù)導(dǎo)入loader

text_folder = 'text'
loaders = [UnstructuredPDFLoader(os.path.join(text_folder, fn)) for fn in os.listdir(text_folder)]

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

訓(xùn)練數(shù)據(jù)

文本矢量化，并接入 ChatGPT

index = VectorstoreIndexCreator().from_loaders(loaders)

由于開發(fā)文檔非常?。?69k），在我的 1060 的顯卡上只需要不到1分鐘就完成了訓(xùn)練，cpu 會(huì)稍微慢些。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

API 的使用費(fèi)用也十分的低廉，免費(fèi)額度夠用100多次。重度使用者，估計(jì)要考慮上 plus 版本了。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

問答效果

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

服務(wù)器的主入口文件是什么?

query = "服務(wù)器的主入口文件是什么?"
index.query(query)

' app.js'

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

這個(gè)問題比較簡單，能直接在文中找到答案，回答是正確的。

routes/index.js有什么作用?

query = "routes/index.js有什么作用?"
index.query(query)

' routes/index.js is used to define the routes for the application. It is responsible for mapping incoming requests to the appropriate controller functions.'

這個(gè)問題顯然文檔中并沒有詳細(xì)描述，只提到了路由定義文件，這回答大概率是 ChatGPT 做出的補(bǔ)充說明。

介紹一下這個(gè)項(xiàng)目?

query = "介紹一下這個(gè)項(xiàng)目?"
index.query(query)

' 這個(gè)項(xiàng)目包含了一個(gè)服務(wù)器，一個(gè)README.md文件，一個(gè)app.js文件，以及double_room，multi_room和live_room三個(gè)文件夾，每個(gè)文件夾都包含一個(gè)index.js文件，以及一些其他的js文件，這些文件用于實(shí)現(xiàn)雙人房間，多人房間和直播房間的功能，還有一個(gè)selfHost的URL，以及一個(gè)logic/double_room_mgr.js文件和一個(gè)http://localhost:5757/weapp/utils/logfilelist的URL。'

這個(gè)屬于歸納性問題，顯然 ChatGPT 通讀了全文后總結(jié)的還算不錯(cuò)。

哪個(gè)文件處理云通訊相關(guān)?

query = "哪個(gè)文件處理云通訊相關(guān)?"
index.query(query)

' double_room_mgr.js'

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

這個(gè)問題 chat老師“翻車”了，可能是提問里的“相關(guān)”，在中文的上下文環(huán)境中產(chǎn)生了歧義，把下一個(gè)模塊的文件當(dāng)做了答案。

如何服務(wù)器部署?

query = "如何服務(wù)器部署?"
index.query(query)

' The server is configured with upstream app_weapp, a server block listening on port 80, and a server block listening on port 443. The server_name is set to the selfHost URL, and the ssl_certificate and ssl_certificate_key are set to the specified paths. The location block is configured to proxy requests to the upstream app_weapp. The files listed in the context are not related to server deployment.'

對于文檔里沒有的內(nèi)容，ChatGPT 就開始放飛了，丫丫了一堆正確的廢話。

總體效果還是很驚艷的，遠(yuǎn)遠(yuǎn)超出了我的想象，特別是歸納總結(jié)能力上。搜索定位功能來說，對于開發(fā)文檔，我們碼農(nóng)可能習(xí)慣用關(guān)鍵字匹配搜索更高效，而在模糊搜索領(lǐng)域，其實(shí)才是 chat 老師真正的用武之地。

可以想象一些使用場景，通讀個(gè)人小說，歸納出人物關(guān)系和故事線；文案的風(fēng)格提取，并應(yīng)用到自己的產(chǎn)品上；讀各種金融研究報(bào)告，給出投資建議。。。

「未來需要一個(gè)會(huì)提問的人，一個(gè)足夠龐大的基礎(chǔ)語言模型，以及一份足夠?qū)I(yè)的指導(dǎo)文檔，垂直領(lǐng)域?qū)＜揖瓦@么誕生了！」

展望和改進(jìn)

本篇每次將文本構(gòu)建成矢量數(shù)據(jù)將花費(fèi)很長的時(shí)間（特別是采用 CPU 方式的話），若能將這部分工作用向量數(shù)據(jù)庫來完成，速度將提升幾個(gè)數(shù)量級(jí)。

鑒于現(xiàn)在 chatGPT 在國內(nèi)服務(wù)的不友善，還是很期待類似百度的“文心一言”，阿里的“通義千問“，包括訊飛的大語言模型盡快成熟起來。后續(xù)更改 api 接口可切換不同的服務(wù)，未來算力問題若不是瓶頸，甚至于可以考慮自建語言模型來做本地化部署，這對知識(shí)圖譜類應(yīng)用會(huì)是一個(gè)有力的競爭者。

?
ps：吐槽一下聯(lián)想的售后，本來題圖想用stable diffusion來生成的，結(jié)果把我一臺(tái)3090訓(xùn)練機(jī)“從CPU降頻故障”修到“主板燒CPU”，也是沒誰了...

用文心一言暫時(shí)頂一下，效果也還不錯(cuò)，國產(chǎn)大模型加油！
?

源碼下載

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人

本期相關(guān)文件資料，可在公眾號(hào)“深度覺醒”，后臺(tái)回復(fù)：“chat01”，獲取下載鏈接。

用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人文章來源地址http://www.zghlxwxcb.cn/news/detail-440065.html

到了這里，關(guān)于用 ChatGPT 采用自有數(shù)據(jù)集訓(xùn)練問答機(jī)器人的文章就介紹完了。如果您還想了解更多內(nèi)容，請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

飛書ChatGPT機(jī)器人 – 打造智能問答助手實(shí)現(xiàn)無障礙交流
在飛書中創(chuàng)建chatGPT機(jī)器人并且對話，在下面操作步驟中，使用到了Git克隆項(xiàng)目，需提前安裝好Git，克隆的項(xiàng)目是Go語言項(xiàng)目，所以需提前安裝Go語言環(huán)境。 Git Go1.20 首次注冊飛書,我們可以創(chuàng)建個(gè)人賬號(hào) 進(jìn)入后我們創(chuàng)建一個(gè)飛書企業(yè)自建項(xiàng)目然后設(shè)置機(jī)器人名稱和描述,下面
2024年02月16日
瀏覽(31)
WorkPlus AI助理，基于ChatGPT的企業(yè)級(jí)知識(shí)問答機(jī)器人
隨著人工智能技術(shù)的發(fā)展，WorkPlus AI助理以ChatGPT對話能力為基礎(chǔ)，將企業(yè)數(shù)據(jù)與人工智能相結(jié)合，推出了面向企業(yè)的知識(shí)問答機(jī)器人。這一創(chuàng)新性的解決方案幫助企業(yè)高效管理和利用自身的知識(shí)資產(chǎn)，助力企業(yè)級(jí)人工智能的構(gòu)建。與傳統(tǒng)的基于文本數(shù)據(jù)的ChatGPT不同，WorkPlus
2024年02月09日
瀏覽(23)
【ChatGPT】從零開始構(gòu)建基于ChatGPT的嵌入式(Embedding) 本地（Local）智能客服問答機(jī)器人模型
? 目錄方案流程 1. Embeddings 介紹術(shù)語：微調(diào) vs 嵌入
2024年02月10日
瀏覽(35)
讓你的網(wǎng)站變得更智能 - B2 Pro主題問答模塊新增OpenAI ChatGPT機(jī)器人自動(dòng)回答功能
作為一個(gè)網(wǎng)站管理員，你一定會(huì)希望能夠給你的用戶提供更多、更好的服務(wù)。那么，你是否曾經(jīng)想過為你的B2 Pro主題問答模塊新增一個(gè)智能機(jī)器人自動(dòng)回答功能呢？相信你一定想要這個(gè)功能，因?yàn)樗軌虼蟠筇嵘憔W(wǎng)站的用戶體驗(yàn)。現(xiàn)在，我們?yōu)槟闾峁┝艘粋€(gè)好消息。我們已
2024年02月09日
瀏覽(121)
本地構(gòu)建自己的chatgpt已成為可能，國外團(tuán)隊(duì)從GPT3.5提取大規(guī)模數(shù)據(jù)完成本地機(jī)器人訓(xùn)練，并開源項(xiàng)目源碼和模型支持普通在筆記上運(yùn)行chatgpt
國外團(tuán)隊(duì)從GPT3.5提取大規(guī)模數(shù)據(jù)完成本地機(jī)器人訓(xùn)練，并開源項(xiàng)目源碼和模型支持,普通在筆記上運(yùn)行chatgpt。下面是他們分享的：收集到的數(shù)據(jù)、數(shù)據(jù)管理程序、訓(xùn)練代碼和最終模型，以促進(jìn)開放研究和可重復(fù)性。在 2023 年 3 月 20 日至 2023 年 3 月 26 日期間，該團(tuán)隊(duì)使用 GPT
2023年04月21日
瀏覽(99)
Twincat導(dǎo)出Scope數(shù)據(jù)（機(jī)器人控制），并采用origin繪圖
Twincat導(dǎo)出Scope數(shù)據(jù)，并采用origin繪圖實(shí)驗(yàn)中所得數(shù)據(jù)： Scope菜單欄下面設(shè)置采樣時(shí)間，注意：與系統(tǒng)采樣時(shí)間保持一致！ Options? ?導(dǎo)出數(shù)據(jù)Export： CSV格式，可用Origin或MATLAB進(jìn)行導(dǎo)入數(shù)據(jù)，然后數(shù)據(jù)后處理，繪圖。選擇觀測時(shí)間：
2024年02月15日
瀏覽(114)
基于自然語言處理的結(jié)構(gòu)化數(shù)據(jù)庫問答機(jī)器人系統(tǒng)
? 完整代碼下載：https://download.csdn.net/download/andrew_extra/88614388 ????????知識(shí)庫，就是人們總結(jié)出的一些歷史知識(shí)的集合，存儲(chǔ)、索引以后，可以被方便的檢索出來供后人查詢/學(xué)習(xí)。QnA Maker是用于建立知識(shí)庫的工具，使用 QnA Maker，可以根據(jù) FAQ（常見問題解答）文檔或者 U
2024年02月04日
瀏覽(25)
【Python自然語言處理+tkinter圖形化界面】實(shí)現(xiàn)智能醫(yī)療客服問答機(jī)器人實(shí)戰(zhàn)（附源碼、數(shù)據(jù)集、演示超詳細(xì)）
需要源碼和數(shù)據(jù)集請點(diǎn)贊關(guān)注收藏后評論區(qū)留言私信~~~ QA問答是Question-and-Answer的縮寫，根據(jù)用戶提出的問題檢索答案，并用用戶可以理解的自然語言回答用戶，問答型客服注重一問一答處理，側(cè)重知識(shí)的推理。從應(yīng)用領(lǐng)域視角，可將問答系統(tǒng)分為限定域問答系統(tǒng)和開放域問
2023年04月12日
瀏覽(98)
mediapipe 訓(xùn)練自有圖像數(shù)據(jù)分類
參考： https://developers.google.com/mediapipe/solutions/customization/image_classifier https://colab.research.google.com/github/googlesamples/mediapipe/blob/main/examples/customization/image_classifier.ipynb#scrollTo=plvO-YmcQn5g 安裝：版本錯(cuò)誤情況 1）RuntimeError: File loading is not yet supported on Windows 其中mediapipe版本要大于等于
2024年02月06日
瀏覽(19)
C#使用詞嵌入向量與向量數(shù)據(jù)庫為大語言模型(LLM)賦能長期記憶實(shí)現(xiàn)私域問答機(jī)器人落地
? 本文將探討如何使用c#開發(fā)基于大語言模型的私域聊天機(jī)器人落地。大語言模型（Large Language Model，LLM 這里主要以chatgpt為代表的的文本生成式人工智能）是一種利用深度學(xué)習(xí)方法訓(xùn)練的能夠生成人類語言的模型。這種模型可以處理大量的文本數(shù)據(jù)，并學(xué)習(xí)從中獲得的模式，
2024年02月03日
瀏覽(100)

<span id="ytgnl"></span>

<dd id="ytgnl"><tbody id="ytgnl"></tbody></dd>

<rp id="ytgnl"></rp>