国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

聊聊大模型微調(diào)訓(xùn)練全流程的思考

這篇具有很好參考價(jià)值的文章主要介紹了聊聊大模型微調(diào)訓(xùn)練全流程的思考。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

轉(zhuǎn)載請(qǐng)注明出處:https://www.cnblogs.com/zhiyong-ITNote

參考現(xiàn)有的中文醫(yī)療模型:MedicalGPT、CareGPT等領(lǐng)域模型的訓(xùn)練流程,結(jié)合ChatGPT的訓(xùn)練流程,總結(jié)如下:
在預(yù)訓(xùn)練階段,模型會(huì)從大量無(wú)標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)領(lǐng)域/通用知識(shí);其次使用{有監(jiān)督微調(diào)}(SFT)優(yōu)化模型以更好地遵守特定指令;最后使用對(duì)齊技術(shù)使LLM更有用更安全的響應(yīng)用戶的提示。

訓(xùn)練流程的四個(gè)階段,分別如下:

  1. 預(yù)訓(xùn)練(pre-training,pt),基于基座模型,經(jīng)過(guò)海量中文醫(yī)療預(yù)料訓(xùn)練,得到領(lǐng)域適配的ChatGLM-6B。
  2. 監(jiān)督微調(diào)(supervised finetuning,sft),通過(guò)在線問(wèn)診等數(shù)據(jù),構(gòu)建訓(xùn)練數(shù)據(jù)完成指令微調(diào)。
  3. RM模型構(gòu)建(reward modeling, rm),人工對(duì)預(yù)測(cè)答案排序,訓(xùn)練一個(gè)打分模型
  4. 強(qiáng)化學(xué)習(xí)階段(reinforcement learning, rl),基于PPO算法,采用RL的方式,完成fine-tuned ChatGLM-6B模型的優(yōu)化。

預(yù)訓(xùn)練階段-PT

該階段的訓(xùn)練數(shù)據(jù)格式如下。對(duì)應(yīng)是非結(jié)構(gòu)化的自然語(yǔ)言文本,通過(guò)設(shè)定max_seq_len和block_size等方式,實(shí)現(xiàn)文本數(shù)據(jù)的chunk,batch化,作為模型的訓(xùn)練數(shù)據(jù),處理完的單條數(shù)據(jù)包含input_ids,attention_mask和labels;訓(xùn)練的目標(biāo)是模型需要根據(jù)提供的文本來(lái)預(yù)測(cè) 下一個(gè)單詞。
image.png

監(jiān)督微調(diào)階段-SFT

該階段的訓(xùn)練數(shù)據(jù)格式如下。一般對(duì)應(yīng)的結(jié)構(gòu)采用instruction/input/output/history,根據(jù)不同的場(chǎng)景,input與history可以做缺省處理。但是需要人工標(biāo)注的指令數(shù)據(jù)集。
image.png

對(duì)齊

該階段的主要目標(biāo)是將語(yǔ)言模型喻人類的偏好、價(jià)值觀進(jìn)行對(duì)齊,這也是RHLF機(jī)制的作用。
RLHF主要包括兩步:

  1. 基于有監(jiān)督微調(diào)模型基礎(chǔ)上創(chuàng)建一個(gè)reward model(RM)模型;
  2. 基于RM模型使用PPO/DPO算法微調(diào)SFT模型,返回最佳response。

獎(jiǎng)勵(lì)模型-RM

該階段是RHLF的第一個(gè)階段,訓(xùn)練得到一個(gè)rm模型用于rl階段的模型打分,其結(jié)構(gòu)格式如下:
image.png
image.png
有多種格式的數(shù)據(jù),可自己選擇,但需要程序做額外的處理,且這些數(shù)據(jù)都是人工標(biāo)注好的。

強(qiáng)化學(xué)習(xí)-RL

該階段是RHLF的第二個(gè)階段,也是核心部分,用于優(yōu)化一個(gè)RM模型,并完成打分。數(shù)據(jù)格式同SFT。一般在此階段會(huì)使用特定的算法(DPO/PPO)來(lái)實(shí)現(xiàn);引導(dǎo)優(yōu)化后的大模型生成更符合人類偏好的內(nèi)容。

總結(jié)

對(duì)于模型的微調(diào),一開(kāi)始我是想的太簡(jiǎn)單了,覺(jué)得只要按照基座官方模型文檔調(diào)試即可;隨著了解的深入與不斷的學(xué)習(xí),微調(diào)是個(gè)大工程而且對(duì)于領(lǐng)域模型來(lái)說(shuō),其訓(xùn)練流程:預(yù)訓(xùn)練 --> 監(jiān)督微調(diào) --> RHLF 中包含的事項(xiàng)與知識(shí)太多。
參考:【中文醫(yī)療大模型】訓(xùn)練全流程源碼剖析

轉(zhuǎn)載請(qǐng)注明出處:https://www.cnblogs.com/zhiyong-ITNote

首發(fā)于個(gè)人公眾號(hào)
聊聊大模型微調(diào)訓(xùn)練全流程的思考文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-841215.html

到了這里,關(guān)于聊聊大模型微調(diào)訓(xùn)練全流程的思考的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 聊聊心理醫(yī)療領(lǐng)域大模型的落地思考

    聊聊心理醫(yī)療領(lǐng)域大模型的落地思考

    轉(zhuǎn)載請(qǐng)注明出處:https://www.cnblogs.com/zhiyong-ITNote 近來(lái),工作偏向于心理醫(yī)療領(lǐng)域方面的大模型,僅從領(lǐng)域大模型的落地,聊聊個(gè)人的一些思考。 準(zhǔn)備好花錢買GPU。 首先需要審視斟酌業(yè)務(wù)領(lǐng)域的特殊性與可行性,我們要做的是心理領(lǐng)域,而心理領(lǐng)域傾向于醫(yī)患對(duì)話,即 詢問(wèn)鏈

    2024年03月21日
    瀏覽(24)
  • 微調(diào)預(yù)訓(xùn)練的 NLP 模型

    微調(diào)預(yù)訓(xùn)練的 NLP 模型

    動(dòng)動(dòng)發(fā)財(cái)?shù)男∈?,點(diǎn)個(gè)贊吧! 針對(duì)任何領(lǐng)域微調(diào)預(yù)訓(xùn)練 NLP 模型的分步指南 在當(dāng)今世界,預(yù)訓(xùn)練 NLP 模型的可用性極大地簡(jiǎn)化了使用深度學(xué)習(xí)技術(shù)對(duì)文本數(shù)據(jù)的解釋。然而,雖然這些模型在一般任務(wù)中表現(xiàn)出色,但它們往往缺乏對(duì)特定領(lǐng)域的適應(yīng)性。 本綜合指南 [1] 旨在引導(dǎo)

    2024年02月13日
    瀏覽(17)
  • LORA大模型加速微調(diào)和訓(xùn)練算法

    LORA大模型加速微調(diào)和訓(xùn)練算法

    ChatGPT帶領(lǐng)著大模型像雨后春筍一般層出不窮,大家都對(duì)大模型微調(diào)躍躍欲試,現(xiàn)在咱們聊聊其中的常見(jiàn)的算法 1 LORA 低秩適應(yīng) 理論 Lora( Low-Rank Adaotation),低秩自適應(yīng)模型微調(diào)的方法,它凍結(jié)預(yù)訓(xùn)練模型的權(quán)重,并將可訓(xùn)練的秩分解矩陣注入到transformer架構(gòu)的每一層,從而大大

    2024年02月05日
    瀏覽(21)
  • LLMs:ColossalChat相關(guān)的開(kāi)源訓(xùn)練數(shù)據(jù)集簡(jiǎn)介(SFT指令微調(diào)數(shù)據(jù)集+獎(jiǎng)勵(lì)模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實(shí)現(xiàn)的三個(gè)階段(監(jiān)督指令微調(diào)→訓(xùn)練獎(jiǎng)勵(lì)模型→RLHF訓(xùn)練模型→???

    LLMs:ColossalChat相關(guān)的開(kāi)源訓(xùn)練數(shù)據(jù)集簡(jiǎn)介(SFT指令微調(diào)數(shù)據(jù)集+獎(jiǎng)勵(lì)模型排序數(shù)據(jù)集+RLHF數(shù)據(jù)集)、RLHF算法實(shí)現(xiàn)的三個(gè)階段(監(jiān)督指令微調(diào)→訓(xùn)練獎(jiǎng)勵(lì)模型→RLHF訓(xùn)練模型→推理量化和服務(wù)) ? 目錄 ColossalChat的使用方法 1、ColossalChat相關(guān)的開(kāi)源訓(xùn)練數(shù)據(jù)集 (1)、SFT指令微調(diào)數(shù)據(jù)集

    2024年02月14日
    瀏覽(27)
  • NeMo中文/英文ASR模型微調(diào)訓(xùn)練實(shí)踐

    1.安裝nemo pip install -U nemo_toolkit[all] ASR-metrics 2.下載ASR預(yù)訓(xùn)練模型到本地(建議使用huggleface,比nvidia官網(wǎng)快很多) 3.從本地創(chuàng)建ASR模型 asr_model = nemo_asr.models.EncDecCTCModel.restore_from(\\\"stt_zh_quartznet15x5.nemo\\\") 3.定義train_mainfest,包含語(yǔ)音文件路徑、時(shí)長(zhǎng)和語(yǔ)音文本的json文件 4.讀取模型的

    2024年02月13日
    瀏覽(19)
  • pytorch cv自帶預(yù)訓(xùn)練模型再微調(diào)

    pytorch cv自帶預(yù)訓(xùn)練模型再微調(diào)

    參考: https://pytorch.org/vision/0.16/models.html ##我這里安裝的這個(gè)版本 https://zhuanlan.zhihu.com/p/436574436 https://blog.csdn.net/u014297502/article/details/125884141 除了分類算法,torchvision還有檢測(cè)、分割等預(yù)訓(xùn)練模型提供: torchvision.models.detection torchvision.models.segmentation 另外一半使用遷移預(yù)訓(xùn)練模

    2024年02月16日
    瀏覽(20)
  • 訓(xùn)練自己的Llama 2!大模型微調(diào)技術(shù)介紹

    訓(xùn)練自己的Llama 2!大模型微調(diào)技術(shù)介紹

    趨動(dòng)云 趨動(dòng)云是面向 AI 算法工程師的開(kāi)發(fā)平臺(tái),為工程師提供模型開(kāi)發(fā)、模型訓(xùn)練、數(shù)據(jù)和代碼管理等功能。 近期有不少粉絲問(wèn)算力君,趨動(dòng)云是否支持大模型的訓(xùn)練?當(dāng)然支持! 最近大火的Llama 2一出來(lái),算力君身邊的小伙伴就已經(jīng)跑過(guò)了,本文將介紹Llama 2和相關(guān)的大模

    2024年02月12日
    瀏覽(19)
  • 訓(xùn)練自己的ChatGPT-OpenAI 微調(diào)模型

    訓(xùn)練自己的ChatGPT-OpenAI 微調(diào)模型

    OpenAI終于下定決心——正式開(kāi)放ChatGPT API! ChatGPT API地址:https://platform.openai.com/docs/guides/chat gpt-3.5-turbo的新模型 OpenAI正式打開(kāi)了官方的ChatGPT API,為廣大開(kāi)發(fā)者打開(kāi)了新的大門。 官方文檔地址:OpenAI API 對(duì)于ChatGPT的表現(xiàn),大家都已經(jīng)感受到他的驚艷了,在試用之余,我們想該

    2024年02月06日
    瀏覽(24)
  • 阿里首提前向訓(xùn)練框架:讓大模型深度思考,可快速定制專屬模型

    大語(yǔ)言模型(LLM)是當(dāng)前自然語(yǔ)言處理領(lǐng)域最核心的技術(shù),以 GPT-4 為代表的大語(yǔ)言模型展現(xiàn)出了類人的學(xué)習(xí)能力。其中,情境學(xué)習(xí)(In-context Learning)是大語(yǔ)言模型最神秘的能力之一。如下圖所示,在這種情境學(xué)習(xí)的范式下,大模型無(wú)需更新任何參數(shù),僅依賴幾個(gè)示例樣本(demonstrations)就可以學(xué)習(xí)新任務(wù),執(zhí)行新樣本的預(yù)測(cè)。

    2024年02月11日
    瀏覽(21)
  • 基于中文金融知識(shí)的 LLaMA 系微調(diào)模型的智能問(wèn)答系統(tǒng):LLaMA大模型訓(xùn)練微調(diào)推理等詳細(xì)教學(xué)

    基于中文金融知識(shí)的 LLaMA 系微調(diào)模型的智能問(wèn)答系統(tǒng):LLaMA大模型訓(xùn)練微調(diào)推理等詳細(xì)教學(xué)

    項(xiàng)目設(shè)計(jì)集合(人工智能方向):助力新人快速實(shí)戰(zhàn)掌握技能、自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自身的硬實(shí)力(不僅限NLP、知識(shí)圖譜、計(jì)算機(jī)視覺(jué)等領(lǐng)域) :匯總有意義的項(xiàng)目設(shè)計(jì)集合,助力新人快速實(shí)戰(zhàn)掌握技能,助力用戶更好利用 CSDN 平臺(tái),自主完成項(xiàng)目設(shè)計(jì)升級(jí),提升自

    2024年02月14日
    瀏覽(21)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包