国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

阿里首提前向訓(xùn)練框架:讓大模型深度思考,可快速定制專屬模型

這篇具有很好參考價值的文章主要介紹了阿里首提前向訓(xùn)練框架:讓大模型深度思考,可快速定制專屬模型。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

大語言模型(LLM)是當(dāng)前自然語言處理領(lǐng)域最核心的技術(shù),以?GPT-4?為代表的大語言模型展現(xiàn)出了類人的學(xué)習(xí)能力。其中,情境學(xué)習(xí)(In-context?Learning)是大語言模型最神秘的能力之一。如下圖所示,在這種情境學(xué)習(xí)的范式下,大模型無需更新任何參數(shù),僅依賴幾個示例樣本(demonstrations)就可以學(xué)習(xí)新任務(wù),執(zhí)行新樣本的預(yù)測。

得益于這種范式的存在,使得大模型可以僅通過修改指令(prompt)和示例?(demonstrations)就在某個具體任務(wù)上達(dá)到不錯的效果,然而當(dāng)前的情境學(xué)習(xí)僅通過輸入一次示例的方式來進(jìn)行任務(wù)的歸納與推理,存在很大的局限。首先,這種單輪的策略與人類類比學(xué)習(xí)的決策過程并不一致。

在認(rèn)知學(xué)中,人類通常通過迭代式的思維過程(例如,分析示例、反思示例和形成抽象概念)執(zhí)行類比學(xué)習(xí)??梢钥紤]讓大模型通過“思考更長時間”或者“多次思考”,來提升情境學(xué)習(xí)的能力。其次,一些相關(guān)工作指出,情境學(xué)習(xí)與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的梯度下降有潛在的聯(lián)系,一次大模型前向的過程完成了一次隱式的梯度下降,可以看作執(zhí)行了一次訓(xùn)練。這進(jìn)一步表明,可以通過多次(迭代)前向訓(xùn)練演示來提高情境學(xué)習(xí)的效果,讓大模型和人類一樣,擁有深度思考的過程。

阿里首創(chuàng)前向訓(xùn)練框架

為此,阿里研究團(tuán)隊在《Iterative?Forward?Tuning?Boosts?In-context?Learning?in?Language?Models》論文中率先提出了一個新的大模型情境學(xué)習(xí)框架——Deep-Thinking。

論文:https://arxiv.org/abs/2305.13016

代碼:?DAMO-ConvAI/deep-thinking at main · AlibabaResearch/DAMO-ConvAI · GitHub

Demo:?ModelScope 魔搭社區(qū)

Deep-Thinking與傳統(tǒng)情境學(xué)習(xí)不同,它分為兩個階段。第一個階段為思考階段,僅將示例作為大模型的輸入,然后通過多次迭代來讓大模型進(jìn)行前向“訓(xùn)練/思考”,模擬人類不斷地觀察與學(xué)習(xí)示例樣本。為了做到前向訓(xùn)練,研究團(tuán)隊借助?self-attention?中的?Key,?Value?矩陣作為一種“元梯度”。

具體來說,需要執(zhí)行多個步驟優(yōu)化過程。在某一次具體的優(yōu)化過程中,研究團(tuán)隊改造?self-attention?的前向機(jī)制,對??Key,?Value?矩陣執(zhí)行了更新?(update)?與?合并?(concat)?操作。更新操作通過當(dāng)前步驟的元梯度與歷史累積到的元梯度進(jìn)行積累,產(chǎn)生新的元梯度。而合并操作將元梯度進(jìn)行合并,讓網(wǎng)絡(luò)更深層地表示受到元梯度的增益。需要強(qiáng)調(diào)的是,這個過程不依賴反向傳播,所以能夠大大地降低大模型的訓(xùn)練的成本。第二個階段為推理階段,輸入待預(yù)測的樣本與訓(xùn)練階段產(chǎn)生的最終元梯度,最終執(zhí)行預(yù)測。

Deep-Thinking?擁有兩個優(yōu)勢,一方面通過第一階段的思考可以有效提升下游任務(wù)的效果,另一方面,在第二階段預(yù)測時僅需要輸入預(yù)測的樣本與第一階段學(xué)習(xí)的產(chǎn)物(K,V矩陣),無需輸入大量的自然語言示例,可以有效節(jié)約顯存并提升推理速度。

效果

為了評估?Deep-Thinking?相比傳統(tǒng)情景學(xué)習(xí)的優(yōu)勢,該團(tuán)隊評測四種?LLM?的不同尺寸,共?20?個模型在?10?個數(shù)據(jù)集上的效果,發(fā)現(xiàn)都有較好的提升,在某些情況下甚至能得到幾十個點(diǎn)的相對提升。

除了定量的評估外,該團(tuán)隊還執(zhí)行了一些有趣的分析,Deep-thinking?的優(yōu)化過程和傳統(tǒng)的梯度下降優(yōu)化展現(xiàn)出了一系列有趣的現(xiàn)象:首先,Deep-thinking?也存在類似過擬合的現(xiàn)象,如果迭代過程過多,將會導(dǎo)致效果下降,可以通過引入小規(guī)模的驗(yàn)證集來選擇合適的迭代次數(shù),這與傳統(tǒng)優(yōu)化中的?Epoch?概念類似;其次,Deep-thinking?的梯度范式也呈現(xiàn)出了與梯度下降相同的趨勢,比如更淺的層收斂更快,對學(xué)習(xí)率敏感等。

展望

傳統(tǒng)的模型優(yōu)化依賴于反向傳播算法,但這種方法需要大量的計算資源和龐大的數(shù)據(jù)集,使得大模型的訓(xùn)練與微調(diào)成本非常高昂,成為大模型落地的阻礙之一。

而阿里研究團(tuán)隊提出的Deep-thinking是一種迭代式的前向訓(xùn)練框架,摒棄了反向傳播的依賴,這將允許用戶和企業(yè)在具體的任務(wù)上低成本的優(yōu)化大模型效果。企業(yè)往往需要保護(hù)用戶數(shù)據(jù)的安全性,但同時也需要讓模型具備針對特定任務(wù)的學(xué)習(xí)能力。利用Deep-thinking,企業(yè)可以在不共享大量數(shù)據(jù)的前提下,根據(jù)自身需求快速訓(xùn)練和優(yōu)化專屬模型。這對于提高模型的個性化適應(yīng)性和隱私保護(hù)具有重要意義,這項(xiàng)技術(shù)有潛力成為大模型落地的最佳實(shí)踐。文章來源地址http://www.zghlxwxcb.cn/news/detail-507199.html

到了這里,關(guān)于阿里首提前向訓(xùn)練框架:讓大模型深度思考,可快速定制專屬模型的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深度學(xué)習(xí)模型部署——Flask框架輕量級部署+阿里云服務(wù)器

    深度學(xué)習(xí)模型部署——Flask框架輕量級部署+阿里云服務(wù)器

    ?因?yàn)閰⒓右粋€比賽,需要把訓(xùn)練好的深度學(xué)習(xí)模型部署到web端,第一次做,在網(wǎng)上也搜索了很多教程,基本上沒有適合自己的,只有一個b站up主講的還不錯 https://www.bilibili.com/video/BV1Qv41117SR/?spm_id_from=333.999.0.0vd_source=6ca6a313467efae52a28428a64104c10 https://www.bilibili.com/video/BV1Qv41117

    2024年02月07日
    瀏覽(95)
  • 聊聊大模型微調(diào)訓(xùn)練全流程的思考

    聊聊大模型微調(diào)訓(xùn)練全流程的思考

    轉(zhuǎn)載請注明出處:https://www.cnblogs.com/zhiyong-ITNote 參考現(xiàn)有的中文醫(yī)療模型:MedicalGPT、CareGPT等領(lǐng)域模型的訓(xùn)練流程,結(jié)合ChatGPT的訓(xùn)練流程,總結(jié)如下: 在預(yù)訓(xùn)練階段,模型會從大量無標(biāo)注文本數(shù)據(jù)集中學(xué)習(xí)領(lǐng)域/通用知識;其次使用{有監(jiān)督微調(diào)}(SFT)優(yōu)化模型以更好地遵守特定

    2024年03月18日
    瀏覽(17)
  • 深度思考rpc框架面經(jīng)之五:rpc限流:rpc事務(wù):tps測試

    是的,我可以為你提供關(guān)于RPC注冊中心及其監(jiān)控的相關(guān)信息。RPC注冊中心是用于管理微服務(wù)之間調(diào)用關(guān)系的中心化服務(wù),它可以幫助微服務(wù)發(fā)現(xiàn)和調(diào)用其他服務(wù)。而監(jiān)控是確保微服務(wù)健康、穩(wěn)定運(yùn)行的重要手段,可以實(shí)時檢測和報警系統(tǒng)中的異常情況。 對于RPC注冊中心的監(jiān)控

    2024年02月07日
    瀏覽(22)
  • 深度思考rpc框架面經(jīng)之五:rpc熔斷限流、rpc復(fù)用連接機(jī)制

    推薦文章:RPC實(shí)現(xiàn)原理之核心技術(shù)-限流熔斷 限流是一種常見的系統(tǒng)保護(hù)手段。在分布式系統(tǒng)和微服務(wù)架構(gòu)中, 一個接口的過度使用可能會導(dǎo)致資源的過載,例如CPU、內(nèi)存、帶寬等都可能成為瓶頸。為了避免系統(tǒng)崩潰,確保系統(tǒng)的可用性,并為所有用戶提供公平和合理的服務(wù)

    2024年02月11日
    瀏覽(21)
  • 阿里云EMR2.0平臺:讓大數(shù)據(jù)更簡單

    阿里云EMR2.0平臺:讓大數(shù)據(jù)更簡單

    摘要:本文整理自阿里云資深技術(shù)專家李鈺(絕頂)在 阿里云EMR2.0線上發(fā)布會 的分享。本篇內(nèi)容主要分為三個部分: 1.EMR 平臺概述 2.EMR2.0 新平臺核心能力 3.總結(jié) EMR 平臺是開源大數(shù)據(jù)的云原生運(yùn)行環(huán)境,阿里云EMR 根據(jù)云原生的特點(diǎn),在彈性伸縮、穩(wěn)定性、智能化和研發(fā)效能四

    2024年02月12日
    瀏覽(17)
  • 今日思考(2) — 訓(xùn)練機(jī)器學(xué)習(xí)模型用GPU還是NUP更有優(yōu)勢(基于文心一言的回答)

    ? ? ? 深度學(xué)習(xí)用GPU,強(qiáng)化學(xué)習(xí)用NPU。 ? ? ? 在訓(xùn)練深度學(xué)習(xí)模型時, GPU相比NPU有優(yōu)勢 。 GPU擁有更高的訪存速度和更高的浮點(diǎn)運(yùn)算能力,因此更適合深度學(xué)習(xí)中的大量訓(xùn)練數(shù)據(jù)、大量矩陣、卷積運(yùn)算 。GPU雖然在并行計算能力上盡顯優(yōu)勢,但并 不能單獨(dú)工作,需要CPU的協(xié)同

    2024年02月08日
    瀏覽(23)
  • 配置使用云服務(wù)器訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型——在阿里GPU服務(wù)器訓(xùn)練yolov5模型

    配置使用云服務(wù)器訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型——在阿里GPU服務(wù)器訓(xùn)練yolov5模型

    對于沒有GPU訓(xùn)練機(jī)的人來講,使用云服務(wù)器訓(xùn)練自己的模型應(yīng)該最最優(yōu)選擇,只是在訓(xùn)練的時候開個按時計費(fèi)的服務(wù)器,訓(xùn)練完成后保存環(huán)境鏡像之后,可以完全停掉服務(wù)器,期間不產(chǎn)生任何費(fèi)用,下次再訓(xùn)練時,啟動環(huán)境就可以,很容易保護(hù)好自己的訓(xùn)練環(huán)境不受污染。

    2024年02月06日
    瀏覽(53)
  • 【深度學(xué)習(xí)】訓(xùn)練模型結(jié)果同時顯示,模型結(jié)果對比

    【深度學(xué)習(xí)】訓(xùn)練模型結(jié)果同時顯示,模型結(jié)果對比

    碼字不易,如果各位看官感覺該文章對你有所幫助,麻煩點(diǎn)個關(guān)注,如果有任何問題,請留言交流。如需轉(zhuǎn)載,請注明出處,謝謝。 文章鏈接:【深度學(xué)習(xí)】訓(xùn)練模型結(jié)果同時顯示,模型結(jié)果對比_莫克_Cheney的博客-CSDN博客 目錄 目錄 一、問題描述 二、解決方案 三、實(shí)驗(yàn)結(jié)果

    2024年02月09日
    瀏覽(25)
  • 提前終止訓(xùn)練:在語音識別中的潛在影響

    語音識別技術(shù)是人工智能領(lǐng)域的一個重要分支,它涉及到自然語言處理、信號處理、機(jī)器學(xué)習(xí)等多個領(lǐng)域的知識。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,語音識別技術(shù)的性能也得到了顯著提升。然而,深度學(xué)習(xí)模型的訓(xùn)練過程通常需要大量的計算資源和時間,這也限制了其廣泛應(yīng)用。因

    2024年02月22日
    瀏覽(18)
  • Pytorch訓(xùn)練深度強(qiáng)化學(xué)習(xí)時CPU內(nèi)存占用一直在快速增加

    最近在用MATD3算法解決多機(jī)器人任務(wù),但是在訓(xùn)練過程中,CPU內(nèi)存一直在增加(注意,不是GPU顯存)。我很頭疼,以為是算法代碼出了問題,導(dǎo)致了內(nèi)存泄漏,折騰了1天也沒解決。后來用memory_profiler對代碼分析,才發(fā)現(xiàn)是這個函數(shù)占用的內(nèi)存一直在增加: ?def store_transition(

    2024年02月07日
    瀏覽(20)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包