国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

這篇具有很好參考價(jià)值的文章主要介紹了上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

本文首發(fā)于微信公眾號(hào) CVHub,未經(jīng)授權(quán)不得以任何形式售賣或私自轉(zhuǎn)載到其它平臺(tái),違者必究!

上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

Title: LLaMA-Adapter: Efficient Fine-tuning of Language Models with Zero-init Attention

Code: https://github.com/zrrskywalker/llama-adapter

PDF: https://arxiv.org/pdf/2303.16199.pdf

導(dǎo)讀

Instruction-Following指令跟隨方法:是指通過(guò)使用高質(zhì)量的任務(wù)指令及其對(duì)應(yīng)的輸出,作為一些輸入輸出對(duì),來(lái)進(jìn)行模型微調(diào),從而增強(qiáng)預(yù)訓(xùn)練模型以幫助模型更好地理解用戶意圖,生成更為準(zhǔn)確的回答。

本文主要介紹了一種名為LLaMA-Adapter的輕量級(jí)適配方法,可以高效地將LLaMA模型微調(diào)為指令跟隨模型Instruction-Following。該項(xiàng)目通過(guò)使用52k的self-instruction訓(xùn)練數(shù)據(jù),凍結(jié)LLaMA 7B模型參數(shù),并引入1.2M可學(xué)習(xí)參數(shù),在8個(gè)A100 GPU上的微調(diào)時(shí)間不到1小時(shí)即可將LLaMA調(diào)整為良好的指令跟隨模型,并且支持多模態(tài)(文本與圖像)輸入。LLaMA-Adapter可以自適應(yīng)地將新的指令提示注入LLaMA中,同時(shí)有效地保留其預(yù)訓(xùn)練的知識(shí)不被破壞。 通過(guò)高效的訓(xùn)練,LLaMA-Adapter可以生成高質(zhì)量的響應(yīng)結(jié)果,其效果與完全微調(diào)7B參數(shù)的Alpaca相當(dāng)。

引言

Alpaca利用大規(guī)模語(yǔ)言模型LLMsself-instruction學(xué)習(xí)的方法,將LLMs Fine-tune為指令跟隨模型。該模型可以理解并回答自然語(yǔ)言中的指令或命令。然而,LLMs完整的Fine-tune計(jì)算非常耗時(shí),且不支持多模態(tài),并且不易轉(zhuǎn)移到不同的下游任務(wù)。 因此,本文介紹了一種名為LLaMA-Adapter的輕量級(jí)適應(yīng)方法,該方法可以在LLaMA的基礎(chǔ)上進(jìn)行Fine-tune以更高效地將其轉(zhuǎn)換為指令跟隨模型,并且可以擴(kuò)展到多模態(tài)輸入。這種方法引入了可學(xué)習(xí)的適應(yīng)提示,并將它們預(yù)置到更高的transformer層的輸入文本標(biāo)記中。通過(guò)零初始化的注意力機(jī)制和零門(mén)控機(jī)制,適應(yīng)性地將新的指令提示注入LLaMA中,同時(shí)有效地保留其預(yù)訓(xùn)練知識(shí),從而生成高質(zhì)量的響應(yīng)。

相比全微調(diào)的Alpaca模型,LLaMA-Adapter提高了資源利用率。具體而言:在LLaMA較高的transformer層中,添加一組可學(xué)習(xí)的適應(yīng)性提示作為前綴prefix,以注入新的指令到LLaMA中。為了避免在早期訓(xùn)練階段來(lái)自適應(yīng)提示的噪聲,作者修改了插入層的vanilla注意機(jī)制,將其作為可學(xué)習(xí)的門(mén)控因子進(jìn)行零初始化。將門(mén)控因子通過(guò)零向量初始化,可以保留LLaMA中的原始知識(shí),并在訓(xùn)練期間逐步融入指令信號(hào)。這有助于穩(wěn)定學(xué)習(xí)過(guò)程,并提高最終模型的指令跟隨能力。

總的來(lái)說(shuō),LLaMA-Adapter具有以下四個(gè)主要特點(diǎn):

  1. 僅更新1.2M個(gè)參數(shù)。 相比于更新完整的7B參數(shù),本項(xiàng)目在訓(xùn)練過(guò)程中凍結(jié)了預(yù)訓(xùn)練的LLaMA參數(shù),并僅學(xué)習(xí)和更新頂端的適應(yīng)性提示層參數(shù)(1.2M個(gè)參數(shù))。結(jié)果表明它具有與7B Alpaca相當(dāng)?shù)闹噶罡S能力。
  2. 僅微調(diào)一小時(shí)。 由于輕量級(jí)參數(shù)和零初始化門(mén)控機(jī)制,LLaMA-Adapter的收斂成本少于一小時(shí),在8個(gè)A100 GPU上快于Alpaca三倍。
  3. 兼容性和靈活性高。 對(duì)于不同的場(chǎng)景或下游任務(wù),只需插入相應(yīng)的適配器,就可為LLaMA注入不同的專業(yè)知識(shí),所以這種適配器的方法是非常靈活的。因此,只需要為每個(gè)不同的下游任務(wù)配置一個(gè)1.2M的適配器,再共同連接一個(gè)7B模型,即可實(shí)現(xiàn)不同任務(wù)的適配,這種方式是非常靈活的。
  4. 支持多模態(tài)。 除了文本指令外,LLaMA-Adapter還可以擴(kuò)展到圖像輸入進(jìn)行多模態(tài)推理。通過(guò)簡(jiǎn)單地將圖像token添加到適應(yīng)提示層中,LLaMA-Adapter在ScienceQA基準(zhǔn)測(cè)試中表現(xiàn)出極具競(jìng)爭(zhēng)力的結(jié)果。

方法

Learnable Adaption Prompts

基于 52 K 52K 52K條指令-輸出數(shù)據(jù)和一個(gè)預(yù)訓(xùn)練的 N N N 層 LLaMA transformer 模型,使用一組可學(xué)習(xí)的適應(yīng)性提示進(jìn)行指令跟隨 fine-tuning。作者將每個(gè) transformer 層的適應(yīng)性提示表示為 P l l = 1 L {P_l}_{l=1}^L Pl?l=1L?,其中 P l ∈ R K × C P_l \in \mathbb{R}^{K\times C} Pl?RK×C, K K K 表示每個(gè)層的提示長(zhǎng)度, C C C 等于 LLaMA transformer 的特征維度。這些prompts被插入到 transformer 最上面的 L L L 層中 ( L ≤ N L \leq N LN),以更好地調(diào)整具有高層語(yǔ)義的語(yǔ)言表示。

上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

如上公式所示, P l ∈ R K × C P_l \in R^{K \times C} Pl?RK×C 表示第 l l l 層的適應(yīng)性提示, K K K 表示每個(gè)層的提示長(zhǎng)度, C C C 等于 LLaMA transformer 的特征維度。 T l T_l Tl? 表示第 l l l 層的長(zhǎng)度為 M M M 單詞token。適應(yīng)性提示將沿著token維度作為前綴與 T l T_l Tl? 進(jìn)行連接,以此來(lái)指導(dǎo)生成上下文響應(yīng)。

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

LLaMA-Adapter模型可以通過(guò)輕量級(jí)的適配器來(lái)對(duì)預(yù)訓(xùn)練的LLaMA語(yǔ)言模型進(jìn)行fine-tuning,使其適應(yīng)指令跟隨任務(wù)。適配器由可學(xué)習(xí)的提示層組成,并且插入到LLaMA的N個(gè)transformer層中的L out層。通過(guò)零初始化的注意力和門(mén)控機(jī)制,適應(yīng)提示層Adaption Prompt可以逐步學(xué)習(xí)新的指令提示,而不干擾原有的預(yù)訓(xùn)練知識(shí)。
:::

Zero-init Attention

LLaMA-Adapter模型框架適配器機(jī)制通過(guò)在預(yù)訓(xùn)練語(yǔ)言模型的基礎(chǔ)上,增加用于新任務(wù)的小量特定參數(shù),從而提高其在多領(lǐng)域下的表現(xiàn)。其中,作者提出了零初始化注意力機(jī)制,避免了在訓(xùn)練初期,隨機(jī)初始化的適配器帶來(lái)的干擾,從而損害微調(diào)穩(wěn)定性和有效性。作者提出了一個(gè)基于零初始化的注意力機(jī)制,并使用QKV機(jī)制使用可學(xué)習(xí)的門(mén)控因子自適應(yīng)地控制注意力機(jī)制中適應(yīng)性提示。在該機(jī)制下,作者對(duì)注意力得分進(jìn)行了重組,以便根據(jù)門(mén)控因子自適應(yīng)地調(diào)節(jié)適應(yīng)性提示的作用,從而逐步將新獲得的教學(xué)知識(shí)注入到LLaMA中。最終,通過(guò)線性投影層計(jì)算注意層的輸出,并將其與預(yù)訓(xùn)練能力結(jié)合起來(lái),提供高質(zhì)量的響應(yīng)能力。

Multi-modal Reasoning

LLaMA-Adapter 不僅限于文本指令,還能夠基于其它模態(tài)的輸入回答問(wèn)題,這為語(yǔ)言模型增加了豐富的跨模態(tài)信息。如下圖3所示,我們以 ScienceQA 基準(zhǔn)測(cè)試為例。給定視覺(jué)和文本上下文,以及相應(yīng)的問(wèn)題和選項(xiàng),模型需要進(jìn)行多模態(tài)推理以給出正確的答案。

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

上圖展示了LLaMA-Adapter在處理多模態(tài)輸入上的框架圖,在 ScienceQA 基準(zhǔn)測(cè)試上,可將LLaMA-Adapter擴(kuò)展為圖像問(wèn)答模式,在給定的圖像視覺(jué)上下文中,通過(guò)多尺度連接和投影來(lái)獲取全局圖像 token。然后對(duì)插入層L的適應(yīng)提示逐元素加上圖像 token。通過(guò)這種方式,LLaMA-Adapter 模型在基于多模態(tài)輸入下實(shí)現(xiàn)了有競(jìng)爭(zhēng)力的生成結(jié)果。
:::

作為一個(gè)通用框架,LLaMA-Adapter 還可以擴(kuò)展到視頻和音頻模態(tài)。使用預(yù)訓(xùn)練的模態(tài)特定編碼器,我們可以將不同模態(tài)的指令信號(hào)集成到適應(yīng)性提示中,從而進(jìn)一步最大化 LLaMA 的理解和生成能力。

實(shí)驗(yàn)結(jié)果

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

這里將LLaMA-Adapter和一些代表性的指令跟隨方法Alphaca進(jìn)行了比較,并與Alpaca-LoRAGPT-3進(jìn)行了全面比較。由于缺乏嚴(yán)格的評(píng)估指標(biāo),這里只展示某些例子。如上圖所示,通過(guò)僅微調(diào)1.2M個(gè)參數(shù),LLaMA-Adapter方法生成了合理的響應(yīng),可與全參數(shù)微調(diào)的Alpaca和大規(guī)模的GPT-3相媲美。這充分證明了適配器和零初始化注意機(jī)制的有效性。
:::

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

這里將LLaMA-Adapter與LLaMA-I(即在大規(guī)模指令數(shù)據(jù)上微調(diào)的LLaMA-65B)進(jìn)行了比較。如圖所示,LLaMA-Adapter能夠完成各種復(fù)雜任務(wù),如對(duì)話生成、代碼生成和問(wèn)題回答等。另外,LLaMa-Adapter還可以通過(guò)結(jié)合更大的LLaMA模型、增加訓(xùn)練數(shù)據(jù)量和擴(kuò)大可學(xué)習(xí)參數(shù)的規(guī)模來(lái)進(jìn)一步提升性能。
:::

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

在上Table 3中,作者對(duì)不同指令跟隨方法(AlpacaAlpaca-LoRA)的可學(xué)習(xí)參數(shù)、存儲(chǔ)空間和訓(xùn)練時(shí)間進(jìn)行了比較。LLaMA-Adapter作為一種輕量級(jí)的即插即用模塊,僅有1.2M的參數(shù)、4.9M的存儲(chǔ)空間和1小時(shí)的訓(xùn)練時(shí)間。這使得我們能夠在廉價(jià)和移動(dòng)設(shè)備上對(duì)大規(guī)模語(yǔ)言模型LLaMA進(jìn)行高效微調(diào)。
:::

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

在上Table 2中,作者將LLaMA-Adapter與其它較為流行的視覺(jué)問(wèn)答模型進(jìn)行了比較,并發(fā)現(xiàn)LLaMA-Adapter的單模態(tài)變體可以在只有1.2M參數(shù)的情況下實(shí)現(xiàn)78.31%的準(zhǔn)確率。在注入視覺(jué)信息之后,LLaMA-Adapter的多模態(tài)變體獲得了6.88%的準(zhǔn)確率提高。與GPT-3相比,LLaMA-Adapter的參數(shù)數(shù)量較少,但性能仍然表現(xiàn)良好,尤其是在使用視覺(jué)信息時(shí)。此外,LLaMA-Adapter的多模態(tài)變體可以更容易地將視覺(jué)信息整合到模型中,從而實(shí)現(xiàn)更高的準(zhǔn)確性。

上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

上圖Figure 4展示了LLaMA-Adapter處理多模態(tài)輸入時(shí)的一些例子,其中視覺(jué)信息作為一種context上下文注入到模型中。
:::

::: block-1
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)
上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)

以上分別展示了Adapter中transformer層的數(shù)量消融實(shí)驗(yàn)(層數(shù)越多,可學(xué)習(xí)參數(shù)越大,精度一般越高);Zero-init Attention和隨機(jī)Rand-init Attention的精度對(duì)比(Zero-init attention顯著優(yōu)于Rand-init attention);以及在訓(xùn)練過(guò)程中,Zero-init Attention和隨機(jī)Rand-init Attention的Loss曲線變化
:::

結(jié)論

本文介紹了一種名為LLaMA-Adapter的輕量級(jí)適配方法,僅引入1.2M可學(xué)習(xí)參數(shù),微調(diào)一小時(shí)即可將LLaMA調(diào)整為一個(gè)支持下游任務(wù)的良好模型,同時(shí)支持多模態(tài)(文本與圖像)輸入,并有效保留其原有預(yù)訓(xùn)練知識(shí)不被破壞。對(duì)于不同的場(chǎng)景或下游任務(wù),只需在大模型前額外插入相應(yīng)的適配器Adapter,即可為LLaMA注入不同領(lǐng)域的知識(shí),兼容性與靈活性非常高。 歡迎各位嘗試?。硗?,LLaMA-Adapter V2版本已出,感興趣的讀者也可嘗試)


即日起,CVHub 正式開(kāi)通知識(shí)星球,首期提供以下服務(wù):文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-489251.html

  1. 本星球主打知識(shí)問(wèn)答服務(wù),包括但不僅限于算法原理項(xiàng)目實(shí)戰(zhàn)、職業(yè)規(guī)劃科研思想等。
  2. 本星球秉持高質(zhì)量AI技術(shù)分享,涵蓋:每日優(yōu)質(zhì)論文速遞,優(yōu)質(zhì)論文解讀知識(shí)點(diǎn)總結(jié)等。
  3. 本星球力邀各行業(yè)AI大佬,提供各行業(yè)經(jīng)驗(yàn)分享,星球內(nèi)部成員可深度了解各行業(yè)學(xué)術(shù)/產(chǎn)業(yè)最新進(jìn)展。
  4. 本星球不定期分享學(xué)術(shù)論文思路,包括但不限于Challenge分析,創(chuàng)新點(diǎn)挖掘,實(shí)驗(yàn)配置,寫(xiě)作經(jīng)驗(yàn)等。
  5. 本星球提供大量 AI 崗位就業(yè)招聘資源,包括但不限于CVNLP,AIGC等;同時(shí)不定期分享各類實(shí)用工具干貨資料等。

到了這里,關(guān)于上海人工智能實(shí)驗(yàn)室發(fā)布LLaMA-Adapter | 如何1小時(shí)訓(xùn)練你的多模態(tài)大模型用于下游任務(wù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包