国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

YaRN: Efficient Context Window Extension of Large Language Models

這篇具有很好參考價(jià)值的文章主要介紹了YaRN: Efficient Context Window Extension of Large Language Models。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

本文是LLM系列文章,針對《YaRN: Efficient Context Window Extension of Large Language Models》的翻譯。

摘要

旋轉(zhuǎn)位置嵌入(RoPE)已被證明可以在基于Transformer的語言模型中有效地編碼位置信息。然而,這些模型無法推廣到它們所訓(xùn)練的序列長度。我們提出了YaRN(另一種RoPE擴(kuò)展方法),這是一種擴(kuò)展此類模型上下文窗口的計(jì)算效率高的方法,與以前的方法相比,需要減少10倍的token和2.5倍的訓(xùn)練步驟。使用YaRN,我們表明LLaMA模型可以有效地利用和外推到比其原始預(yù)訓(xùn)練所允許的更長的上下文長度,同時(shí)也超過了以前最先進(jìn)的上下文窗口擴(kuò)展。此外,我們證明了YaRN表現(xiàn)出超越微調(diào)數(shù)據(jù)集的有限上下文進(jìn)行推斷的能力。我們將Llama 2 7B/13B的檢查點(diǎn)發(fā)布在https://github.com/jquesnelle/yarn.

1 引言

2 背景和相關(guān)工作

3 方法

4 實(shí)驗(yàn)

5 結(jié)論

總之,我們已經(jīng)證明,YaRN改進(jìn)了所有現(xiàn)有的RoPE插值方法,可以作為PI的替代品,沒有缺點(diǎn),實(shí)現(xiàn)工作量最小。經(jīng)過微調(diào)的模型在多個(gè)基準(zhǔn)測試上保留了它們的原始能力,同時(shí)能夠處理非常大的上下文大小。此外,YaRN允許在較短的數(shù)據(jù)集上進(jìn)行有效的外推和微調(diào),并可以利用遷移學(xué)習(xí)實(shí)現(xiàn)更快的收斂,這兩者在計(jì)算受限的情況下都是至關(guān)重要的。最后,我們展示了使用YaRN進(jìn)行外推的有效性,它能夠“短時(shí)間訓(xùn)練,長時(shí)間測試”。文章來源地址http://www.zghlxwxcb.cn/news/detail-701430.html

到了這里,關(guān)于YaRN: Efficient Context Window Extension of Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大模型 LLM 綜述, A Survey of Large Language Models

    大模型 LLM 綜述, A Survey of Large Language Models

    一般認(rèn)為NLP領(lǐng)域的大模型=10 Billion參數(shù)(也有人認(rèn)為是6B、7B, 工業(yè)界用, 開始展現(xiàn)涌現(xiàn)能力); 經(jīng)典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型時(shí)間線, 圖來自A Survey of Large Language Models,下同。 2.1 涌現(xiàn) 涌現(xiàn), emerge(abilities), 即一般指在大模型中出現(xiàn)

    2024年02月08日
    瀏覽(38)
  • 【論文精讀】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    【論文精讀】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    當(dāng)下大模型時(shí)代最火的低資源微調(diào)大模型方法之一,方法簡單易懂,道理清晰明了,對未來的工作有很強(qiáng)的啟發(fā)性。如果想要深入了解LoRA的底層原理,建議仔細(xì)看一看這篇文章,如果只是應(yīng)用,那么簡單了解就好了~ 大模型預(yù)訓(xùn)練后的全量微調(diào)往往由于算力缺口而不可行,因

    2024年02月10日
    瀏覽(37)
  • LLM:LoRA: Low-Rank Adaptation of Large Language Models

    LLM:LoRA: Low-Rank Adaptation of Large Language Models

    隨著模型規(guī)模的不斷擴(kuò)大,微調(diào)模型的所有參數(shù)(所謂full fine-tuning)的可行性變得越來越低。以GPT-3的175B參數(shù)為例,每增加一個(gè)新領(lǐng)域就需要完整微調(diào)一個(gè)新模型,代價(jià)和成本很高。 為解決微調(diào)大規(guī)模語言模型到不同領(lǐng)域和任務(wù)的挑戰(zhàn),已有多種方案,比如部分微調(diào)、使用

    2024年02月07日
    瀏覽(20)
  • 大型語言模型綜述,非常詳細(xì),格局打開!A Survey of Large Language Models

    大型語言模型綜述,非常詳細(xì),格局打開!A Survey of Large Language Models

    返回論文和資料目錄 論文地址 項(xiàng)目地址 講得通俗易懂,且格局拉滿!基本覆蓋了自ChatGPT以來的AI比較火的事件,還多次提到強(qiáng)人工智能AGI(人工通用智能)。對近幾年的大型語言模型( Large Language Models)進(jìn)行了詳細(xì)介紹。非常建議感興趣大模型和強(qiáng)人工智能的讀者閱讀??!

    2024年02月08日
    瀏覽(32)
  • Secrets of RLHF in Large Language Models Part I: PPO

    本文是LLM系列文章,針對《Secrets of RLHF in Large Language Models Part I: PPO》的翻譯。 大型語言模型(LLM)為通用人工智能的發(fā)展制定了藍(lán)圖。它的主要目標(biāo)是作為一個(gè)以人為本(樂于助人、誠實(shí)無害)的助手。與人類保持一致具有至關(guān)重要的意義,人類反饋強(qiáng)化學(xué)習(xí)(RLHF)成為支

    2024年02月07日
    瀏覽(25)
  • 論文《LoRA: Low-Rank Adaptation of Large Language Models》閱讀

    論文《LoRA: Low-Rank Adaptation of Large Language Models》閱讀

    今天帶來的是由微軟Edward Hu等人完成并發(fā)表在ICLR 2022上的論文《LoRA: Low-Rank Adaptation of Large Language Models》,論文提出了大模型 tuning 框架 LoRA ( Lo w- R ank A daptation)。 論文地址:https://openreview.net/pdf?id=nZeVKeeFYf9 附錄下載地址:https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

    2024年02月11日
    瀏覽(23)
  • Graph of Thoughts: Solving Elaborate Problems with Large Language Models

    本文是LLM系列文章,針對《Graph of Thoughts: Solving Elaborate Problems with Large Language Models》的翻譯。 我們介紹了思維圖(GoT):這是一個(gè)框架,它將大型語言模型(LLM)中的提示能力提升到思維鏈或思維樹(ToT)等范式之外。GoT的關(guān)鍵思想和主要優(yōu)勢是能夠?qū)LM生成的信息建模為任

    2024年02月11日
    瀏覽(17)
  • 【論文閱讀】LoRA: Low-Rank Adaptation of Large Language Models

    【論文閱讀】LoRA: Low-Rank Adaptation of Large Language Models

    code:GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法: 把預(yù)訓(xùn)練LLMs里面的參數(shù)權(quán)重給 凍結(jié) ; 向transformer架構(gòu)中的每一層, 注入 可訓(xùn)練的 rank decomposition matrices-(低)秩分解矩陣,從而可以顯著地減少下游任務(wù)所需要的可訓(xùn)練參

    2024年02月03日
    瀏覽(27)
  • Bring Your Data!Self- supervised Evolution of Large Language Models

    Bring Your Data!Self- supervised Evolution of Large Language Models

    這篇論文提出了一種自監(jiān)督的評估方式來衡量大型語言模型的能力和局限性。常規(guī)的基于數(shù)據(jù)集的評估方式存在一些缺點(diǎn): 需要不斷新建數(shù)據(jù)集。 存在數(shù)據(jù)集和模型訓(xùn)練數(shù)據(jù)交叉的問題,影響評估結(jié)果。 難以評估模型在實(shí)際部署中的表現(xiàn)。為了彌補(bǔ)這些缺點(diǎn),論文提出了自監(jiān)督

    2024年02月16日
    瀏覽(22)
  • 《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》論文筆記

    《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》論文筆記

    全量參數(shù)微調(diào)在LLM背景下由“不方便”演變?yōu)椤安豢尚衸高昂成本”,基于“收斂的模型參數(shù)可以壓縮到低維空間”的假設(shè): the learned over-parametrized models in fact reside on a low intrinsic dimension. 作者提出LORA(Low Rank Adaptation)方法,其本質(zhì)如下圖所示: h = W x h = Wx h = W x ,其中 x x

    2024年02月13日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包