本文是LLM系列文章,針對《YaRN: Efficient Context Window Extension of Large Language Models》的翻譯。
摘要
旋轉(zhuǎn)位置嵌入(RoPE)已被證明可以在基于Transformer的語言模型中有效地編碼位置信息。然而,這些模型無法推廣到它們所訓(xùn)練的序列長度。我們提出了YaRN(另一種RoPE擴(kuò)展方法),這是一種擴(kuò)展此類模型上下文窗口的計(jì)算效率高的方法,與以前的方法相比,需要減少10倍的token和2.5倍的訓(xùn)練步驟。使用YaRN,我們表明LLaMA模型可以有效地利用和外推到比其原始預(yù)訓(xùn)練所允許的更長的上下文長度,同時(shí)也超過了以前最先進(jìn)的上下文窗口擴(kuò)展。此外,我們證明了YaRN表現(xiàn)出超越微調(diào)數(shù)據(jù)集的有限上下文進(jìn)行推斷的能力。我們將Llama 2 7B/13B的檢查點(diǎn)發(fā)布在https://github.com/jquesnelle/yarn.文章來源:http://www.zghlxwxcb.cn/news/detail-701430.html
1 引言
2 背景和相關(guān)工作
3 方法
4 實(shí)驗(yàn)
5 結(jié)論
總之,我們已經(jīng)證明,YaRN改進(jìn)了所有現(xiàn)有的RoPE插值方法,可以作為PI的替代品,沒有缺點(diǎn),實(shí)現(xiàn)工作量最小。經(jīng)過微調(diào)的模型在多個(gè)基準(zhǔn)測試上保留了它們的原始能力,同時(shí)能夠處理非常大的上下文大小。此外,YaRN允許在較短的數(shù)據(jù)集上進(jìn)行有效的外推和微調(diào),并可以利用遷移學(xué)習(xí)實(shí)現(xiàn)更快的收斂,這兩者在計(jì)算受限的情況下都是至關(guān)重要的。最后,我們展示了使用YaRN進(jìn)行外推的有效性,它能夠“短時(shí)間訓(xùn)練,長時(shí)間測試”。文章來源地址http://www.zghlxwxcb.cn/news/detail-701430.html
到了這里,關(guān)于YaRN: Efficient Context Window Extension of Large Language Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!