2020年,OpenAI提出了在增加模型尺寸與提高模型性能之間的擴展定律,指出人們應(yīng)該將大部分預(yù)算用于擴大模型規(guī)模。這篇論文直接推動了增大模型規(guī)模的浪潮。然而,在預(yù)算和內(nèi)存有限的情況下,盲目擴大模型規(guī)模并不是提升模型性能的最佳選擇。
?
2022年,DeepMind團隊發(fā)表了一篇論文(https://arxiv.org/pdf/2203.15556.pdf),文中對比了模型大小和訓(xùn)練數(shù)據(jù),最終結(jié)論是:多數(shù)語言模型明顯訓(xùn)練不足。也就是說,在不增加模型大小的情況下,在更大的數(shù)據(jù)集上訓(xùn)練模型將受益匪淺。文中,DeepMind團隊訓(xùn)練了一個相對較小的LLM,名為Chinchilla,這個模型只有700億個參數(shù),但卻有1.4萬億個訓(xùn)練token。經(jīng)過訓(xùn)練,Chinchilla模型的性能超越了諸如GPT-3、Gopher、Jurassic-1和MT-NLG等更大的語言模型,這些語言模型的參數(shù)都在1750億-5300億之間,但訓(xùn)練token卻在2700億-3000億之間。
更小的模型參數(shù)意味著更低的推理成本和更小的內(nèi)存占用,實際上,對于大部分用例來說,小型語言模型的性價比更高。本文就從數(shù)學(xué)角度推算了為何在更多token上訓(xùn)練更小的LLM是更優(yōu)選擇。(以下內(nèi)容在遵循CC BY-NC-SA 4.0協(xié)議的基礎(chǔ)上由OneFlow編譯發(fā)布,譯文轉(zhuǎn)載請聯(lián)系OneFlow獲得授權(quán)。原文:https://www.harmdevries.com/post/model-size-vs-compute-overhead/)
作者|Harm de Vries
OneFlow編譯
翻譯|楊婷、徐佳渝
當(dāng)我們使用大型計算集群來訓(xùn)練大型語言模型(LLM),通常需要考慮計算(資源)預(yù)算的分配問題。具體來說,就是考慮如何確定模型參數(shù)的數(shù)量N及訓(xùn)練token數(shù)量D。
我們可以利用擴展定律(scaling laws)來獲得相關(guān)指導(dǎo),既可以在給定的計算(資源)預(yù)算C的條件下,如何把C分配給參數(shù)數(shù)量和訓(xùn)練token數(shù)量
從而使模型達(dá)到最佳性能;也可以在給定模型性能的條件下,平衡參數(shù)數(shù)據(jù)量N和訓(xùn)練token數(shù)量D,從而使得計算預(yù)算C最小,我們可以把計算預(yù)算C最小的LLM稱為計算量最優(yōu)的LMM。
然而,對大多數(shù)用例而言,我們不一定要去訓(xùn)練計算量最優(yōu)的LLM,而應(yīng)投入一定的額外計算(資源)來訓(xùn)練一個同等性能但更小的模型。小型模型的推理速度更快同時推理價格也更低,對GPU資源有限的開發(fā)人員和研究人員來說運行也更容易。
盡管許多LLM從業(yè)者訓(xùn)練模型的token數(shù)量比Chinchilla擴展定律(譯者注:Hoffmann等人(2022)重新審視了Kaplan等人的擴展定律。表明用較小的模型對更多數(shù)據(jù)進(jìn)行訓(xùn)練可能更有效,從而產(chǎn)生了參數(shù)效率提高的70B參數(shù)模型Chinchilla)建議的token數(shù)量多得多,但不是所有人員都清楚擴展定律為何對模型訓(xùn)練有幫助,它能讓我們確定可以訓(xùn)練出多小的模型以及需要多少額外的計算(資源)。
本篇博客將概述如何推導(dǎo)模型大小與計算(資源)額外開銷之間的權(quán)衡(trade-off)關(guān)系,同時揭示了有辦法在最小化額外開銷的條件下可以大大縮減計算量最優(yōu)模型的大小。然而,如果模型大小的縮減超出一定閾值,即使增加計算資源,也無法維持特定的模型性能,我們可以把這個模型的閾值稱之為臨界模型大小(critical model size)。
我的分析表明,臨界模型大小大約降低到計算量最優(yōu)模型大小的30%,而只增加了100%的額外計算開銷。值得注意的是,近來的模型尚未達(dá)到這一點,例如訓(xùn)練了1T個token的LLaMa-7B模型,這表明訓(xùn)練“更小”的LLM仍有充足的空間,但需要延長訓(xùn)練時間。
?1
回顧Chinchilla擴展定律文章來源:http://www.zghlxwxcb.cn/news/detail-463292.html
根據(jù)Chinchilla評估擴展定律的第三種方法,作者認(rèn)為損失可以建模為參數(shù)數(shù)量和訓(xùn)練所用token數(shù)量的函數(shù):文章來源地址http://www.zghlxwxcb.cn/news/detail-463292.html
到了這里,關(guān)于推演語言模型的大小與計算開銷的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!