前言
如果你對這篇文章感興趣,可以點(diǎn)擊「【訪客必讀 - 指引頁】一文囊括主頁內(nèi)所有高質(zhì)量博客」,查看完整博客分類與對應(yīng)鏈接。
大模型的涌現(xiàn)能力 (Emergent Ability)
下圖是模型性能(Loss for next token prediction)與「參數(shù)量」和「數(shù)據(jù)集大小」之間的關(guān)系,可以看出隨著「參數(shù)量」和「數(shù)據(jù)集大小」不斷變大,模型性能不斷增強(qiáng),仿佛不會遇到瓶頸。
下圖展現(xiàn)了大模型的涌現(xiàn)能力,即語言模型的性能隨著參數(shù)量增加并不是線性關(guān)系,而是突然躍升,即涌現(xiàn)。在未達(dá)到門檻之前,性能一直在隨機(jī)的水平徘徊。
Calibration
在上面的實驗圖中,Calibration 指「模型置信度」與「真實概率」之間的關(guān)系,即滿足「置信度高 -> 正確」、「置信度低 -> 可能錯誤」的模型,其 Calibration 指標(biāo)越好。
因此 Calibration 實際上對應(yīng)著「模型是否知道自己錯了」這件事,如下圖所示,不同參數(shù)量的模型對應(yīng)不同的顏色,可以看到模型越大,其對自己是否出錯的把握越大,即「模型置信度」與「真實概率」更為貼合。
Inverse Scaling Prize
一個比賽,獎金懸賞,尋找能讓「模型越大,性能越差」的任務(wù)。
在這個比賽的任務(wù)中,許多之前的 “大模型” 隨著參數(shù)量變大,其性能確實變差了,但當(dāng)拿出更大的模型之后,其性能又好了起來,并產(chǎn)生了一段 U 型曲線。
這個比賽中的任務(wù),一般都是「具體誤導(dǎo)性的」,例如下述這個例子:
因此對于上述這種 U 型曲線,一種猜測是:這些任務(wù)里通常包含著一些誤導(dǎo)任務(wù),例如上述的 5 元,當(dāng)模型還沒有很大的時候,由于一知半解,就會接受被誤導(dǎo)的方法,進(jìn)而使其比隨機(jī)效果還要差,但當(dāng)其變得足夠大時,就會得到真正的結(jié)果,類似于上述的計算期望值。
Switch Transformer
Switch Transformer 模型參數(shù)量為 1.6T(GPT-3 為 1750 億,GPT-3.5 為 2000 億),其使用了 Mixture-of-expert 的結(jié)構(gòu),即在模型推斷(Inference)的時候,選取不同的 Module,進(jìn)而加快推斷速度。
大數(shù)據(jù)的重要性
足夠大量的數(shù)據(jù)才能讓模型學(xué)會「常識,即世界知識」,如下圖所示,橫坐標(biāo)為數(shù)據(jù)量。
數(shù)據(jù)集準(zhǔn)備過程:
- 過濾有害內(nèi)容(google 安全搜索)
- 去除 HTML 標(biāo)簽
- 用規(guī)則去除低品質(zhì)數(shù)據(jù)
- 去除重復(fù)數(shù)據(jù)
- 過濾出測試集(例如 GPT-3 就未過濾出測試集)
「大模型」還是「大數(shù)據(jù)」
在固定的運(yùn)算資源時,應(yīng)該優(yōu)先「大模型」還是「大數(shù)據(jù)」?看目前的趨勢,模型大小越來越大,但訓(xùn)練數(shù)據(jù)量并沒有明顯變化。
根據(jù)下圖(顏色代表固定的運(yùn)算資源,橫坐標(biāo)為參數(shù)量,參數(shù)量越大,數(shù)據(jù)量越?。梢园l(fā)現(xiàn)「大模型」和「大數(shù)據(jù)」需要取得平衡,只增加模型大小,不增加算力,只會讓訓(xùn)練結(jié)果變得更差。
每個 U 型曲線取一個最低點(diǎn),得到下圖所示的算力與參數(shù)量(Parameters)和數(shù)據(jù)量(Tokens)之間的關(guān)系。
根據(jù)上述估計圖,Google 重新估計了 Gopher(參數(shù)量為 280 Billion,數(shù)據(jù)量為 300 Billion) 對應(yīng)的算力下,應(yīng)該采取的參數(shù)量和數(shù)據(jù)量方案,于是訓(xùn)練得到了 Chinchilla(參數(shù)量為 63 Billon,數(shù)據(jù)量為 1.4 Trillion)。對比之后,發(fā)現(xiàn) Chinchilla 大勝 Gopher。
根據(jù)上述結(jié)果,進(jìn)一步給出了具體的「參數(shù)量」與「數(shù)據(jù)量」之間的關(guān)系:
最新的 LLaMA 也采用了這種「減少參數(shù)量,擴(kuò)大數(shù)據(jù)量」的方案:
KNN LM
通常來說,語言模型在做一個分類問題,即輸入為「清華大」,輸出為各個候選詞的概率,隨后選出概率最高的詞即可。
如下所示,Transformer 得到 Text 的 Embedding,隨后通過線性層 + softmax 轉(zhuǎn)換為分類問題。
與之對比,KNN LM 在得到 Repesentation 后,不僅訓(xùn)練了一個分類器,還將測試 Text 的 Repesentation 與訓(xùn)練數(shù)據(jù)得到的 Repesentation 進(jìn)行距離計算,并根據(jù)距離得到下一個詞的預(yù)測概率,再與原始分類器結(jié)合起來,得到最終結(jié)果。文章來源:http://www.zghlxwxcb.cn/news/detail-434507.html
另外,KNN LM 可以拿任意資料與測試 Text 的 Representation 計算距離,并不局限于訓(xùn)練數(shù)據(jù)。因此 KNN LM 這種機(jī)制可以使模型訓(xùn)練時更專注于一些難度更高的問題,對于一些僅需記憶的問題則可以通過這種方式解決。文章來源地址http://www.zghlxwxcb.cn/news/detail-434507.html
參考資料
- Hung-yi Lee:生成式 AI(一)
- Scaling Laws for Neural Language Models
- Emergent Abilities of Large Language Models
- Inverse scaling can become U-shaped
- Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
- When Do You Need Billions of Words of Pretraining Data?
- Scaling Language Models: Methods, Analysis & Insights from Training Gopher
- Deduplicating Training Data Makes Language Models Better
- Training Compute-Optimal Large Language Models
- Scaling Instruction-Finetuned Language Models
- Introduction of ChatGPT
- Training language models to follow instructions with human feedback
- Learning to summarize from human feedback
- Ggeneralization Through Memorization: Nearest Neighbor Language Models
- Language Is Not All You Need: Aligning Perception with Language Models
到了這里,關(guān)于生成式 AI 分析:大模型 + 大量數(shù)據(jù)的神奇效果的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!