到目前為止,我強(qiáng)調(diào)了在開發(fā)應(yīng)用程序時(shí),您通常會(huì)使用現(xiàn)有的LLM。這為您節(jié)省了大量時(shí)間,并可以更快地得到一個(gè)工作原型。
但是,有一種情況下,您可能會(huì)發(fā)現(xiàn)有必要從頭開始預(yù)訓(xùn)練自己的模型。如果您的目標(biāo)領(lǐng)域使用的詞匯和語言結(jié)構(gòu)在日常語言中并不常用,您可能需要進(jìn)行領(lǐng)域適應(yīng)以實(shí)現(xiàn)良好的模型性能。
例如,想象一下您是一個(gè)開發(fā)人員,正在構(gòu)建一個(gè)應(yīng)用程序,幫助律師和律師助理總結(jié)法律摘要。法律寫作使用了非常特定的術(shù)語,如第一個(gè)例子中的"mens rea"和第二個(gè)例子中的"res judicata"。這些詞在法律界外很少使用,這意味著它們不太可能在現(xiàn)有LLM的訓(xùn)練文本中廣泛出現(xiàn)。因此,模型可能難以理解這些術(shù)語或正確使用它們。
另一個(gè)問題是,法律語言有時(shí)在不同的上下文中使用日常詞匯,如第三個(gè)例子中的"consideration"。這與友善無關(guān),而是指的是使協(xié)議可執(zhí)行的合同的主要元素。出于類似的原因,如果您嘗試在醫(yī)療應(yīng)用中使用現(xiàn)有的LLM,可能會(huì)遇到挑戰(zhàn)。
醫(yī)學(xué)語言包含許多不常用的詞匯來描述醫(yī)學(xué)狀況和程序。這些可能不會(huì)經(jīng)常出現(xiàn)在由網(wǎng)絡(luò)抓取和書籍文本組成的訓(xùn)練數(shù)據(jù)集中。有些領(lǐng)域也以高度特異的方式使用語言。
這最后一個(gè)醫(yī)學(xué)語言的例子可能只是一串隨機(jī)字符,但它實(shí)際上是醫(yī)生用來寫處方的速記。這段文字對(duì)于藥劑師來說意義非凡,意思是飯后和睡前口服一片,每天四次。
因?yàn)槟P屯ㄟ^原始預(yù)訓(xùn)練任務(wù)學(xué)習(xí)它們的詞匯和語言理解,所以從頭開始預(yù)訓(xùn)練您的模型將為法律、醫(yī)學(xué)、金融或科學(xué)等高度專業(yè)化的領(lǐng)域產(chǎn)生更好的模型。
現(xiàn)在,讓我們回到BloombergGPT,首次在2023年由Bloomberg的Shijie Wu、Steven Lu和同事們?cè)谝黄撐闹行?。BloombergGPT是一個(gè)已經(jīng)為特定領(lǐng)域預(yù)訓(xùn)練的大型語言模型的例子,這個(gè)領(lǐng)域是金融。
Bloomberg的研究人員選擇將金融數(shù)據(jù)和通用稅務(wù)數(shù)據(jù)結(jié)合起來,預(yù)訓(xùn)練一個(gè)在金融基準(zhǔn)上取得最佳結(jié)果的模型,同時(shí)在通用LLM基準(zhǔn)上保持競(jìng)爭(zhēng)性能。因此,研究人員選擇了由51%的金融數(shù)據(jù)和49%的公共數(shù)據(jù)組成的數(shù)據(jù)。
在他們的論文中,Bloomberg的研究人員更詳細(xì)地描述了模型的架構(gòu)。他們還討論了他們是如何從Chinchilla的縮放法則開始尋求指導(dǎo),以及他們?cè)谀睦锊坏貌蛔龀鰴?quán)衡。
這兩張圖比較了包括BloombergGPT在內(nèi)的一些LLM與研究人員討論的縮放法則。
左邊,對(duì)角線追蹤了一系列計(jì)算預(yù)算的最佳模型大小,以十億參數(shù)為單位。
右邊,線追蹤了計(jì)算最佳訓(xùn)練數(shù)據(jù)集大小,以令牌數(shù)量為單位。
每張圖上的虛線粉紅線表示Bloomberg團(tuán)隊(duì)用于訓(xùn)練新模型的計(jì)算預(yù)算。
粉紅色陰影區(qū)域?qū)?yīng)于Chinchilla論文中確定的計(jì)算最佳縮放損失。
在模型大小方面,您可以看到BloombergGPT大致遵循了給定計(jì)算預(yù)算為130萬GPU小時(shí),或大約2.3億petaflops的Chinchilla方法。模型只是略高于粉紅色陰影區(qū)域,表明參數(shù)數(shù)量接近最佳。
然而,用于預(yù)訓(xùn)練BloombergGPT的實(shí)際令牌數(shù)量為5690億,低于可用計(jì)算預(yù)算的推薦Chinchilla值。小于最佳的訓(xùn)練數(shù)據(jù)集是由于金融領(lǐng)域數(shù)據(jù)的有限可用性。
顯示實(shí)際約束可能迫使您在預(yù)訓(xùn)練自己的模型時(shí)做出權(quán)衡。
恭喜您完成了第一周的學(xué)習(xí),您已經(jīng)涵蓋了很多內(nèi)容,所以讓我們花一分鐘回顧一下您所看到的。
-
Mike帶您了解了LLM的一些常見用途,如寫作、對(duì)話摘要和翻譯。
-
然后,他詳細(xì)介紹了為這些模型提供動(dòng)力的Transforms架構(gòu)。
-
并討論了您在推理時(shí)可以使用的一些參數(shù)來影響模型的輸出。
-
他總結(jié)了一個(gè)您可以用來計(jì)劃和指導(dǎo)應(yīng)用程序開發(fā)工作的生成性AI項(xiàng)目生命周期。
-
接下來,您看到了模型在一個(gè)稱為預(yù)訓(xùn)練的初始訓(xùn)練階段如何在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練。這是模型發(fā)展其語言理解的地方。
-
您探討了訓(xùn)練這些模型的計(jì)算挑戰(zhàn),這些挑戰(zhàn)是很大的。
-
在實(shí)踐中,由于GPU內(nèi)存限制,您幾乎總是在訓(xùn)練模型時(shí)使用某種形式的量化。
-
您本周結(jié)束時(shí)討論了LLM的縮放法則以及如何使用它們?cè)O(shè)計(jì)計(jì)算最佳模型。
如果您想閱讀更多的細(xì)節(jié),請(qǐng)務(wù)必查看本周的閱讀練習(xí)。文章來源:http://www.zghlxwxcb.cn/news/detail-668307.html
參考
https://www.coursera.org/learn/generative-ai-with-llms/lecture/BMxlN/pre-training-for-domain-adaptation文章來源地址http://www.zghlxwxcb.cn/news/detail-668307.html
到了這里,關(guān)于LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!