国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation

這篇具有很好參考價(jià)值的文章主要介紹了LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

到目前為止,我強(qiáng)調(diào)了在開發(fā)應(yīng)用程序時(shí),您通常會(huì)使用現(xiàn)有的LLM。這為您節(jié)省了大量時(shí)間,并可以更快地得到一個(gè)工作原型。

但是,有一種情況下,您可能會(huì)發(fā)現(xiàn)有必要從頭開始預(yù)訓(xùn)練自己的模型。如果您的目標(biāo)領(lǐng)域使用的詞匯和語言結(jié)構(gòu)在日常語言中并不常用,您可能需要進(jìn)行領(lǐng)域適應(yīng)以實(shí)現(xiàn)良好的模型性能。

例如,想象一下您是一個(gè)開發(fā)人員,正在構(gòu)建一個(gè)應(yīng)用程序,幫助律師和律師助理總結(jié)法律摘要。法律寫作使用了非常特定的術(shù)語,如第一個(gè)例子中的"mens rea"和第二個(gè)例子中的"res judicata"。這些詞在法律界外很少使用,這意味著它們不太可能在現(xiàn)有LLM的訓(xùn)練文本中廣泛出現(xiàn)。因此,模型可能難以理解這些術(shù)語或正確使用它們。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

另一個(gè)問題是,法律語言有時(shí)在不同的上下文中使用日常詞匯,如第三個(gè)例子中的"consideration"。這與友善無關(guān),而是指的是使協(xié)議可執(zhí)行的合同的主要元素。出于類似的原因,如果您嘗試在醫(yī)療應(yīng)用中使用現(xiàn)有的LLM,可能會(huì)遇到挑戰(zhàn)。

醫(yī)學(xué)語言包含許多不常用的詞匯來描述醫(yī)學(xué)狀況和程序。這些可能不會(huì)經(jīng)常出現(xiàn)在由網(wǎng)絡(luò)抓取和書籍文本組成的訓(xùn)練數(shù)據(jù)集中。有些領(lǐng)域也以高度特異的方式使用語言。

這最后一個(gè)醫(yī)學(xué)語言的例子可能只是一串隨機(jī)字符,但它實(shí)際上是醫(yī)生用來寫處方的速記。這段文字對(duì)于藥劑師來說意義非凡,意思是飯后和睡前口服一片,每天四次。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

因?yàn)槟P屯ㄟ^原始預(yù)訓(xùn)練任務(wù)學(xué)習(xí)它們的詞匯和語言理解,所以從頭開始預(yù)訓(xùn)練您的模型將為法律、醫(yī)學(xué)、金融或科學(xué)等高度專業(yè)化的領(lǐng)域產(chǎn)生更好的模型。

現(xiàn)在,讓我們回到BloombergGPT,首次在2023年由Bloomberg的Shijie Wu、Steven Lu和同事們?cè)谝黄撐闹行?。BloombergGPT是一個(gè)已經(jīng)為特定領(lǐng)域預(yù)訓(xùn)練的大型語言模型的例子,這個(gè)領(lǐng)域是金融。

Bloomberg的研究人員選擇將金融數(shù)據(jù)和通用稅務(wù)數(shù)據(jù)結(jié)合起來,預(yù)訓(xùn)練一個(gè)在金融基準(zhǔn)上取得最佳結(jié)果的模型,同時(shí)在通用LLM基準(zhǔn)上保持競(jìng)爭(zhēng)性能。因此,研究人員選擇了由51%的金融數(shù)據(jù)和49%的公共數(shù)據(jù)組成的數(shù)據(jù)。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

在他們的論文中,Bloomberg的研究人員更詳細(xì)地描述了模型的架構(gòu)。他們還討論了他們是如何從Chinchilla的縮放法則開始尋求指導(dǎo),以及他們?cè)谀睦锊坏貌蛔龀鰴?quán)衡。

這兩張圖比較了包括BloombergGPT在內(nèi)的一些LLM與研究人員討論的縮放法則。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

左邊,對(duì)角線追蹤了一系列計(jì)算預(yù)算的最佳模型大小,以十億參數(shù)為單位。

右邊,線追蹤了計(jì)算最佳訓(xùn)練數(shù)據(jù)集大小,以令牌數(shù)量為單位。

每張圖上的虛線粉紅線表示Bloomberg團(tuán)隊(duì)用于訓(xùn)練新模型的計(jì)算預(yù)算。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

粉紅色陰影區(qū)域?qū)?yīng)于Chinchilla論文中確定的計(jì)算最佳縮放損失。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

在模型大小方面,您可以看到BloombergGPT大致遵循了給定計(jì)算預(yù)算為130萬GPU小時(shí),或大約2.3億petaflops的Chinchilla方法。模型只是略高于粉紅色陰影區(qū)域,表明參數(shù)數(shù)量接近最佳。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

然而,用于預(yù)訓(xùn)練BloombergGPT的實(shí)際令牌數(shù)量為5690億,低于可用計(jì)算預(yù)算的推薦Chinchilla值。小于最佳的訓(xùn)練數(shù)據(jù)集是由于金融領(lǐng)域數(shù)據(jù)的有限可用性。
LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

顯示實(shí)際約束可能迫使您在預(yù)訓(xùn)練自己的模型時(shí)做出權(quán)衡。

恭喜您完成了第一周的學(xué)習(xí),您已經(jīng)涵蓋了很多內(nèi)容,所以讓我們花一分鐘回顧一下您所看到的。

  1. Mike帶您了解了LLM的一些常見用途,如寫作、對(duì)話摘要和翻譯。
    LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

  2. 然后,他詳細(xì)介紹了為這些模型提供動(dòng)力的Transforms架構(gòu)。

  3. 并討論了您在推理時(shí)可以使用的一些參數(shù)來影響模型的輸出。

  4. 他總結(jié)了一個(gè)您可以用來計(jì)劃和指導(dǎo)應(yīng)用程序開發(fā)工作的生成性AI項(xiàng)目生命周期。
    LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation,LLM-Large Language Models,transformer,人工智能,chatgpt,語言模型

  5. 接下來,您看到了模型在一個(gè)稱為預(yù)訓(xùn)練的初始訓(xùn)練階段如何在大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練。這是模型發(fā)展其語言理解的地方。

  6. 您探討了訓(xùn)練這些模型的計(jì)算挑戰(zhàn),這些挑戰(zhàn)是很大的。

  7. 在實(shí)踐中,由于GPU內(nèi)存限制,您幾乎總是在訓(xùn)練模型時(shí)使用某種形式的量化。

  8. 您本周結(jié)束時(shí)討論了LLM的縮放法則以及如何使用它們?cè)O(shè)計(jì)計(jì)算最佳模型。

如果您想閱讀更多的細(xì)節(jié),請(qǐng)務(wù)必查看本周的閱讀練習(xí)。

參考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/BMxlN/pre-training-for-domain-adaptation文章來源地址http://www.zghlxwxcb.cn/news/detail-668307.html

到了這里,關(guān)于LLMs領(lǐng)域適應(yīng)的預(yù)訓(xùn)練Pre-training for domain adaptation的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    論文筆記--ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding

    標(biāo)題:ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding 作者:Yu Sun, Shuohuan Wang, Yukun Li, Shikun Feng, Hao Tian, Hua Wu, Haifeng Wang 日期:2020 期刊:AAAI ??文章給出了一種新的NLP預(yù)訓(xùn)練模型的訓(xùn)練方法,并提出了ERNIE2.0(Enhanced Representation through kNowledge IntErgration)。ERNIE2.0在ERNIE

    2024年02月09日
    瀏覽(37)
  • 【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    【論文精讀】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

    自然語言處理(Natural Language Processing,NLP)領(lǐng)域內(nèi)的 預(yù)訓(xùn)練語言模型 ,包括基于RNN的ELMo和ULMFiT,基于Transformer的OpenAI GPT及Google BERT等。預(yù)訓(xùn)練語言模型的成功,證明了我們可以從海量的無標(biāo)注文本中學(xué)到潛在的語義信息,而無需為每一項(xiàng)下游NLP任務(wù)單獨(dú)標(biāo)注大量訓(xùn)練數(shù)據(jù)。

    2024年02月14日
    瀏覽(37)
  • 【論文筆記】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    【論文筆記】SimMTM: A Simple Pre-Training Framework for Masked Time-Series Modeling

    論文地址:https://arxiv.org/abs/2302.00861 時(shí)間序列分析被廣泛應(yīng)用于各個(gè)領(lǐng)域。近年來,為了降低標(biāo)簽費(fèi)用,使各種任務(wù)受益, 自我監(jiān)督式預(yù)訓(xùn)練 引起了人們的極大興趣。一種主流范式是 masked 建模,它通過學(xué)習(xí)基于未 masked 部分 重構(gòu) masked 內(nèi)容來成功地預(yù)訓(xùn)練深度模型。然而,

    2024年01月21日
    瀏覽(32)
  • 跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    跨模態(tài)檢索論文閱讀:(PTP)Position-guided Text Prompt for Vision-Language Pre-training

    (PTP)Position-guided Text Prompt for Vision-Language Pre-training 視覺語言預(yù)訓(xùn)練的位置引導(dǎo)文本提示 視覺語言預(yù)訓(xùn)練(VLP)已經(jīng)顯示出將圖像和文本對(duì)統(tǒng)一起來的能力,促進(jìn)了各種跨模態(tài)的學(xué)習(xí)任務(wù)。 然而,我們注意到,VLP模型往往缺乏視覺基礎(chǔ)/定位能力,這對(duì)許多下游任務(wù)如視覺推理至

    2024年02月11日
    瀏覽(30)
  • LLMs參考資料第一周以及BloombergGPT特定領(lǐng)域的訓(xùn)練 Domain-specific training: BloombergGPT

    LLMs參考資料第一周以及BloombergGPT特定領(lǐng)域的訓(xùn)練 Domain-specific training: BloombergGPT

    以下是本周視頻中討論的研究論文的鏈接。您不需要理解這些論文中討論的所有技術(shù)細(xì)節(jié) - 您已經(jīng)看到了您需要回答講座視頻中的測(cè)驗(yàn)的最重要的要點(diǎn)。 然而,如果您想更仔細(xì)地查看原始研究,您可以通過以下鏈接閱讀這些論文和文章。 注意力就是你需要的 《Attention is Al

    2024年02月11日
    瀏覽(31)
  • GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在給定語料上下文環(huán)境下,目標(biāo)時(shí)最大化下面的語言模型,即在給定前 i-1個(gè)詞和參數(shù)θ前提下,使第 i 個(gè)詞出現(xiàn)的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    瀏覽(30)
  • Grounded Language-Image Pre-training論文筆記

    Grounded Language-Image Pre-training論文筆記

    Title:Grounded Language-Image Pre-training Code 目前的視覺識(shí)別任務(wù)通常是在一個(gè)預(yù)先定義好的類別范圍內(nèi)進(jìn)行的,這樣限制了其在真實(shí)場(chǎng)景中的擴(kuò)展。CLIP的出現(xiàn)打破了這一限制,CLIP利用image-text對(duì)進(jìn)行訓(xùn)練,從而使得模型可以根據(jù)文字prompt識(shí)別任意類別。CLIP適用于分類任務(wù),而GLI

    2024年02月11日
    瀏覽(26)
  • 【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS

    GitHub 視覺轉(zhuǎn)換器的輸入單元,即圖像補(bǔ)丁,沒有預(yù)先存在的詞匯。 預(yù)測(cè)遮罩面片的原始像素往往會(huì)在預(yù)訓(xùn)練短程依賴性和高頻細(xì)節(jié)上浪費(fèi)建模能力 輸入編碼:通過tokenizer將輸入的文本中的每個(gè)單詞轉(zhuǎn)換為固定維度的向量表示 輸入Transformer 編碼器:使用多層的 Transformer 編碼

    2024年02月11日
    瀏覽(33)
  • 【論文筆記】Improving Language Understanding by Generative Pre-Training

    【論文筆記】Improving Language Understanding by Generative Pre-Training

    背景: 自然語言理解 包括廣泛的不同任務(wù),如文本蘊(yùn)涵、QA問答、語義相似性評(píng)估和文檔分類。 問題: 盡管 大型未標(biāo)記文本語料庫(kù) (corpora)非常豐富;但用于 學(xué)習(xí)特定任務(wù)的標(biāo)記數(shù)據(jù) 卻很少,這使得采用傳統(tǒng)的有監(jiān)督深度學(xué)習(xí)方法訓(xùn)練得到的模型表現(xiàn)較差。 解決: 通過

    2024年03月24日
    瀏覽(35)
  • BEiT: BERT Pre-Training of Image Transformers 論文筆記

    BEiT: BERT Pre-Training of Image Transformers 論文筆記

    論文名稱: BEiT: BERT Pre-Training of Image Transformers 論文地址:2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代碼地址:unilm/beit at master · microsoft/unilm (github.com) 作者講解:BiLiBiLi 作者PPT:文章資源 首先展示的是我基于這個(gè)算法搭建的網(wǎng)頁 demo ,歡迎體驗(yàn)。https://wangqvq-be

    2024年02月11日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包