国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models

2年前作者：AI架構(gòu)師易筋分類：Toy博客閱讀(36)違法舉報

這篇具有很好參考價值的文章主要介紹了LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

在上一個視頻中，您被介紹到了生成性AI項目的生命周期。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

如您所見，在您開始啟動您的生成性AI應(yīng)用的有趣部分之前，有幾個步驟需要完成。一旦您確定了您的用例范圍，并確定了您需要LLM在您的應(yīng)用程序中的工作方式，您的下一步就是選擇一個要使用的模型。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

您首先的選擇將是使用現(xiàn)有的模型還是從頭開始訓(xùn)練您自己的模型。在某些特定情況下，從頭開始訓(xùn)練您自己的模型可能是有利的，您將在本課程后面了解到這些情況。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

但是，通常情況下，您將使用現(xiàn)有的基礎(chǔ)模型開始開發(fā)您的應(yīng)用程序。許多開源模型都可供像您這樣的AI社區(qū)成員在您的應(yīng)用程序中使用。一些主要框架的開發(fā)者，如用于構(gòu)建生成性AI應(yīng)用的Hugging Face和PyTorch，已經(jīng)策劃了您可以瀏覽這些模型的中心。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

這些中心的一個非常有用的特點是包括模型卡片，描述了每個模型的最佳用例、如何進行訓(xùn)練以及已知的限制的重要細(xì)節(jié)。您將在本周結(jié)束時的閱讀材料中找到這些模型中心的一些鏈接。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

您選擇的確切模型將取決于您需要執(zhí)行的任務(wù)的細(xì)節(jié)。Transformers模型架構(gòu)的變體適用于不同的語言任務(wù)，這主要是因為模型訓(xùn)練方式的差異。為了幫助您更好地了解這些差異，并發(fā)展關(guān)于哪個模型用于特定任務(wù)的直覺，讓我們仔細(xì)看看大型語言模型是如何被訓(xùn)練的。有了這些知識，您將更容易瀏覽模型中心并找到最適合您用例的模型。

首先，讓我們從高層次看看LLMs的初始訓(xùn)練過程。這個階段通常被稱為預(yù)訓(xùn)練。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

如您在第1課中所見，LLMs編碼了語言的深度統(tǒng)計表示。這種理解是在模型的預(yù)訓(xùn)練階段發(fā)展起來的，當(dāng)模型從大量的非結(jié)構(gòu)化文本數(shù)據(jù)中學(xué)習(xí)時。這可以是GB、TB，甚至是PB大小的非結(jié)構(gòu)化文本。這些數(shù)據(jù)來自許多來源，包括從互聯(lián)網(wǎng)上抓取的數(shù)據(jù)和為訓(xùn)練語言模型專門組裝的文本語料庫。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

在這個自監(jiān)督學(xué)習(xí)步驟中，模型內(nèi)化了語言中存在的模式和結(jié)構(gòu)。這些模式然后使模型能夠完成其訓(xùn)練目標(biāo)，這取決于模型的架構(gòu)，正如您很快將看到的那樣。在預(yù)訓(xùn)練期間，模型權(quán)重得到更新，以最小化訓(xùn)練目標(biāo)的損失。編碼器為每個令牌生成一個嵌入或向量表示。預(yù)訓(xùn)練也需要大量的計算和使用GPUs。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

請注意，當(dāng)您從公共網(wǎng)站如互聯(lián)網(wǎng)抓取訓(xùn)練數(shù)據(jù)時，您通常需要處理數(shù)據(jù)以提高質(zhì)量，解決偏見，并刪除其他有害內(nèi)容。由于這種數(shù)據(jù)質(zhì)量策劃，通常只有1-3%的令牌用于預(yù)訓(xùn)練。當(dāng)您估計需要收集多少數(shù)據(jù)時，如果您決定預(yù)訓(xùn)練您自己的模型，您應(yīng)該考慮這一點。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

本周早些時候，您看到Transformers模型有三種變體；僅編碼器、編碼器-解碼器模型和僅解碼器。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

每一個都是基于一個不同的目標(biāo)進行訓(xùn)練的，因此學(xué)會執(zhí)行不同的任務(wù)。

僅編碼器模型也被稱為自動編碼模型，它們使用遮罩語言建模進行預(yù)訓(xùn)練。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

這里，輸入序列中的令牌被隨機遮罩，訓(xùn)練目標(biāo)是預(yù)測遮罩令牌以重構(gòu)原始句子。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

這也被稱為去噪目標(biāo)。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

自動編碼模型產(chǎn)生了輸入序列的雙向表示，這意味著模型對令牌的整個上下文有了解，而不僅僅是之前的單詞。僅編碼器模型非常適合從這種雙向上下文中受益的任務(wù)。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

您可以使用它們執(zhí)行句子分類任務(wù)，例如情感分析或令牌級任務(wù)，如命名實體識別或單詞分類。自動編碼模型的一些眾所周知的示例是BERT和RoBERTa。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

現(xiàn)在，讓我們看看僅解碼器或自回歸模型，它們使用因果語言建模進行預(yù)訓(xùn)練。這里，訓(xùn)練目標(biāo)是基于之前的令牌序列預(yù)測下一個令牌。
預(yù)測下一個令牌有時被研究人員稱為完整的語言建模?；诮獯a器的自回歸模型，遮罩輸入序列，只能看到直到問題令牌的輸入令牌。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

模型不知道句子的結(jié)尾。然后，模型一個接一個地迭代輸入序列來預(yù)測下一個令牌。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

與編碼器架構(gòu)相反，這意味著上下文是單向的。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

通過學(xué)習(xí)從大量示例中預(yù)測下一個令牌，模型建立了語言的統(tǒng)計表示。這種類型的模型使用原始架構(gòu)的解碼器組件，而不使用編碼器。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

僅解碼器模型通常用于文本生成，盡管較大的僅解碼器模型顯示出強大的Zero shot推理能力，并且通?？梢院芎玫貓?zhí)行一系列任務(wù)。GPT和BLOOM是基于解碼器的自回歸模型的一些眾所周知的示例。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

Transformers模型的最后一個變體是使用原始Transformers架構(gòu)的編碼器和解碼器部分的序列到序列模型。預(yù)訓(xùn)練目標(biāo)的確切細(xì)節(jié)因模型而異。一個受歡迎的序列到序列模型T5，使用Span corruption跨度腐敗預(yù)訓(xùn)練編碼器，這遮罩隨機輸入令牌序列。那些遮罩序列然后被替換為一個唯一的哨兵令牌，這里顯示為x。哨兵令牌是添加到詞匯表的特殊令牌，但不對應(yīng)于輸入文本的任何實際單詞。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

解碼器然后被分配自回歸地重建遮罩令牌序列。輸出是哨兵令牌后面的預(yù)測令牌。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

您可以使用序列到序列模型進行翻譯、摘要和問答。當(dāng)您有一體文本作為輸入和輸出時，它們通常是有用的。除了T5，您將在本課程的實驗室中使用，另一個眾所周知的編碼器-解碼器模型是BART，不是Bird。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

總之，這是一個快速比較不同的模型架構(gòu)和預(yù)訓(xùn)練目標(biāo)的目標(biāo)。自動編碼模型使用遮罩語言建模進行預(yù)訓(xùn)練。它們對應(yīng)于原始Transformers架構(gòu)的編碼器部分，通常與句子分類或令牌分類一起使用。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

自回歸模型使用因果語言建模進行預(yù)訓(xùn)練。這種類型的模型使用原始Transformers架構(gòu)的解碼器組件，并經(jīng)常用于文本生成。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

序列到序列模型使用原始Transformers架構(gòu)的編碼器和解碼器部分。預(yù)訓(xùn)練目標(biāo)的確切細(xì)節(jié)因模型而異。T5模型使用span corruption跨度腐敗進行預(yù)訓(xùn)練。序列到序列模型通常用于翻譯、摘要和問答。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

現(xiàn)在您已經(jīng)看到了這些不同的模型架構(gòu)是如何被訓(xùn)練的，以及它們適合的特定任務(wù)，您可以選擇最適合您用例的模型類型。還有一件事要記住的是，任何架構(gòu)的較大模型通常更有能力很好地執(zhí)行它們的任務(wù)。研究人員發(fā)現(xiàn)，模型越大，就越有可能在沒有額外的上下文學(xué)習(xí)或進一步訓(xùn)練的情況下按照您的需要工作。這種觀察到的模型能力隨大小增加的趨勢，近年來推動了更大模型的發(fā)展。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

這種增長是由研究中的拐點驅(qū)動的，如高度可擴展的Transformers架構(gòu)的引入，用于訓(xùn)練的大量數(shù)據(jù)的訪問，以及更強大的計算資源的開發(fā)。
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

這種模型大小的穩(wěn)定增長實際上使一些研究人員推測LLMs存在一個新的摩爾定律。像他們一樣，您可能會問，我們是否可以只是繼續(xù)添加參數(shù)來增加性能并使模型更智能？這種模型增長可能會導(dǎo)致什么？
LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models,LLM-Large Language Models,語言模型,人工智能,自然語言處理

雖然這聽起來很棒，但事實證明，訓(xùn)練這些巨大的模型是困難和非常昂貴的，以至于不斷地訓(xùn)練更大和更大的模型可能是不可行的。讓我們在下一個視頻中仔細(xì)看看與訓(xùn)練大型模型相關(guān)的一些挑戰(zhàn)。

參考

https://www.coursera.org/learn/generative-ai-with-llms/lecture/2T3Au/pre-training-large-language-models文章來源地址http://www.zghlxwxcb.cn/news/detail-671066.html

到了這里，關(guān)于LLM預(yù)訓(xùn)練大型語言模型Pre-training large language models的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

大型語言模型（LLM, Large Language Models）基模和 Chat 模型之間的區(qū)別
最近看大模型相關(guān)的知識，有看到大模型都有基礎(chǔ)模型（base）和對話模型（chat），不太清楚什么時候用到基礎(chǔ)模型，什么時候用到對話模型，故有此文。通過了解，最簡單的概述就是基于基礎(chǔ)模型會訓(xùn)練出一個對話（Chat）模型，對話模型主要用于對話場景，基礎(chǔ)模型主要做
2024年02月21日
瀏覽(52)
GPT(Generative Pre-Training)論文解讀及實現(xiàn)(一)
Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在給定語料上下文環(huán)境下，目標(biāo)時最大化下面的語言模型，即在給定前 i-1個詞和參數(shù)θ前提下，使第 i 個詞出現(xiàn)的概率最大。 we use a multi-layer Transformer decoder [34] for
2024年02月15日
瀏覽(31)
Grounded Language-Image Pre-training論文筆記
Title：Grounded Language-Image Pre-training Code 目前的視覺識別任務(wù)通常是在一個預(yù)先定義好的類別范圍內(nèi)進行的，這樣限制了其在真實場景中的擴展。CLIP的出現(xiàn)打破了這一限制，CLIP利用image-text對進行訓(xùn)練，從而使得模型可以根據(jù)文字prompt識別任意類別。CLIP適用于分類任務(wù)，而GLI
2024年02月11日
瀏覽(26)
【論文筆記】BEIT:BERT PRE-TRAINING OF IMAGE TRANSFORMERS
GitHub 視覺轉(zhuǎn)換器的輸入單元，即圖像補丁，沒有預(yù)先存在的詞匯。預(yù)測遮罩面片的原始像素往往會在預(yù)訓(xùn)練短程依賴性和高頻細(xì)節(jié)上浪費建模能力輸入編碼：通過tokenizer將輸入的文本中的每個單詞轉(zhuǎn)換為固定維度的向量表示輸入Transformer 編碼器：使用多層的 Transformer 編碼
2024年02月11日
瀏覽(33)
【論文筆記】Improving Language Understanding by Generative Pre-Training
背景：自然語言理解包括廣泛的不同任務(wù)，如文本蘊涵、QA問答、語義相似性評估和文檔分類。問題：盡管大型未標(biāo)記文本語料庫（corpora）非常豐富；但用于學(xué)習(xí)特定任務(wù)的標(biāo)記數(shù)據(jù) 卻很少，這使得采用傳統(tǒng)的有監(jiān)督深度學(xué)習(xí)方法訓(xùn)練得到的模型表現(xiàn)較差。解決：通過
2024年03月24日
瀏覽(35)
BEiT: BERT Pre-Training of Image Transformers 論文筆記
論文名稱： BEiT: BERT Pre-Training of Image Transformers 論文地址：2106.08254] BEiT: BERT Pre-Training of Image Transformers (arxiv.org) 代碼地址：unilm/beit at master · microsoft/unilm (github.com) 作者講解：BiLiBiLi 作者PPT：文章資源首先展示的是我基于這個算法搭建的網(wǎng)頁 demo ，歡迎體驗。https://wangqvq-be
2024年02月11日
瀏覽(21)
【NLP經(jīng)典論文精讀】Improving Language Understanding by Generative Pre-Training
chatGPT的初代工作，可以說沒有GPT，就沒有現(xiàn)在的大模型百家爭鳴，本篇文章回顧這篇經(jīng)典論文，思考作者是如何根據(jù)前者的工作在思想上進行創(chuàng)新，從而得到通用的模型架構(gòu)。 Paper: https://www.mikecaptain.com/resources/pdf/GPT-1.pdf Code: https://github.com/huggingface/transformersGPT 自然語言理解
2024年02月15日
瀏覽(251)
論文閱讀-（GLIP）Grounded Language-Image Pre-training （目標(biāo)檢測+定位）
Paper：Grounded Language-Image Pre-training Code：https://github.com/microsoft/GLIP 簡介：定位任務(wù)與圖像檢測任務(wù)非常類似，都是去圖中找目標(biāo)物體的位置，目標(biāo)檢測為給出一張圖片找出bounding box，定位為給出一個圖片和文本，根據(jù)文本找出物體。GLIP 模型統(tǒng)一了目標(biāo)檢測（object detection）和
2024年02月05日
瀏覽(26)
ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》
以下是我閱讀完整篇論文做的個人總結(jié)，基本包含了ChatGPT1設(shè)計的完整框架思路，可以僅看【論文總結(jié)】章節(jié)。在GPT1實現(xiàn)的核心架構(gòu)中，包含兩個階段。第一階段在第一階段基于一個包含 7000本書籍內(nèi)容的海量未標(biāo)注文本數(shù)據(jù)集進行無監(jiān)督預(yù)訓(xùn)練，該階段引入了一種 T
2024年02月05日
瀏覽(31)
論文閱讀《Vision-Language Pre-Training with Triple Contrastive Learning》
本文是2022年CVPR上的一篇多模態(tài) 論文，利用對比學(xué)習(xí)和動量來進行圖片與文本信息的上游預(yù)訓(xùn)練。作者提出問題簡單的跨模態(tài)比對模型無法確保來自同一模態(tài)的相似輸入保持相似。（模態(tài)內(nèi)部語義信息損失）全局互信息最大化的操作沒有考慮局部信息和結(jié)構(gòu)信息。對于上
2024年04月13日
瀏覽(28)