国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大型語(yǔ)言模型 (LLM)全解讀

這篇具有很好參考價(jià)值的文章主要介紹了大型語(yǔ)言模型 (LLM)全解讀。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、大型語(yǔ)言模型(Large Language Model)定義

大型語(yǔ)言模型 是一種深度學(xué)習(xí)算法,可以執(zhí)行各種自然語(yǔ)言處理 (NLP) 任務(wù)。
大型語(yǔ)言模型底層使用多個(gè)轉(zhuǎn)換器模型, 底層轉(zhuǎn)換器是一組神經(jīng)網(wǎng)絡(luò)。
大型語(yǔ)言模型是使用海量數(shù)據(jù)集進(jìn)行訓(xùn)練的超大型深度學(xué)習(xí)模型。
這也是它們能夠識(shí)別、翻譯、預(yù)測(cè)或生成文本或其他內(nèi)容的強(qiáng)大基礎(chǔ)所在。

因此大型語(yǔ)言模型也稱為神經(jīng)網(wǎng)絡(luò) (NN),是受人類大腦啟發(fā)而開(kāi)發(fā)出的計(jì)算系統(tǒng)。這些神經(jīng)網(wǎng)絡(luò)利用分層的節(jié)點(diǎn)網(wǎng)絡(luò)工作,就像神經(jīng)元一樣。這些神經(jīng)網(wǎng)絡(luò)由具有自注意力功能的編碼器和解碼器組成。編碼器和解碼器從一系列文本中提取含義,并理解其中的單詞和短語(yǔ)之間的關(guān)系。轉(zhuǎn)換器 LLM 能夠進(jìn)行無(wú)監(jiān)督的訓(xùn)練,但更精確的解釋是轉(zhuǎn)換器可以執(zhí)行自主學(xué)習(xí)。
通過(guò)此過(guò)程,轉(zhuǎn)換器可學(xué)會(huì)理解基本的語(yǔ)法、語(yǔ)言和知識(shí)。與早期按順序處理輸入的循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,轉(zhuǎn)換器并行處理整個(gè)序列。這可讓數(shù)據(jù)科學(xué)家使用 GPU 訓(xùn)練基于轉(zhuǎn)換器的 LLM,從而大幅度縮短訓(xùn)練時(shí)間。

除了向人工智能 (AI) 應(yīng)用程序教授人類語(yǔ)言外,還可以訓(xùn)練大型語(yǔ)言模型來(lái)執(zhí)行各種任務(wù),如理解蛋白質(zhì)結(jié)構(gòu)、編寫軟件代碼等。像人類大腦一樣,大型語(yǔ)言模型必須經(jīng)過(guò)預(yù)先訓(xùn)練,然后再進(jìn)行微調(diào),這樣它們才能解決文本分類、問(wèn)題解答、文檔摘要和文本生成等問(wèn)題。它們這些解決問(wèn)題的能力可應(yīng)用于醫(yī)療保健、金融和娛樂(lè)等多種領(lǐng)域;在這些領(lǐng)域中,大型語(yǔ)言模型用于支持各種 NLP 應(yīng)用程序,例如翻譯、聊天機(jī)器人、AI 助手等。

大型語(yǔ)言模型也具有大量的參數(shù),類似于模型從訓(xùn)練中學(xué)習(xí)時(shí)收集的各種記憶。我們可以將這些參數(shù)視為模型的知識(shí)庫(kù)。

大型語(yǔ)言模型 (LLM)全解讀,AI,語(yǔ)言模型,人工智能,自然語(yǔ)言處理
Generative Pre-trained Transformer 3 (GPT-3) is a large language model released by OpenAI in 2020

模型包括訓(xùn)練和推理兩個(gè)階段,訓(xùn)練的時(shí)候包含了前向傳播和反向傳播,推理只包含前向傳播,所以預(yù)測(cè)時(shí)候的速度更重要。

二、大型語(yǔ)言模型如何運(yùn)作?

LLM 運(yùn)作原理的一個(gè)關(guān)鍵因素是它們表示單詞的方式。早期的機(jī)器學(xué)習(xí)使用數(shù)字表來(lái)表示每個(gè)單詞。但是,這種表示形式無(wú)法識(shí)別單詞之間的關(guān)系,例如具有相似含義的單詞。人們采用如下方式克服此限制:使用多維向量(通常稱為單詞嵌入)來(lái)表示單詞,從而使具有相似上下文含義或其他關(guān)系的單詞在向量空間中彼此接近。

使用單詞嵌入,轉(zhuǎn)換器可以通過(guò)編碼器將文本預(yù)處理為數(shù)字表示,并理解含義相似的單詞和短語(yǔ)的上下文以及單詞之間的其他關(guān)系,例如語(yǔ)音部分。然后,LLM 就可以通過(guò)解碼器應(yīng)用這些語(yǔ)言知識(shí)來(lái)生成獨(dú)特的輸出。

即大型語(yǔ)言模型以轉(zhuǎn)換器模型為基礎(chǔ),**其工作原理是:接收輸入,對(duì)輸入進(jìn)行編碼,然后解碼以生成輸出預(yù)測(cè)。**但是,在大型語(yǔ)言模型能夠接收文本輸入并生成輸出預(yù)測(cè)之前,需要先對(duì)它進(jìn)行訓(xùn)練,以便執(zhí)行一些常規(guī)功能,然后再進(jìn)行微調(diào)后才能執(zhí)行特定任務(wù)。

訓(xùn)練:大型語(yǔ)言模型會(huì)使用維基百科、GitHub 或其他網(wǎng)站的大型文本數(shù)據(jù)集進(jìn)行預(yù)先訓(xùn)練。這些數(shù)據(jù)集包含數(shù)以萬(wàn)億計(jì)的字詞,它們的質(zhì)量會(huì)影響語(yǔ)言模型的性能。在這個(gè)階段,大型語(yǔ)言模型主要進(jìn)行無(wú)監(jiān)督學(xué)習(xí),這意味著它會(huì)在沒(méi)有特定指令的情況下處理輸入的數(shù)據(jù)集。在這個(gè)過(guò)程中,LLM 的 AI 算法可以學(xué)習(xí)字詞的意思,以及字詞之間的關(guān)系。此外,它還會(huì)根據(jù)上下文學(xué)習(xí)分辨字詞。例如,它將學(xué)習(xí)理解“right”是“正確”的意思,還是“左”的反義詞。

微調(diào):為了讓大型語(yǔ)言模型執(zhí)行諸如翻譯等特定任務(wù),則必須針對(duì)特定活動(dòng)對(duì)它進(jìn)行微調(diào)。微調(diào)可優(yōu)化特定任務(wù)的性能。

提示調(diào)優(yōu)的作用與微調(diào)類似,也就是通過(guò)少樣本提示或零樣本提示來(lái)訓(xùn)練模型執(zhí)行特定任務(wù)。提示是提供給 LLM 的指令。少樣本提示會(huì)通過(guò)使用示例來(lái)教模型預(yù)測(cè)輸出。例如,在這個(gè)情緒分析練習(xí)中,少樣本提示將如下所示:

Customer review: This plant is so beautiful!
Customer sentiment: positive

Customer review: This plant is so hideous!
Customer sentiment: negative
語(yǔ)言模型通過(guò)“hideous”的語(yǔ)義,并基于提供的一個(gè)相反示例,理解第二個(gè)示例中的客戶情感是“negative”。

另外,零樣本提示不會(huì)使用示例來(lái)教語(yǔ)言模型如何對(duì)輸入做出響應(yīng)。相反,它會(huì)將問(wèn)題表述為“The sentiment in ‘This plant is so hideous’ is….”(“‘這種植物太丑了’中的情感是……” 它會(huì)明確指出語(yǔ)言模型應(yīng)執(zhí)行的任務(wù),但沒(méi)有提供解決問(wèn)題的示例。

三、如何訓(xùn)練大型語(yǔ)言模型?

基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡(luò)非常龐大。這些網(wǎng)絡(luò)包含多個(gè)節(jié)點(diǎn)和層。層中的每個(gè)節(jié)點(diǎn)都有指向后續(xù)層中所有節(jié)點(diǎn)的連接,并且每個(gè)節(jié)點(diǎn)都有權(quán)重和偏差。權(quán)重和偏差以及嵌入稱為模型參數(shù)?;谵D(zhuǎn)換器的大型神經(jīng)網(wǎng)絡(luò)可以有數(shù)十億個(gè)參數(shù)。模型的大小通常由模型大小、參數(shù)數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模之間的經(jīng)驗(yàn)關(guān)系決定。

使用大量高質(zhì)量數(shù)據(jù)執(zhí)行訓(xùn)練。在訓(xùn)練過(guò)程中,模型會(huì)迭代調(diào)整參數(shù)值,直到模型可根據(jù)前一個(gè)輸入令牌序列正確預(yù)測(cè)下一個(gè)令牌。為此,模型使用自學(xué)技術(shù),這些技術(shù)教導(dǎo)模型調(diào)整參數(shù),以最大限度地提高訓(xùn)練示例中正確預(yù)測(cè)下一個(gè)令牌的可能性。

經(jīng)過(guò)訓(xùn)練,LLM 可以很容易地適應(yīng)使用相對(duì)較小的有監(jiān)督數(shù)據(jù)集執(zhí)行多項(xiàng)任務(wù),這一過(guò)程稱為微調(diào)。

訓(xùn)練語(yǔ)言模型需要向其提供大量的文本數(shù)據(jù),模型利用這些數(shù)據(jù)來(lái)學(xué)習(xí)人類語(yǔ)言的結(jié)構(gòu)、語(yǔ)法和語(yǔ)義。這個(gè)過(guò)程通常是通過(guò)無(wú)監(jiān)督學(xué)習(xí)完成的,使用一種叫做自我監(jiān)督學(xué)習(xí)的技術(shù)。在自我監(jiān)督學(xué)習(xí)中,模型通過(guò)預(yù)測(cè)序列中的下一個(gè)詞或標(biāo)記,為輸入的數(shù)據(jù)生成自己的標(biāo)簽,并給出之前的詞。

訓(xùn)練過(guò)程包括兩個(gè)主要步驟:預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning):

  • 在預(yù)訓(xùn)練階段,模型從一個(gè)巨大的、多樣化的數(shù)據(jù)集中學(xué)習(xí),通常包含來(lái)自不同來(lái)源的數(shù)十億詞匯,如網(wǎng)站、書(shū)籍和文章。這個(gè)階段允許模型學(xué)習(xí)一般的語(yǔ)言模式和表征。
  • 在微調(diào)階段,模型在與目標(biāo)任務(wù)或領(lǐng)域相關(guān)的更具體、更小的數(shù)據(jù)集上進(jìn)一步訓(xùn)練。這有助于模型微調(diào)其理解,并適應(yīng)任務(wù)的特殊要求。

存在三種常見(jiàn)的學(xué)習(xí)模型:
1)零樣本學(xué)習(xí);Base LLM 無(wú)需明確訓(xùn)練即可響應(yīng)各種請(qǐng)求,通常是通過(guò)提示,但是答案的準(zhǔn)確性各不相同。
2)少量樣本學(xué)習(xí):通過(guò)提供一些相關(guān)的訓(xùn)練示例,基礎(chǔ)模型在該特定領(lǐng)域的表現(xiàn)顯著提升。
3)微調(diào):這是少量樣本學(xué)習(xí)的擴(kuò)展,其中數(shù)據(jù)科學(xué)家訓(xùn)練基礎(chǔ)模型,使模型使用與特定應(yīng)用相關(guān)的其他數(shù)據(jù)來(lái)調(diào)整其參數(shù)。

四、什么是自然語(yǔ)言處理 (NLP)?

自然語(yǔ)言處理會(huì)通過(guò)多種不同方式工作。
1)基于 AI 的 NLP 涉及使用 Machine Learning 算法和技巧來(lái)處理、理解和生成人類語(yǔ)言。
2)基于規(guī)則的 NLP 涉及創(chuàng)建一個(gè)可用來(lái)分析和生成語(yǔ)言數(shù)據(jù)的規(guī)則或模式的集合。
3)統(tǒng)計(jì)學(xué) NLP 涉及使用從大型數(shù)據(jù)集中獲得的統(tǒng)計(jì)模型來(lái)分析語(yǔ)言并做出語(yǔ)言方面的預(yù)測(cè)。
混合 NLP 將上述三種方法結(jié)合到一起。

基于 AI 的 NLP 方法當(dāng)今最為熱門。與任何其他數(shù)據(jù)驅(qū)動(dòng)型學(xué)習(xí)方法一樣,開(kāi)發(fā) NLP 模型需要對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理并精心選擇學(xué)習(xí)算法。

  • 第 1 步:數(shù)據(jù)預(yù)處理
    這是指清理并準(zhǔn)備文本的過(guò)程,以便 NLP 算法能夠?qū)ζ溥M(jìn)行分析。部分常見(jiàn)的數(shù)據(jù)預(yù)處理技巧包括文本挖掘(指使用大量文本并將文本拆分為數(shù)據(jù))或詞匯切分(指將文本拆分成單獨(dú)的單元)。這些單獨(dú)的單元可以是標(biāo)點(diǎn)、單詞或詞組。停用詞刪除是一項(xiàng)工具,可移除對(duì)話中通常不太有助于分析的常用詞和冠詞。詞干提取和詞形還原會(huì)將單詞拆分成其基本詞根形式,以便更輕松地識(shí)別它們的意思。詞性標(biāo)注可識(shí)別一句話中的名詞、動(dòng)詞、形容詞和其他詞性的詞。語(yǔ)法分析會(huì)分析句子結(jié)構(gòu)以及不同單詞之間的關(guān)系。

  • 第 2 步:算法開(kāi)發(fā)
    這是向預(yù)處理數(shù)據(jù)應(yīng)用 NLP 算法的過(guò)程。它會(huì)從文本中提取有用信息。下面是一些最常見(jiàn)的自然語(yǔ)言處理任務(wù):

情感分析確定一段文本中的情緒基調(diào)或者情感。情感分析會(huì)將單詞、詞組和表達(dá)標(biāo)注為積極、消極或中立。
命名實(shí)體識(shí)別會(huì)識(shí)別命名實(shí)體并對(duì)其進(jìn)行分類,例如人、位置、日期和組織。
主題建模會(huì)將相似的單詞和詞組分組到一起,以識(shí)別一系列文檔或文本的主要話題或主題。
機(jī)器翻譯會(huì)使用 Machine Learning 將文本自動(dòng)從一種語(yǔ)言翻譯成另一種語(yǔ)言。語(yǔ)言建模會(huì)預(yù)測(cè)特定上下文中單詞序列的可能性。
語(yǔ)言建模用于自動(dòng)完成、自動(dòng)更正應(yīng)用程序,還用于語(yǔ)音轉(zhuǎn)文本系統(tǒng)。

需要注意的兩個(gè) NLP 分支是自然語(yǔ)言理解 (NLU) 和 自然語(yǔ)言生成 (NLG)。

  • 1.NLU 專注于讓計(jì)算機(jī)使用與人類所用工具類似的工具來(lái)理解人類語(yǔ)言。它的目的是讓計(jì)算機(jī)理解人類語(yǔ)言的細(xì)微之處,包括上下文、意向、情感和模糊性。NLG 專注于基于數(shù)據(jù)庫(kù)或規(guī)則集創(chuàng)建與人類語(yǔ)言類似的語(yǔ)言。
  • 2.NLG 的目標(biāo)是生成可被人類輕松理解的文本。

五、什么是轉(zhuǎn)換器模型呢?

轉(zhuǎn)換器模型是大型語(yǔ)言模型中最常見(jiàn)的架構(gòu)。它由一個(gè)編碼器和一個(gè)解碼器組成。轉(zhuǎn)換器模型通過(guò)將輸入信息轉(zhuǎn)換為詞元來(lái)處理數(shù)據(jù),然后同時(shí)進(jìn)行數(shù)學(xué)運(yùn)算來(lái)發(fā)現(xiàn)詞元之間的關(guān)系。這樣,計(jì)算機(jī)就能夠看到人類在面對(duì)同樣查詢時(shí)所看到的模式。

轉(zhuǎn)換器模型使用自注意力機(jī)制工作,與長(zhǎng)短期記憶模型等這類傳統(tǒng)模型相比,這種模型的學(xué)習(xí)速度更快。自注意力讓轉(zhuǎn)換器模型能夠考慮序列的不同部分或句子的整個(gè)上下文,從而生成預(yù)測(cè)。

六、大型語(yǔ)言模型的關(guān)鍵組件

大型語(yǔ)言模型由多個(gè)神經(jīng)網(wǎng)絡(luò)層組成。遞歸層、前饋層、嵌入層和注意力層協(xié)同工作,對(duì)輸入文本進(jìn)行處理并生成輸出內(nèi)容。

  • 1.遞歸層會(huì)按順序解讀輸入文本中的字詞,并獲取句子中字詞之間的關(guān)系。
  • 2.前饋層 (FFN) 由多個(gè)完全互聯(lián)的層組成,用于轉(zhuǎn)換基于輸入文本生成的嵌入。這樣,這些層就能夠使模型收集更高層級(jí)的抽象概念,也就是理解用戶輸入文本的意圖。
  • 3.嵌入層會(huì)基于輸入文本創(chuàng)建嵌入。大型語(yǔ)言模型的這一部分會(huì)獲取輸入內(nèi)容的語(yǔ)義和句法含義,從而讓模型能夠理解上下文。
  • 4.注意力層能夠讓語(yǔ)言模型專注于輸入文本中與當(dāng)前任務(wù)相關(guān)的各個(gè)部分。通過(guò)這一層,可讓模型生成最準(zhǔn)確的輸出。

在您的搜索應(yīng)用程序中應(yīng)用轉(zhuǎn)換器
大型語(yǔ)言模型主要有三種:

  • 1)通用或原始語(yǔ)言模型會(huì)根據(jù)訓(xùn)練數(shù)據(jù)中的語(yǔ)言預(yù)測(cè)下一個(gè)字詞。這些語(yǔ)言模型可執(zhí)行信息檢索任務(wù)。
  • 2)指令調(diào)優(yōu)的語(yǔ)言模型經(jīng)過(guò)訓(xùn)練后,可預(yù)測(cè)輸入中所給指令的響應(yīng)。這可使用它們執(zhí)行情感分析,或者生成文本或代碼。
  • 3)對(duì)話調(diào)優(yōu)的語(yǔ)言模型經(jīng)過(guò)訓(xùn)練后,可通過(guò)預(yù)測(cè)下一個(gè)響應(yīng)來(lái)進(jìn)行對(duì)話。例如,聊天機(jī)器人或?qū)υ?AI。

七、大型語(yǔ)言模型與生成式 AI 之間的區(qū)別?

生成式 AI 是一個(gè)總稱,是指有能力生成內(nèi)容的人工智能模型。生成式 AI 可以生成文本、代碼、圖像、視頻和音樂(lè)。例如,生成式 AI 有 Midjourney、DALL-E 和 ChatGPT。

大型語(yǔ)言模型是一種生成式 AI,它基于文本進(jìn)行訓(xùn)練并生成文本內(nèi)容。ChatGPT 就是一個(gè)廣為流行的文本生成式 AI 示例。
所有大型語(yǔ)言模型都是生成式 AI1。

八、常用大型語(yǔ)言模型示例

很多常用的大型語(yǔ)言模型已經(jīng)風(fēng)靡全球。其中有許多已經(jīng)被各行各業(yè)的人們所采用。您一定聽(tīng)說(shuō)過(guò) ChatGPT 這種生成式 AI 聊天機(jī)器人。

其他常用 LLM 模型還包括:

PaLM:Google 的 Pathways Language Model (PaLM) 是一種轉(zhuǎn)換器語(yǔ)言模型,能夠進(jìn)行常識(shí)和算術(shù)推理、笑話解釋、代碼生成和翻譯。
BERT:基于轉(zhuǎn)換器的雙向編碼器表示 (BERT) 語(yǔ)言模型也是在 Google 開(kāi)發(fā)的。它是一個(gè)基于轉(zhuǎn)換器的模型,可以理解自然語(yǔ)言并回答問(wèn)題。
XLNet:XLNet 是一種排列語(yǔ)言模型,以隨機(jī)順序生成輸出預(yù)測(cè),這是它與 BERT 的不同之處。它會(huì)先評(píng)估編碼詞元的模式,然后以隨機(jī)順序預(yù)測(cè)詞元,而不是按順序進(jìn)行預(yù)測(cè)。
GPT:生成式預(yù)訓(xùn)練的轉(zhuǎn)換器可能是最著名的大型語(yǔ)言模型。由 OpenAI 開(kāi)發(fā)的 GPT 是一種熱門基礎(chǔ)模型,其帶編號(hào)的迭代都是對(duì)前代(GPT-3、GPT-4 等)的改進(jìn)。它可以進(jìn)行微調(diào)以在下游執(zhí)行特定任務(wù)。這方面的示例包括:Salesforce 開(kāi)發(fā)的用于 CRM 的 EinsteinGPT,以及 Bloomberg 開(kāi)發(fā)的用于金融的 BloombergGPT。

多模態(tài)與單模態(tài)

2021開(kāi)年,推出兩個(gè)跨越文本與圖像次元的模型:DALL·E和CLIP,前者可以基于文本生成圖像,后者可以基于文本對(duì)圖片分類,兩者都意在打破自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué)兩大門派“涇渭分明”的界限,實(shí)現(xiàn)多模態(tài)AI系統(tǒng)。CLIP是一個(gè)預(yù)訓(xùn)練模型,就像BERT、GPT、ViT等預(yù)訓(xùn)練模型一樣。首先使用大量無(wú)標(biāo)簽數(shù)據(jù)訓(xùn)練這些模型,然后訓(xùn)練好得模型就能實(shí)現(xiàn),輸入一段文本(或者一張圖像),輸出文本(圖像)的向量表示。CLIP和BERT,GPT,ViT的區(qū)別在于,CLIP是多模態(tài)的,包含圖像處理以及文本處理兩個(gè)方面的內(nèi)容,而B(niǎo)ERT,GPT是單模態(tài)的,VIT是單模態(tài)圖像的。

                                                                                                    **掃描二維碼進(jìn)行NFT抽獎(jiǎng)**

大型語(yǔ)言模型 (LLM)全解讀,AI,語(yǔ)言模型,人工智能,自然語(yǔ)言處理文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-819463.html

到了這里,關(guān)于大型語(yǔ)言模型 (LLM)全解讀的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包