国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

這篇具有很好參考價(jià)值的文章主要介紹了【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

1 概述

怎么學(xué)習(xí)?——給定輸入和輸出:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
但是這樣做不現(xiàn)實(shí),因?yàn)檫@樣輸入-輸出需要成對(duì)的資料,而chatgpt 成功解決了這一個(gè)難題。

chatgpt不需要成對(duì)的資料,只需要一段有用的資料,便可以自己學(xué)習(xí)內(nèi)容,如下:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.1 發(fā)展歷程

初代和第二代gpt
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
第二代到第三代
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
gpt3還會(huì)寫代碼
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
其性能表現(xiàn)
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
但是gpt3也有缺點(diǎn)【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.2 預(yù)訓(xùn)練+監(jiān)督學(xué)習(xí)

想要實(shí)現(xiàn)chat的功能,就得經(jīng)過(guò)一個(gè)監(jiān)督式學(xué)習(xí)(問(wèn)答),就要在預(yù)訓(xùn)練后,增加一個(gè)監(jiān)督學(xué)習(xí)的流程,賦予模型問(wèn)答能力
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

預(yù)訓(xùn)練的好處

在多種語(yǔ)言上做過(guò)多訓(xùn)練以后,某一語(yǔ)言的任務(wù)會(huì)幫助其他語(yǔ)言學(xué)會(huì)同樣的任務(wù)。

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

實(shí)驗(yàn)數(shù)據(jù)如下:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.3 增強(qiáng)式學(xué)習(xí)

chatgpt還引入了增強(qiáng)式學(xué)習(xí),給好的回答更多獎(jiǎng)賞回饋。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.4 對(duì)訓(xùn)練數(shù)據(jù)的記憶

其能夠記得訓(xùn)練數(shù)據(jù)的部分信息:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.5 更新參數(shù)

可以通過(guò)對(duì)話改變其記憶:

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.6 AI內(nèi)容檢測(cè)

檢測(cè)某一段文字是否為AI生成的,最簡(jiǎn)單的做法是這樣:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.7 保護(hù)隱私

有時(shí)候模型會(huì)泄漏訓(xùn)練數(shù)據(jù),需要遺忘學(xué)習(xí):
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

1.8 gpt和bert

一個(gè)是做文字接龍,一個(gè)是做文字填空:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

窮人怎么用gpt

方法1 縮短輸入

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
把多個(gè)問(wèn)題一起丟進(jìn)去:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
方法2 自建模型

方法3 LLM cascade

2 生成式模型

主要分為以下三種,注意英文的token指的不是單個(gè)完整的單詞,而是要把一個(gè)單詞拆分成前綴后綴的形式,拆解成更小的單位:

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.1 生成方式

生成式有兩種策略——各個(gè)擊破一次到位,下面先介紹各個(gè)擊破

2.1.1 各個(gè)擊破 Autoregressive

每次生成一個(gè)(token),然后按照序列形式把全部完整的內(nèi)容生成:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
這種方式生成效果好,但是所需要的時(shí)間長(zhǎng)。%

2.1.2 一次到位 Non-autoregressive

x需要先設(shè)定最大輸出長(zhǎng)度,由于不需要每次都保證輸出的內(nèi)容一樣長(zhǎng),需要一個(gè)end標(biāo)志符表示結(jié)束。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
兩者比較:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.1.3 兩者結(jié)合

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.2 預(yù)訓(xùn)練和微調(diào)

一般都是先訓(xùn)練一個(gè)通用模型,然后在某些任務(wù)上做微調(diào)(finetune)。

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.3 指示學(xué)習(xí) instruction learning 和 上下文學(xué)習(xí) in-context learning

和chatgpt進(jìn)行交互的時(shí)候,我們的promt可能包可以分為兩種情況:指示學(xué)習(xí) instruction learning 和 上下文學(xué)習(xí) in-context learning。所以在模型訓(xùn)練階段,我們需要制造一些成對(duì)的語(yǔ)料數(shù)據(jù)加強(qiáng)模型的這兩種學(xué)習(xí)的能力。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

前者是給模型一些指示,當(dāng)模型進(jìn)行學(xué)習(xí)和回答,后者是通過(guò)一些例子,讓模型進(jìn)行學(xué)習(xí)和回答。

2.2.1 上下文學(xué)習(xí) in-context learning

即讓機(jī)器在例子中進(jìn)行學(xué)習(xí)。為got提供一些例子,比如情感分析中:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
但是不同于傳統(tǒng)的模型更新(梯度下降),這里gpt的學(xué)習(xí),不會(huì)更改其模型參數(shù)。
通過(guò)例子,雖然不會(huì)提升多少情感分析的能力,而是為了喚醒gpt的情感分析能力,這個(gè)結(jié)果來(lái)自一篇文獻(xiàn)的實(shí)驗(yàn)結(jié)論。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.2.2 指示學(xué)習(xí) instruction learning

讓gpt能夠看懂指令:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
一個(gè)指示學(xué)習(xí)的例子:判斷這句話的情感:給女朋友買了這個(gè)項(xiàng)鏈,她很喜歡。選項(xiàng):A=好;B=一般;C=差。

訓(xùn)練階段和測(cè)試階段,可以是不同的任務(wù)的指示。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
用人類的語(yǔ)言訓(xùn)練:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.2.3 chain of thought (CoT) prompting

讓模型給出推理過(guò)程,這樣能夠讓模型做出更正確的答案。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
讓模型具備這個(gè)能力,就得在模型訓(xùn)練階段給出這樣的“帶有推理過(guò)程”的語(yǔ)料。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

讓模型自動(dòng)生成prompt

這里的promt也可以理解為指令。
1。 使用 soft prompt
之前我們講的都是hard prompt,但其實(shí)還有soft prompt,給一堆向量而不是人類語(yǔ)言。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
2. 使用強(qiáng)化學(xué)習(xí)。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
3. 讓模型自己尋找,下一些特殊指令:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
最佳指令可以極大的提升模型的性能:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.3 訓(xùn)練數(shù)據(jù)的預(yù)處理

數(shù)據(jù)的收集和處理需要用到以下內(nèi)容:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
去掉重復(fù)資料的重要性:假設(shè)一段話在訓(xùn)練數(shù)據(jù)中出現(xiàn)了6w多次,會(huì)發(fā)現(xiàn)模型很容易說(shuō)出這些話,因此應(yīng)該避免這種情況。

在固定運(yùn)算資源的情況下,如何選擇模型規(guī)模和數(shù)據(jù)集規(guī)模?有人做了相關(guān)實(shí)驗(yàn),一條線表示固定的運(yùn)算資源情況下的結(jié)果,縱軸的越小越好:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
所以要找到每個(gè)U型曲線的最低點(diǎn),把這些最低點(diǎn)串起來(lái)可以得到如下的圖:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
模型規(guī)模和資料最佳適配比:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
除此以外,指示學(xué)習(xí)(instruction-tuning)也可以大大提升模型的性能。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

2.4 Human Teaching (強(qiáng)化學(xué)習(xí))

這也是一種輔助模型訓(xùn)練的技術(shù)(強(qiáng)化學(xué)習(xí)),可以有效提高模型的性能,讓小模型吊打大模型的性能。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

KNN+LM

一般的LM是這樣的運(yùn)作方式:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
而KNN+LM是這樣的,尋找embedding的相似度
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
這樣做會(huì)帶來(lái)什么神奇的效果?
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
但是這種語(yǔ)言模型非常的慢

2.5 信心越高,正確率越高

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

讓AI 解釋AI

來(lái)解讀一下這篇文章:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
解釋什么?——知道每一個(gè)神經(jīng)元的作用、和哪些詞關(guān)聯(lián)度最大:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
有工作發(fā)現(xiàn)了某一個(gè)神經(jīng)元遇到以下詞時(shí)輸出會(huì)很大,通過(guò)觀察發(fā)現(xiàn),下一個(gè)會(huì)出現(xiàn)“an”:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
如何操作?輸入以下promt:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
能得到以下結(jié)果:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
其他結(jié)果:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

如何判斷解釋的好不好?

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
然后去gpt2模型找到那個(gè)神經(jīng)元檢查一下:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

完整的prompt

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
縱軸表示可解釋性的分?jǐn)?shù),分?jǐn)?shù)越高,可解釋性越好,結(jié)論是小模型更容易解釋、越底層的神經(jīng)元越容易解釋。
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)

大致流程

【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
讓模型扮演一個(gè)神經(jīng)元:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)
尋找神經(jīng)元在什么時(shí)候激活值較大:
【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-483668.html

到了這里,關(guān)于【LLM GPT】大型語(yǔ)言模型 理解和實(shí)現(xiàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 大型語(yǔ)言模型 (LLM)全解讀

    大型語(yǔ)言模型 (LLM)全解讀

    大型語(yǔ)言模型 是 一種深度學(xué)習(xí)算法 ,可以 執(zhí)行各種自然語(yǔ)言處理 (NLP) 任務(wù) 。 大型語(yǔ)言模型底層 使用多個(gè)轉(zhuǎn)換器模型 , 底層轉(zhuǎn)換器是一組神經(jīng)網(wǎng)絡(luò) 。 大型語(yǔ)言模型是 使用海量數(shù)據(jù)集 進(jìn)行訓(xùn)練的超大型深度學(xué)習(xí)模型。 這也是它們能夠識(shí)別、翻譯、預(yù)測(cè)或生成文本或其他

    2024年01月23日
    瀏覽(34)
  • 大型語(yǔ)言模型LLM的基礎(chǔ)應(yīng)用

    大型語(yǔ)言模型LLM的基礎(chǔ)應(yīng)用

    ChatGPT是由人工智能研究實(shí)驗(yàn)室OpenAI在2022年11月30日發(fā)布的全新聊天機(jī)器人模型,一款人工智能技術(shù)驅(qū)動(dòng)的自然語(yǔ)言處理工具。它能夠通過(guò)學(xué)習(xí)和理解人類的語(yǔ)言來(lái)進(jìn)行對(duì)話,還能根據(jù)聊天的上下文進(jìn)行互動(dòng),真正像人類一樣來(lái)聊天交流,甚至能完成撰寫郵件、視頻腳本、文案

    2024年02月09日
    瀏覽(62)
  • 大語(yǔ)言模型(LLM)綜述(五):使用大型語(yǔ)言模型的主要方法

    大語(yǔ)言模型(LLM)綜述(五):使用大型語(yǔ)言模型的主要方法

    隨著人工智能和機(jī)器學(xué)習(xí)領(lǐng)域的迅速發(fā)展,語(yǔ)言模型已經(jīng)從簡(jiǎn)單的詞袋模型(Bag-of-Words)和N-gram模型演變?yōu)楦鼮閺?fù)雜和強(qiáng)大的神經(jīng)網(wǎng)絡(luò)模型。在這一進(jìn)程中,大型語(yǔ)言模型(LLM)尤為引人注目,它們不僅在自然語(yǔ)言處理(NLP)任務(wù)中表現(xiàn)出色,而且在各種跨領(lǐng)域應(yīng)用中也展示

    2024年02月06日
    瀏覽(23)
  • 【NLP】如何管理大型語(yǔ)言模型 (LLM)

    【NLP】如何管理大型語(yǔ)言模型 (LLM)

    LLM 編排是管理和控制大型語(yǔ)言模型 (LLM)的過(guò)程,以優(yōu)化其性能和有效性。這包括以下任務(wù): 提示LLM: 生成有效的提示,為L(zhǎng)LMs提供適當(dāng)?shù)谋尘昂托畔⒁援a(chǎn)生所需的輸出。 鏈接LLM: ?結(jié)合多個(gè)LLM的輸出以獲得更復(fù)雜或更細(xì)致的結(jié)果。 管理LLM資源: ?有效分配和管理LLM資源以滿

    2024年02月05日
    瀏覽(22)
  • 如何解決LLM(大型語(yǔ)言模型)幻覺(jué)問(wèn)題

    LLM幻覺(jué)問(wèn)題是什么? LLM(大型語(yǔ)言模型)幻覺(jué)問(wèn)題指的是當(dāng)大型語(yǔ)言模型(如我這樣的)在處理請(qǐng)求時(shí)產(chǎn)生的不準(zhǔn)確或虛構(gòu)的信息。這些幻覺(jué)可能是因?yàn)槟P偷挠?xùn)練數(shù)據(jù)不足、錯(cuò)誤或偏見(jiàn),或者是因?yàn)槟P驮谔幚砟承┨囟愋偷膯?wèn)題時(shí)的局限性。具體來(lái)說(shuō),這些問(wèn)題可能包括

    2024年02月02日
    瀏覽(29)
  • ChatGPT和大型語(yǔ)言模型(LLM)是什么關(guān)系?

    什么是語(yǔ)言模型:\\\" 語(yǔ)言模型的本質(zhì)是一個(gè)數(shù)學(xué)模型,用于捕捉和理解人類語(yǔ)言的結(jié)構(gòu)和規(guī)律 。它通過(guò)分析大量文本數(shù)據(jù)中的單詞或字符之間的關(guān)系,以概率的方式預(yù)測(cè)在給定上下文情況下下一個(gè)可能出現(xiàn)的單詞或字符。這種模型允許計(jì)算機(jī)在生成文本、翻譯語(yǔ)言、問(wèn)答等任

    2024年02月10日
    瀏覽(15)
  • 【人工智能】LLM 大型語(yǔ)言模型發(fā)展歷史
  • LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(五):評(píng)估

    LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(五):評(píng)估

    LangChain是一個(gè)基于大語(yǔ)言模型(如ChatGPT)用于構(gòu)建端到端語(yǔ)言模型應(yīng)用的 Python 框架。它提供了一套工具、組件和接口,可簡(jiǎn)化創(chuàng)建由大型語(yǔ)言模型 (LLM) 和聊天模型提供支持的應(yīng)用程序的過(guò)程。LangChain 可以輕松管理與語(yǔ)言模型的交互,將多個(gè)組件鏈接在一起,以便在不同的

    2024年02月15日
    瀏覽(30)
  • LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(三):Chains

    LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(三):Chains

    LangChain是一個(gè)基于大語(yǔ)言模型(如ChatGPT)用于構(gòu)建端到端語(yǔ)言模型應(yīng)用的 Python 框架。它提供了一套工具、組件和接口,可簡(jiǎn)化創(chuàng)建由大型語(yǔ)言模型 (LLM) 和聊天模型提供支持的應(yīng)用程序的過(guò)程。LangChain 可以輕松管理與語(yǔ)言模型的交互,將多個(gè)組件鏈接在一起,以便在不同的

    2024年02月12日
    瀏覽(20)
  • LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(六):Agents

    LangChain大型語(yǔ)言模型(LLM)應(yīng)用開(kāi)發(fā)(六):Agents

    LangChain是一個(gè)基于大語(yǔ)言模型(如ChatGPT)用于構(gòu)建端到端語(yǔ)言模型應(yīng)用的 Python 框架。它提供了一套工具、組件和接口,可簡(jiǎn)化創(chuàng)建由大型語(yǔ)言模型 (LLM) 和聊天模型提供支持的應(yīng)用程序的過(guò)程。LangChain 可以輕松管理與語(yǔ)言模型的交互,將多個(gè)組件鏈接在一起,以便在不同的

    2024年02月16日
    瀏覽(30)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包