国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇)

這篇具有很好參考價(jià)值的文章主要介紹了探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

????????探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇),AI技術(shù),chatgpt,transformer,深度學(xué)習(xí)

????????Transformer 是 ChatGPT 的核心部分,如果將 AI 看做一輛高速運(yùn)轉(zhuǎn)的汽車,那么 Transformer 就是最重要的引擎。它是谷歌于 2017 年發(fā)表的《Attention is All You Need》中提出的 Sequence-to-sequence 的模型,誕生之后便一統(tǒng)江湖,在 NLP, CV, Audio, Video 多個(gè)模態(tài)領(lǐng)域成為了遙遙領(lǐng)先。

  1. 如果你之前不了解 Transformer, 或者只知道大概的知識(shí),那么這篇文章可以讓你通過自己動(dòng)手寫代碼深刻地理解 Transformer 的結(jié)構(gòu)、訓(xùn)練方法以及實(shí)際用例等;

  2. 如果你了解 Transformer,這篇文章可以讓你溫習(xí) Transformer 的知識(shí),所謂溫故而知新;

????????由于內(nèi)容很多,因此拆分為幾篇文章的內(nèi)容。

模型結(jié)構(gòu)

總體流程:

探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇),AI技術(shù),chatgpt,transformer,深度學(xué)習(xí)

? ? ? ? 分為 輸入(Input), 模型(Model), 輸出(Output) 三部分。接下來詳細(xì)說明每一個(gè)部分。

輸入

????????輸入:"我有一只貓"

????????分詞:用某種分詞方法輸出 ["我",“有”,“一只”, “貓”],常用的中文分詞方法有 jieba 分詞,THULAC分詞等(想要詳細(xì)了解這些分詞方法可以問 悟空 AI 助手,支持 GPT 3.5, GPT 4),這里每個(gè)詞也叫做 token(token 的概念很重要,后面反復(fù)用到)

????????轉(zhuǎn) Embedding: 將 ["我“,“有”,“一只”, “貓”] 的每一個(gè)詞轉(zhuǎn)為一個(gè)實(shí)數(shù)向量,常見的是 512 維的向量,因?yàn)橛?4 個(gè)詞,每個(gè)詞變成 512 維向量,所以得到 4*512 維的矩陣,一般用 tensor 存儲(chǔ),簡單的就記作 x。具體的轉(zhuǎn)換方法可以問悟空AI,但是本文后面會(huì)詳細(xì)講到的。

????????添加位置 Embedding: 位置 embedding 是對(duì) token 順序的一種表示,因?yàn)?token 順序很重要。例如:

["我",“愛”,“你”] 跟 ["你",“愛”,“我”],token 順序變一下含義就完全不同!那么最簡單的順序表示方法就是 1,2,3,...N,用數(shù)組索引表示位置,但是 Transformer 沒有這么干而是用正弦/余弦函數(shù)來表示:

探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇),AI技術(shù),chatgpt,transformer,深度學(xué)習(xí)

????????其中,PE 就是位置編碼(Positional Embedding),pos 表示單詞在句子中的位置,d 表示 PE的維度 (與詞 Embedding 一樣),2i 表示偶數(shù)的維度,2i+1 表示奇數(shù)維度 (即 2i≤d, 2i+1≤d)。畫圖看一下就是這樣:

探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇),AI技術(shù),chatgpt,transformer,深度學(xué)習(xí)

????????腦經(jīng)急轉(zhuǎn)彎:為什么位置 embedding 不用 [1,2,3,...N] 來表示順序?

????????請認(rèn)真思考 5 分鐘后再看下面的答案。

????????有兩個(gè)原因:

  1. 保證模型訓(xùn)練穩(wěn)定性和快速收斂性:類似于 data normalization, 原始數(shù)據(jù)的取值可以是負(fù)無窮到正無窮,但是一旦輸入到模型就要強(qiáng)制歸一化到一個(gè)固定區(qū)間,常見的是 [-1, 1] 區(qū)間,這樣做可以大幅加速模型收斂并減少訓(xùn)練誤差,但是 1,2,3,...,N 是沒有界限的,如果簡單的除以 N 來歸一化,那么 N 取多少比較合適呢?實(shí)際上很難選擇 N 的值,所以一個(gè)比較合適的選擇就是周期性函數(shù),最經(jīng)典好用的就是正弦/余弦,為啥嘞?因?yàn)樗鼈兒艹R姸仪髮?dǎo)巨簡單,忘了它們導(dǎo)數(shù)的去問問 悟空 AI 助手

  2. 要遵循文本結(jié)構(gòu)的周期性:任何一個(gè)句子,任何一個(gè)段落都是具有周期性的。為啥呢,因?yàn)樗械木渥佣加泄潭ǖ慕Y(jié)構(gòu),最常見的是:主語 + 謂語 + 賓語,所以一段話的結(jié)構(gòu)其實(shí)類似于這樣子的:

?主語 + 謂語 + 賓語 + 標(biāo)點(diǎn)符號(hào) + 主語 + 謂語 + 賓語 + 標(biāo)點(diǎn)符號(hào), ......

????????很自然地,就想到了用周期性函數(shù)來表示位置了。

????????網(wǎng)上有人說其中一個(gè)原因是可以讓模型容易地計(jì)算出相對(duì)位置,對(duì)于固定長度的間距 k,PE(pos+k) 可以用 PE(pos) 計(jì)算得到。因?yàn)?Sin(A+B) = Sin(A)Cos(B) + Cos(A)Sin(B), Cos(A+B) = Cos(A)Cos(B) - Sin(A)Sin(B)。這個(gè)我個(gè)人表示不認(rèn)同,因?yàn)?1,2,3,...N 也符合這個(gè)性質(zhì),不信你算一下。

????????然后,將文本的 embedding 和位置的 embedding 加起來就是模型的輸入了,如下:

? ??探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇),AI技術(shù),chatgpt,transformer,深度學(xué)習(xí)

????????到這里 Transformer 的輸入就講完了,下一篇將介紹模型的結(jié)構(gòu)。文章來源地址http://www.zghlxwxcb.cn/news/detail-849006.html

到了這里,關(guān)于探究 ChatGPT 的心臟--Transformer(基礎(chǔ)知識(shí)第一篇)的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【STM32】基礎(chǔ)知識(shí) 第一課 單片機(jī)簡介

    【STM32】基礎(chǔ)知識(shí) 第一課 單片機(jī)簡介

    單片機(jī) (Single-Chip Microcomputer) 單品微型計(jì)算機(jī), 是一種集成電路芯片. 電腦 vs 單片機(jī): 電腦 單片機(jī) CPU CPU 內(nèi)存 SRAM 硬盤 Flash 主板 外設(shè) SRAM 靜態(tài)隨機(jī)讀取器 (Static Random-Access Memory): SRAM 是隨機(jī)存儲(chǔ)器的一種, 屬于靜態(tài)數(shù)據(jù), 這類存儲(chǔ)器要是維持電源, 里面存儲(chǔ)的信息就可以恒常維持

    2024年02月11日
    瀏覽(101)
  • Python庫第一課:基礎(chǔ)Numpy知識(shí)(下):矩陣

    Python庫第一課:基礎(chǔ)Numpy知識(shí)(下):矩陣

    ? ? ? ? 好的,我們今天繼續(xù)來學(xué)習(xí)Numpy的基礎(chǔ),昨天,已經(jīng)介紹完Numpy的成員之一——數(shù)組,今天,在接著介紹其另一大成員——矩陣,也是應(yīng)用非常廣泛的成員。 ? ? ? ? 矩陣,在線性代數(shù)中是幾乎貫穿全文的成員,因此,這里需要較高的線性代數(shù)的基礎(chǔ)。在這里,默認(rèn)

    2024年02月03日
    瀏覽(31)
  • 詳解TCP/IP協(xié)議第一篇:網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    詳解TCP/IP協(xié)議第一篇:網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    ???? 學(xué)習(xí)交流群: ??1:這是孫哥suns給大家的福利! ??2:我們免費(fèi)分享Netty、Dubbo、k8s、Mybatis、Spring...應(yīng)用和源碼級(jí)別的視頻資料 ????3:QQ群:583783824 ? ???? ?工作微信:BigTreeJava 拉你進(jìn)微信群,免費(fèi)領(lǐng)??! ????4:本文章內(nèi)容出自上述:Spring應(yīng)用課程!????

    2024年02月09日
    瀏覽(28)
  • 【軟考數(shù)據(jù)庫】第一章 計(jì)算機(jī)系統(tǒng)基礎(chǔ)知識(shí)

    【軟考數(shù)據(jù)庫】第一章 計(jì)算機(jī)系統(tǒng)基礎(chǔ)知識(shí)

    目錄 目錄 1.1 計(jì)算機(jī)系統(tǒng) 1.1.1 計(jì)算機(jī)硬件組成 1.1.2 中央處理單元 1.1.3 數(shù)據(jù)表示 1.1.4 校驗(yàn)碼 1.2 計(jì)算機(jī)體系結(jié)構(gòu) 1.2.1 體系結(jié)構(gòu)分類 1.2.2?指令系統(tǒng)存 1.2.3?儲(chǔ)系系統(tǒng) 1.2.4?輸入/輸出技術(shù) 1.2.5?總線結(jié)構(gòu) 1.3 可靠性、性能、安全 1.3.1 計(jì)算機(jī)可靠性 1.3.2?計(jì)算機(jī)系統(tǒng)的性能評(píng)價(jià) 1.

    2023年04月13日
    瀏覽(23)
  • 明德?lián)PFPGA至簡設(shè)計(jì)原理與應(yīng)用 第一篇 FPGA基礎(chǔ)知識(shí) 第一章 FPGA簡介

    FPGA 的全稱為 Field-Programmable Gate Array, 即現(xiàn)場可編程門陣列。FPGA 就是一個(gè)可以“改變”內(nèi)部結(jié)構(gòu)的芯片,而讓這個(gè)芯片來實(shí)現(xiàn)怎樣的功能,就需要通過編程即設(shè)計(jì)HDL,經(jīng)過 EDA工具編譯、綜合、布局布線成后轉(zhuǎn)換為可燒錄的文件,最終加載到 FPGA 器件中去,改變 FPGA 內(nèi)部的連

    2024年01月16日
    瀏覽(221)
  • [ XJTUSE ]JAVA語言基礎(chǔ)知識(shí)——第一章 面向?qū)ο蟪绦蛟O(shè)計(jì)思想

    類描述了一組有相同 特性 (屬性)和相同 行為 (方法)的對(duì)象,類和對(duì)象是面向?qū)ο笏枷氲膬蓚€(gè)核心概念 · 人類是一種類,每一個(gè)具體的人則是這個(gè)類的對(duì)象 用面向?qū)ο蟪绦騺砟M真實(shí)世界 發(fā)現(xiàn)并創(chuàng)建類 發(fā)現(xiàn)類的特征 發(fā)現(xiàn)類的行為 在面向?qū)ο蟪绦蛑?,?duì)象的特征由各種

    2023年04月13日
    瀏覽(230)
  • Unity | Shader基礎(chǔ)知識(shí)(第一集:unity中最簡單的shader)

    Unity | Shader基礎(chǔ)知識(shí)(第一集:unity中最簡單的shader)

    目錄 一、unity的shader 二、創(chuàng)建一個(gè)shader(在創(chuàng)建時(shí),選前三種都可以) 三、內(nèi)容解讀 1.shader一直都在 2.我們寫shader在寫什么 四、沒有被干預(yù)的shader(最簡單的shader) 相關(guān)閱讀 編寫著色器概述 - Unity 手冊 一、unity的shader unity寫的shader并不是真正意義上的shader。 官方解釋:

    2024年02月04日
    瀏覽(18)
  • 計(jì)算機(jī)網(wǎng)絡(luò)之TCP/IP協(xié)議第一篇:網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    計(jì)算機(jī)網(wǎng)絡(luò)之TCP/IP協(xié)議第一篇:網(wǎng)絡(luò)基礎(chǔ)知識(shí)

    ???? 學(xué)習(xí)交流群: ??1:這是孫哥suns給大家的福利! ??2:我們免費(fèi)分享Netty、Dubbo、k8s、Mybatis、Spring...應(yīng)用和源碼級(jí)別的視頻資料 ????3:QQ群:583783824 ? ???? ?工作微信:BigTreeJava 拉你進(jìn)微信群,免費(fèi)領(lǐng)取! ????4:本文章內(nèi)容出自上述:Spring應(yīng)用課程!????

    2024年02月09日
    瀏覽(37)
  • ChatGPT的基礎(chǔ)知識(shí)

    ChatGPT是一種基于深度學(xué)習(xí)的自然語言處理技術(shù),其核心是一個(gè)神經(jīng)網(wǎng)絡(luò)模型,包括深度學(xué)習(xí)基礎(chǔ)、自然語言處理基礎(chǔ)、循環(huán)神經(jīng)網(wǎng)絡(luò)基礎(chǔ)和注意力機(jī)制基礎(chǔ)。 深度學(xué)習(xí)是一種基于人工神經(jīng)網(wǎng)絡(luò)的機(jī)器學(xué)習(xí)技術(shù),可以用來解決多種復(fù)雜的問題,比如圖像識(shí)別、自然語言處理、

    2024年02月06日
    瀏覽(31)
  • 機(jī)器學(xué)習(xí)第一周:用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Mnist手寫數(shù)字識(shí)別(付基礎(chǔ)知識(shí)解釋)

    MNIST 數(shù)據(jù)集是一個(gè)手寫數(shù)字識(shí)別數(shù)據(jù)集,包含了 60000 張訓(xùn)練圖像和 10000 張測試圖像,每張圖像都是 28x28 像素的灰度圖像。 在這個(gè)代碼中,我們首先使用了 numpy 庫中的 np.random.seed() 方法來設(shè)置隨機(jī)種子,以確保結(jié)果可重復(fù)。 然后,我們使用了 Keras 中的 mnist.load_data() 方法來

    2024年02月08日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包