国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長

這篇具有很好參考價(jià)值的文章主要介紹了【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

有朋友問,BERT等大模型的參數(shù)量怎么計(jì)算的?這個(gè)問題,李沐在BERT那篇論文中講過,主要包括幾部分。1、詞嵌入:token數(shù)量乘以token表示的向量長度,就是 VH;2、注意力計(jì)算沒有參數(shù),只計(jì)算多頭注意力的投影矩陣,三個(gè)輸入的權(quán)重矩陣,每個(gè)矩陣參數(shù)= H(H/頭數(shù))頭數(shù)= HH,輸出的權(quán)重矩陣參數(shù)= HH,共是4HH;3、MLP部分,隱藏層為4H,輸入輸出層都為H,就是8HH。其他的一些參數(shù)量相對(duì)較少,大概的參數(shù)量就約等于Transformer塊數(shù)(12HH)+VH。(下圖截取自李沐講論文之BERT篇)
【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長,AI學(xué)習(xí),人工智能,學(xué)習(xí),transformer
比如BERT的基礎(chǔ)模型,H=768,Transformer塊數(shù)是12塊,V大概是3萬,這樣參數(shù)量就是一億多。對(duì)于著名的GPT3,Transformer塊數(shù)是96塊,H=12288,這樣參數(shù)量121228812288*96,大概就是1750億。
這個(gè)問題不復(fù)雜,但是接著想到,H為什么要取那么大。對(duì)于BERT,Token的總數(shù)量大概是三萬,三萬的數(shù)量不用20bit就可以表示,為什么Token嵌入表示需要使用768維度的向量,并且,模型越大,Token嵌入表示的向量越長,這是為什么?
想到了這個(gè)問題,好像就進(jìn)一步理解了Transformer架構(gòu)的內(nèi)涵。主要是為了使Token嵌入表示能夠充分地捕捉到全局的語義信息。注意力機(jī)制的本質(zhì),我理解,就是信息匯聚,在一個(gè)長的文本序列中,通過不斷的注意力匯聚,每一個(gè)Token除了本身的語義信息,還不斷獲得整個(gè)文本的信息,最后獲得了文本序列中與自己相關(guān)的全部的語義信息,這樣隨著模型規(guī)模增大,語義信息匯聚的增加,Token嵌入表示就需要使用更高維度的向量表示。換句話說,經(jīng)過Transformer編碼器后的每個(gè)Token,已經(jīng)不是一個(gè)單獨(dú)的Token,而是擁有了過去、現(xiàn)在和未來的全局文本語義信息,能夠理解過去,也能夠預(yù)測(cè)未來。

然后繼續(xù)聯(lián)想到,大模型的語言,形成了與人類語言不同的范式,有點(diǎn)像蔣特德的科幻小說《你一生的故事》中的外星人的語言。想到這,就覺得,LLM真是太有意思了。

關(guān)于《你一生的故事》,摘錄百度百科的介紹:
《你一生的故事》是一篇少見的以語言學(xué)為核心的科幻小說,榮獲1998年的星云獎(jiǎng)和斯特金獎(jiǎng)。對(duì)于那些熱衷于描寫地球人與外星人交往的科幻作家來說,智慧生物之間交流所必需的語言本是他們必須要解決的首要問題。但是很顯然,絕大多數(shù)作家都狡猾地回避了這個(gè)問題。在他們的故事中,語言障礙總是被一筆帶過:故事開始不久,他們就讓地球科學(xué)家拿著自動(dòng)翻譯器出現(xiàn)在了外星人面前。
從語言學(xué)角度切入描寫兩種智慧生物的交流是對(duì)想像力的挑戰(zhàn)??苹糜惺钒儆嗄陙?,只有特德·蔣在應(yīng)對(duì)這種挑戰(zhàn)中,取得了令人矚目的成就?!赌阋簧墓适隆吩趯⒄Z言學(xué)的魅力表現(xiàn)到極致的同時(shí),更奠定了特德·蔣科幻名家的地位?!赌阋簧墓适隆分械耐庑侨吮环Q為“七肢桶”。七肢桶文字,頗有幾分像中國的象形文字,所不同的只是,七肢桶不是靠一個(gè)個(gè)具有獨(dú)立意義的字詞來表意,而是將所有需要表達(dá)的語意都統(tǒng)一在一個(gè)字內(nèi)。語意越是繁復(fù),這個(gè)字就越是復(fù)雜。
更奇妙的是七肢桶語言背后的感知世界的方式。那種方式與我們完全不同。我們依照前后順序感知世界,將各個(gè)事件之間的關(guān)系理解為因與果;而“七肢桶”則同時(shí)感知所有事件,既可以先看“因”,也可以先看“果”。這種感知世界的方式深深影響了故事的主人公(她受政府委托掌握七肢桶語言的過程,就是她感知世界的方式發(fā)生改變的過程),她因而洞悉了自己,以及她那個(gè)暫時(shí)還不存在的女兒的一生。雖然我們很明白這意味著什么,但是,當(dāng)讀到“然后,突然間,我已經(jīng)在太平間。一個(gè)勤雜工掀開罩單,露出你的臉。我看見的是二十五歲時(shí)的你(她的女兒)”時(shí),那種驚悚,還是讓我們猝不及防。小說獨(dú)具匠心地采用了第一人稱視角與第二人稱視角交替推進(jìn)的手法,字里行間充溢著科幻小說特有的奇異感。讀者在感受七肢桶語言獨(dú)特魅力的同時(shí),更感受到一種緣于宿命的憂傷:那憂傷融和著詩一般的意象,最終凝聚成女主人公的感嘆——“一瞥之下,過去與未來轟然同時(shí)并至,我的意識(shí)成為長達(dá)半個(gè)世紀(jì)的灰燼,時(shí)間未至已成灰。我的余生盡在其中?!?span toymoban-style="hidden">文章來源地址http://www.zghlxwxcb.cn/news/detail-857625.html

到了這里,關(guān)于【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【知識(shí)儲(chǔ)備】Transformer為什么用LN而不用BN
  • AIGC基礎(chǔ):大型語言模型 (LLM) 為什么使用向量數(shù)據(jù)庫,嵌入(Embeddings)又是什么?

    嵌入: 它是指什么?嵌入是將數(shù)據(jù)(例如文本、圖像或代碼)轉(zhuǎn)換為高維向量的數(shù)值表示。這些向量捕捉了數(shù)據(jù)點(diǎn)之間的語義含義和關(guān)系??梢詫⑵淅斫鉃閷?fù)雜數(shù)據(jù)翻譯成 LLM 可以理解的語言。 為什么有用?原始數(shù)據(jù)之間的相似性反映在高維空間中對(duì)應(yīng)向量之間的距離上。

    2024年02月21日
    瀏覽(101)
  • 不是說嵌入式是風(fēng)口嗎,那為什么工作還那么難找?

    不是說嵌入式是風(fēng)口嗎,那為什么工作還那么難找?

    最近確實(shí)有很多媒體、機(jī)構(gòu)渲染嵌入式可以拿高薪 ,這在行業(yè)內(nèi)也是事實(shí),但前提是你有足夠的競(jìng)爭(zhēng)力,真的懂嵌入式。 時(shí)至今日,能做嵌入式程序開發(fā)的人其實(shí)相當(dāng)常見,尤其是隨著樹莓派、Arduino等開發(fā)板的普及,甚至軟件工程師也可以轉(zhuǎn)向嵌入式開發(fā)。 然而,真正能夠

    2024年02月12日
    瀏覽(31)
  • AI訓(xùn)練,為什么需要GPU?

    AI訓(xùn)練,為什么需要GPU?

    隨著人工智能熱潮,GPU成為了AI大模型訓(xùn)練平臺(tái)的基石,決定了算力能力。為什么GPU能力壓CPU,成為炙手可熱的主角呢?首先我們要先了解一下GPU的分類。提到分類,就得提及到芯片。 半導(dǎo)體芯片分為 數(shù)字芯片 和 模擬芯片 。其中,數(shù)字芯片的市場(chǎng)規(guī)模占比較大,達(dá)到70%左右

    2024年04月11日
    瀏覽(22)
  • AI寫作寶-為什么要使用寫作寶

    AI寫作寶-為什么要使用寫作寶

    寫作一直是一項(xiàng)需要?jiǎng)?chuàng)造力和思考的任務(wù),人工智能(AI)正逐漸成為我們寫作過程中的一位新伙伴。AI寫作寶等在線AI寫作工具正日益普及,為我們提供了更多的寫作選擇和可能性。 AI寫作寶:什么是它們,以及它們能做什么? AI寫作寶是一種基于人工智能技術(shù)的在線工具,

    2024年02月07日
    瀏覽(24)
  • 【譯】為什么AI難以概念化時(shí)間

    【譯】為什么AI難以概念化時(shí)間

    原作:FNTGAI 引言:如何彌合AI與先驗(yàn)概念之間的鴻溝 ? 時(shí)間不是你能看到、聽到或觸摸到的東西。這就是康德所說的“先驗(yàn)”,意味著它在感官中沒有對(duì)應(yīng)物。你無法給時(shí)間貼標(biāo)簽或分類。這使得AI很難建立時(shí)間概念。例如,考慮一下當(dāng)您詢問 ChatGPT 您與它交談了多長時(shí)間時(shí)

    2024年02月20日
    瀏覽(27)
  • 為什么是ChatGPT引發(fā)了AI浪潮?

    為什么是ChatGPT引發(fā)了AI浪潮?

    目錄 BERT和GPT簡介 BERT和GPT核心差異 GPT的優(yōu)勢(shì) GPT的劣勢(shì) 總結(jié) 隨著近期ChatGPT的火熱,引發(fā)各行各業(yè)都開始討論AI,以及AI可以如何應(yīng)用到各個(gè)細(xì)分場(chǎng)景。為了不被時(shí)代“拋棄”,我也投入了相當(dāng)?shù)木τ糜谘芯亢吞剿?。但在試?yàn)的過程中,我的直觀感受是,NLP很厲害,但GPT并不

    2024年02月06日
    瀏覽(20)
  • ai寫作論文會(huì)被抄襲嗎為什么

    ai寫作論文會(huì)被抄襲嗎為什么

    大家好,小發(fā)貓降重今天來聊聊ai寫作論文會(huì)被抄襲嗎為什么,希望能給大家提供一點(diǎn)參考。 以下是針對(duì)論文重復(fù)率高的情況,提供一些修改建議和技巧,可以借助此類工具: 標(biāo)題:AI寫作論文會(huì)被抄襲嗎?背后原因深度解析 近年來,隨著人工智能技術(shù)的飛速發(fā)展,AI寫作論

    2024年03月10日
    瀏覽(23)
  • 【譯】為什么AI寫作會(huì)顯得枯燥無味

    【譯】為什么AI寫作會(huì)顯得枯燥無味

    原作:本·烏蘭西 引子:繪畫中減色混合的原理 ? 照片由 Unsplash 上的 Lucas K 拍攝 當(dāng)我還是個(gè)孩子的時(shí)候,我坐在一個(gè)有各種顏色的調(diào)色板前,努力嘗試混合盡可能多的顏色。懷著興奮的眼神,我看著鮮艷的顏色在畫面上融合。隨著越來越多的顏色相互融合,我困惑地盯著由

    2024年02月19日
    瀏覽(22)
  • 為什么不要相信AI機(jī)器人提供的健康信息?

    為什么不要相信AI機(jī)器人提供的健康信息?

    自從OpenAI、微軟和谷歌推出了AI聊天機(jī)器人,許多人開始嘗試一種新的互聯(lián)網(wǎng)搜索方式:與一個(gè)模型進(jìn)行對(duì)話,而它從整個(gè)網(wǎng)絡(luò)上學(xué)到的知識(shí)。 專家表示,鑒于之前我們傾向于通過搜索引擎查詢健康問題,我們也不可避免地會(huì)向ChatGPT、Bing和Bard等工具提問。然而,這些工具會(huì)

    2024年02月08日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包