国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長

1年前作者：bylander分類：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

有朋友問，BERT等大模型的參數(shù)量怎么計(jì)算的？這個(gè)問題，李沐在BERT那篇論文中講過，主要包括幾部分。1、詞嵌入：token數(shù)量乘以token表示的向量長度，就是 VH；2、注意力計(jì)算沒有參數(shù)，只計(jì)算多頭注意力的投影矩陣，三個(gè)輸入的權(quán)重矩陣，每個(gè)矩陣參數(shù)= H（H/頭數(shù)）頭數(shù)= HH，輸出的權(quán)重矩陣參數(shù)= HH，共是4HH；3、MLP部分，隱藏層為4H，輸入輸出層都為H，就是8HH。其他的一些參數(shù)量相對(duì)較少，大概的參數(shù)量就約等于Transformer塊數(shù)（12HH）+VH。(下圖截取自李沐講論文之BERT篇)
【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長,AI學(xué)習(xí),人工智能,學(xué)習(xí),transformer
比如BERT的基礎(chǔ)模型，H=768，Transformer塊數(shù)是12塊，V大概是3萬，這樣參數(shù)量就是一億多。對(duì)于著名的GPT3，Transformer塊數(shù)是96塊，H=12288，這樣參數(shù)量121228812288*96，大概就是1750億。
這個(gè)問題不復(fù)雜，但是接著想到，H為什么要取那么大。對(duì)于BERT，Token的總數(shù)量大概是三萬，三萬的數(shù)量不用20bit就可以表示，為什么Token嵌入表示需要使用768維度的向量，并且，模型越大，Token嵌入表示的向量越長，這是為什么？
想到了這個(gè)問題，好像就進(jìn)一步理解了Transformer架構(gòu)的內(nèi)涵。主要是為了使Token嵌入表示能夠充分地捕捉到全局的語義信息。注意力機(jī)制的本質(zhì)，我理解，就是信息匯聚，在一個(gè)長的文本序列中，通過不斷的注意力匯聚，每一個(gè)Token除了本身的語義信息，還不斷獲得整個(gè)文本的信息，最后獲得了文本序列中與自己相關(guān)的全部的語義信息，這樣隨著模型規(guī)模增大，語義信息匯聚的增加，Token嵌入表示就需要使用更高維度的向量表示。換句話說，經(jīng)過Transformer編碼器后的每個(gè)Token，已經(jīng)不是一個(gè)單獨(dú)的Token，而是擁有了過去、現(xiàn)在和未來的全局文本語義信息，能夠理解過去，也能夠預(yù)測(cè)未來。

然后繼續(xù)聯(lián)想到，大模型的語言，形成了與人類語言不同的范式，有點(diǎn)像蔣特德的科幻小說《你一生的故事》中的外星人的語言。想到這，就覺得，LLM真是太有意思了。

關(guān)于《你一生的故事》，摘錄百度百科的介紹：
《你一生的故事》是一篇少見的以語言學(xué)為核心的科幻小說，榮獲1998年的星云獎(jiǎng)和斯特金獎(jiǎng)。對(duì)于那些熱衷于描寫地球人與外星人交往的科幻作家來說，智慧生物之間交流所必需的語言本是他們必須要解決的首要問題。但是很顯然，絕大多數(shù)作家都狡猾地回避了這個(gè)問題。在他們的故事中，語言障礙總是被一筆帶過：故事開始不久，他們就讓地球科學(xué)家拿著自動(dòng)翻譯器出現(xiàn)在了外星人面前。
從語言學(xué)角度切入描寫兩種智慧生物的交流是對(duì)想像力的挑戰(zhàn)?？苹糜惺钒儆嗄陙?，只有特德·蔣在應(yīng)對(duì)這種挑戰(zhàn)中，取得了令人矚目的成就?！赌阋簧墓适隆吩趯⒄Z言學(xué)的魅力表現(xiàn)到極致的同時(shí)，更奠定了特德·蔣科幻名家的地位?！赌阋簧墓适隆分械耐庑侨吮环Q為“七肢桶”。七肢桶文字，頗有幾分像中國的象形文字，所不同的只是，七肢桶不是靠一個(gè)個(gè)具有獨(dú)立意義的字詞來表意，而是將所有需要表達(dá)的語意都統(tǒng)一在一個(gè)字內(nèi)。語意越是繁復(fù)，這個(gè)字就越是復(fù)雜。
更奇妙的是七肢桶語言背后的感知世界的方式。那種方式與我們完全不同。我們依照前后順序感知世界，將各個(gè)事件之間的關(guān)系理解為因與果；而“七肢桶”則同時(shí)感知所有事件，既可以先看“因”，也可以先看“果”。這種感知世界的方式深深影響了故事的主人公（她受政府委托掌握七肢桶語言的過程，就是她感知世界的方式發(fā)生改變的過程），她因而洞悉了自己，以及她那個(gè)暫時(shí)還不存在的女兒的一生。雖然我們很明白這意味著什么，但是，當(dāng)讀到“然后，突然間，我已經(jīng)在太平間。一個(gè)勤雜工掀開罩單，露出你的臉。我看見的是二十五歲時(shí)的你（她的女兒）”時(shí)，那種驚悚，還是讓我們猝不及防。小說獨(dú)具匠心地采用了第一人稱視角與第二人稱視角交替推進(jìn)的手法，字里行間充溢著科幻小說特有的奇異感。讀者在感受七肢桶語言獨(dú)特魅力的同時(shí)，更感受到一種緣于宿命的憂傷：那憂傷融和著詩一般的意象，最終凝聚成女主人公的感嘆——“一瞥之下，過去與未來轟然同時(shí)并至，我的意識(shí)成為長達(dá)半個(gè)世紀(jì)的灰燼，時(shí)間未至已成灰。我的余生盡在其中?！?span toymoban-style="hidden">文章來源地址http://www.zghlxwxcb.cn/news/detail-857625.html

到了這里，關(guān)于【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【知識(shí)儲(chǔ)備】Transformer為什么用LN而不用BN
2024年03月08日
瀏覽(34)
AIGC基礎(chǔ)：大型語言模型 (LLM) 為什么使用向量數(shù)據(jù)庫，嵌入(Embeddings)又是什么？
嵌入：它是指什么？嵌入是將數(shù)據(jù)（例如文本、圖像或代碼）轉(zhuǎn)換為高維向量的數(shù)值表示。這些向量捕捉了數(shù)據(jù)點(diǎn)之間的語義含義和關(guān)系?？梢詫⑵淅斫鉃閷?fù)雜數(shù)據(jù)翻譯成 LLM 可以理解的語言。為什么有用？原始數(shù)據(jù)之間的相似性反映在高維空間中對(duì)應(yīng)向量之間的距離上。
2024年02月21日
瀏覽(101)
不是說嵌入式是風(fēng)口嗎，那為什么工作還那么難找？
最近確實(shí)有很多媒體、機(jī)構(gòu)渲染嵌入式可以拿高薪，這在行業(yè)內(nèi)也是事實(shí)，但前提是你有足夠的競(jìng)爭(zhēng)力，真的懂嵌入式。時(shí)至今日，能做嵌入式程序開發(fā)的人其實(shí)相當(dāng)常見，尤其是隨著樹莓派、Arduino等開發(fā)板的普及，甚至軟件工程師也可以轉(zhuǎn)向嵌入式開發(fā)。然而，真正能夠
2024年02月12日
瀏覽(31)
AI訓(xùn)練，為什么需要GPU？
隨著人工智能熱潮，GPU成為了AI大模型訓(xùn)練平臺(tái)的基石，決定了算力能力。為什么GPU能力壓CPU，成為炙手可熱的主角呢？首先我們要先了解一下GPU的分類。提到分類，就得提及到芯片。半導(dǎo)體芯片分為數(shù)字芯片和模擬芯片。其中，數(shù)字芯片的市場(chǎng)規(guī)模占比較大，達(dá)到70%左右
2024年04月11日
瀏覽(22)
AI寫作寶-為什么要使用寫作寶
寫作一直是一項(xiàng)需要?jiǎng)?chuàng)造力和思考的任務(wù)，人工智能（AI）正逐漸成為我們寫作過程中的一位新伙伴。AI寫作寶等在線AI寫作工具正日益普及，為我們提供了更多的寫作選擇和可能性。 AI寫作寶：什么是它們，以及它們能做什么？ AI寫作寶是一種基于人工智能技術(shù)的在線工具，
2024年02月07日
瀏覽(24)
【譯】為什么AI難以概念化時(shí)間
原作：FNTGAI 引言：如何彌合AI與先驗(yàn)概念之間的鴻溝 ? 時(shí)間不是你能看到、聽到或觸摸到的東西。這就是康德所說的“先驗(yàn)”，意味著它在感官中沒有對(duì)應(yīng)物。你無法給時(shí)間貼標(biāo)簽或分類。這使得AI很難建立時(shí)間概念。例如，考慮一下當(dāng)您詢問 ChatGPT 您與它交談了多長時(shí)間時(shí)
2024年02月20日
瀏覽(27)
為什么是ChatGPT引發(fā)了AI浪潮？
目錄 BERT和GPT簡介 BERT和GPT核心差異 GPT的優(yōu)勢(shì) GPT的劣勢(shì) 總結(jié) 隨著近期ChatGPT的火熱，引發(fā)各行各業(yè)都開始討論AI，以及AI可以如何應(yīng)用到各個(gè)細(xì)分場(chǎng)景。為了不被時(shí)代“拋棄”，我也投入了相當(dāng)?shù)木τ糜谘芯亢吞剿?。但在試?yàn)的過程中，我的直觀感受是，NLP很厲害，但GPT并不
2024年02月06日
瀏覽(20)
ai寫作論文會(huì)被抄襲嗎為什么
大家好，小發(fā)貓降重今天來聊聊ai寫作論文會(huì)被抄襲嗎為什么，希望能給大家提供一點(diǎn)參考。以下是針對(duì)論文重復(fù)率高的情況，提供一些修改建議和技巧，可以借助此類工具：標(biāo)題：AI寫作論文會(huì)被抄襲嗎？背后原因深度解析近年來，隨著人工智能技術(shù)的飛速發(fā)展，AI寫作論
2024年03月10日
瀏覽(23)
【譯】為什么AI寫作會(huì)顯得枯燥無味
原作：本·烏蘭西引子：繪畫中減色混合的原理 ? 照片由 Unsplash 上的 Lucas K 拍攝當(dāng)我還是個(gè)孩子的時(shí)候，我坐在一個(gè)有各種顏色的調(diào)色板前，努力嘗試混合盡可能多的顏色。懷著興奮的眼神，我看著鮮艷的顏色在畫面上融合。隨著越來越多的顏色相互融合，我困惑地盯著由
2024年02月19日
瀏覽(22)
為什么不要相信AI機(jī)器人提供的健康信息？
自從OpenAI、微軟和谷歌推出了AI聊天機(jī)器人，許多人開始嘗試一種新的互聯(lián)網(wǎng)搜索方式：與一個(gè)模型進(jìn)行對(duì)話，而它從整個(gè)網(wǎng)絡(luò)上學(xué)到的知識(shí)。專家表示，鑒于之前我們傾向于通過搜索引擎查詢健康問題，我們也不可避免地會(huì)向ChatGPT、Bing和Bard等工具提問。然而，這些工具會(huì)
2024年02月08日
瀏覽(22)