有朋友問,BERT等大模型的參數(shù)量怎么計(jì)算的?這個(gè)問題,李沐在BERT那篇論文中講過,主要包括幾部分。1、詞嵌入:token數(shù)量乘以token表示的向量長度,就是 VH;2、注意力計(jì)算沒有參數(shù),只計(jì)算多頭注意力的投影矩陣,三個(gè)輸入的權(quán)重矩陣,每個(gè)矩陣參數(shù)= H(H/頭數(shù))頭數(shù)= HH,輸出的權(quán)重矩陣參數(shù)= HH,共是4HH;3、MLP部分,隱藏層為4H,輸入輸出層都為H,就是8HH。其他的一些參數(shù)量相對(duì)較少,大概的參數(shù)量就約等于Transformer塊數(shù)(12HH)+VH。(下圖截取自李沐講論文之BERT篇)
比如BERT的基礎(chǔ)模型,H=768,Transformer塊數(shù)是12塊,V大概是3萬,這樣參數(shù)量就是一億多。對(duì)于著名的GPT3,Transformer塊數(shù)是96塊,H=12288,這樣參數(shù)量121228812288*96,大概就是1750億。
這個(gè)問題不復(fù)雜,但是接著想到,H為什么要取那么大。對(duì)于BERT,Token的總數(shù)量大概是三萬,三萬的數(shù)量不用20bit就可以表示,為什么Token嵌入表示需要使用768維度的向量,并且,模型越大,Token嵌入表示的向量越長,這是為什么?
想到了這個(gè)問題,好像就進(jìn)一步理解了Transformer架構(gòu)的內(nèi)涵。主要是為了使Token嵌入表示能夠充分地捕捉到全局的語義信息。注意力機(jī)制的本質(zhì),我理解,就是信息匯聚,在一個(gè)長的文本序列中,通過不斷的注意力匯聚,每一個(gè)Token除了本身的語義信息,還不斷獲得整個(gè)文本的信息,最后獲得了文本序列中與自己相關(guān)的全部的語義信息,這樣隨著模型規(guī)模增大,語義信息匯聚的增加,Token嵌入表示就需要使用更高維度的向量表示。換句話說,經(jīng)過Transformer編碼器后的每個(gè)Token,已經(jīng)不是一個(gè)單獨(dú)的Token,而是擁有了過去、現(xiàn)在和未來的全局文本語義信息,能夠理解過去,也能夠預(yù)測(cè)未來。
然后繼續(xù)聯(lián)想到,大模型的語言,形成了與人類語言不同的范式,有點(diǎn)像蔣特德的科幻小說《你一生的故事》中的外星人的語言。想到這,就覺得,LLM真是太有意思了。文章來源:http://www.zghlxwxcb.cn/news/detail-857625.html
關(guān)于《你一生的故事》,摘錄百度百科的介紹:
《你一生的故事》是一篇少見的以語言學(xué)為核心的科幻小說,榮獲1998年的星云獎(jiǎng)和斯特金獎(jiǎng)。對(duì)于那些熱衷于描寫地球人與外星人交往的科幻作家來說,智慧生物之間交流所必需的語言本是他們必須要解決的首要問題。但是很顯然,絕大多數(shù)作家都狡猾地回避了這個(gè)問題。在他們的故事中,語言障礙總是被一筆帶過:故事開始不久,他們就讓地球科學(xué)家拿著自動(dòng)翻譯器出現(xiàn)在了外星人面前。
從語言學(xué)角度切入描寫兩種智慧生物的交流是對(duì)想像力的挑戰(zhàn)??苹糜惺钒儆嗄陙?,只有特德·蔣在應(yīng)對(duì)這種挑戰(zhàn)中,取得了令人矚目的成就?!赌阋簧墓适隆吩趯⒄Z言學(xué)的魅力表現(xiàn)到極致的同時(shí),更奠定了特德·蔣科幻名家的地位?!赌阋簧墓适隆分械耐庑侨吮环Q為“七肢桶”。七肢桶文字,頗有幾分像中國的象形文字,所不同的只是,七肢桶不是靠一個(gè)個(gè)具有獨(dú)立意義的字詞來表意,而是將所有需要表達(dá)的語意都統(tǒng)一在一個(gè)字內(nèi)。語意越是繁復(fù),這個(gè)字就越是復(fù)雜。
更奇妙的是七肢桶語言背后的感知世界的方式。那種方式與我們完全不同。我們依照前后順序感知世界,將各個(gè)事件之間的關(guān)系理解為因與果;而“七肢桶”則同時(shí)感知所有事件,既可以先看“因”,也可以先看“果”。這種感知世界的方式深深影響了故事的主人公(她受政府委托掌握七肢桶語言的過程,就是她感知世界的方式發(fā)生改變的過程),她因而洞悉了自己,以及她那個(gè)暫時(shí)還不存在的女兒的一生。雖然我們很明白這意味著什么,但是,當(dāng)讀到“然后,突然間,我已經(jīng)在太平間。一個(gè)勤雜工掀開罩單,露出你的臉。我看見的是二十五歲時(shí)的你(她的女兒)”時(shí),那種驚悚,還是讓我們猝不及防。小說獨(dú)具匠心地采用了第一人稱視角與第二人稱視角交替推進(jìn)的手法,字里行間充溢著科幻小說特有的奇異感。讀者在感受七肢桶語言獨(dú)特魅力的同時(shí),更感受到一種緣于宿命的憂傷:那憂傷融和著詩一般的意象,最終凝聚成女主人公的感嘆——“一瞥之下,過去與未來轟然同時(shí)并至,我的意識(shí)成為長達(dá)半個(gè)世紀(jì)的灰燼,時(shí)間未至已成灰。我的余生盡在其中?!?span toymoban-style="hidden">文章來源地址http://www.zghlxwxcb.cn/news/detail-857625.html
到了這里,關(guān)于【AI學(xué)習(xí)】Transformer的Token嵌入表示為什么那么長的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!