【注意力機(jī)制】
核心思想:在decoder的每一步,把encoder端所有的向量提供給decoder,這樣decoder根據(jù)當(dāng)前自身狀態(tài),來自動(dòng)選擇需要使用的向量和信息.
【注意力帶來的可解釋性】
decoder在每次生成時(shí)可以關(guān)注到encoder端所有位置的信息。
通過注意力地圖可以發(fā)現(xiàn)decoder所關(guān)注的點(diǎn)。
注意力使網(wǎng)絡(luò)可以對(duì)齊語義相關(guān)的詞匯。
【注意力機(jī)制的優(yōu)勢(shì)】
RNNs順序計(jì)算阻礙了并行化
論文:Attention is all you need
【Transformer的結(jié)構(gòu)】
概覽encoder-decoder結(jié)構(gòu)
把句子/單詞序列切分成一個(gè)個(gè)的單元,每個(gè)單元叫做token,通過embedding幻化為一個(gè)向量。
輸入層:token的byte pair encoding+token的位置向量(表示它在文本中的位置)
中間模型結(jié)構(gòu):一些編碼和解碼塊的堆疊。
輸出: 一個(gè)在詞表上的概率分布
損失函數(shù):交叉熵
【輸入層:BPE + PE】
BPE byte pair encoding一種分詞算法
解決了OOV(out of vocabulary)問題,把罕見字詞和未知詞編碼為字詞,例如用一些詞根組合來表示。(常用于英文)
PE:位置編碼文章來源:http://www.zghlxwxcb.cn/news/detail-512734.html
因文章來源地址http://www.zghlxwxcb.cn/news/detail-512734.html
到了這里,關(guān)于大模型基礎(chǔ)之注意力機(jī)制和Transformer的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!