資源地址 |
---|
Attention is all you need.pdf(0積分) - CSDN |
第一遍閱讀(Abstract + Introduction + Conclusion)
Abstract
中強(qiáng)調(diào)Transformer摒棄了循環(huán)和卷積網(wǎng)絡(luò)結(jié)構(gòu),在English-to-German翻譯任務(wù)中,BLEU得分為28.4, 在English-to-French的翻譯任務(wù)中的BLEU得分為41.0,用8張GPU訓(xùn)練了3.5天,與各文獻(xiàn)中的best models相比,這是非常小的訓(xùn)練成本。
Introduction
中對(duì)RNN的一些工作做了總結(jié),它說RNN結(jié)構(gòu)本身,在序列長度變長時(shí)會(huì)產(chǎn)生限制,雖然有些工作通過factorization tricks因式分解和conditional computation對(duì)其進(jìn)行運(yùn)算效率上的提高,并且后者可以提高模型性能,但是,對(duì)于序列處理的最基本的局限性還是存在的。Attention機(jī)制已經(jīng)在許多任務(wù)的序列建模和翻譯任務(wù)中成為了重要的一部分,并且在大多數(shù)情況下,Attention機(jī)制都會(huì)與recurrent network一起使用。
然后作者說,他們提出了一種拋棄recurrent結(jié)構(gòu),完全使用Attention機(jī)制去描述input與output之間的全局關(guān)系。Transformer允許更大的并行度,并且在8張P100的GPU上訓(xùn)練了25h后,就在翻譯質(zhì)量上達(dá)到了SOTA。文章來源:http://www.zghlxwxcb.cn/news/detail-802559.html
Conclusion
說,Transformer將Encoder-Decoder中最常用的recurrent layers替換成了multi-headed self-attention多頭自注意力模塊。并且作者他們希望將Transformer推廣到只要包括input與output特點(diǎn)的問題上去,而不是僅僅局限于text文本(所以將Transformer應(yīng)用在圖片、音視頻中是他們展望的應(yīng)有之意,而不是說Transformer在無意中完成了CV和NLP的跨界大一統(tǒng),是作者他們?cè)揪拖脒@么做),并且他們還想探索local, restricted attention mechanisms局部的、受限制的注意力機(jī)制,讓Generation更少一點(diǎn)sequential序列化也是他們的研究目標(biāo)(我理解這里應(yīng)該是說讓Transformer不是一個(gè)詞一個(gè)詞的串行預(yù)測,而是可以多個(gè)詞一起預(yù)測出來?或者說不是語句化的串行生成,而是跳躍式的段落篇章式生成?)文章來源地址http://www.zghlxwxcb.cn/news/detail-802559.html
參考文章或視頻資料 |
---|
【【計(jì)算機(jī)博物志】自然語言處理的“古往”和“今來”】 - bilibili |
到了這里,關(guān)于論文閱讀筆記AI篇 —— Transformer模型理論+實(shí)戰(zhàn) (一)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!