Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila & T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html
Perceiver:迭代關(guān)注的通用感知
摘要
這篇論文介紹了Perceiver,這是一種建立在Transformer基礎(chǔ)上的模型。它在處理來自視覺、聽覺、觸覺、本體感覺等多種形式的高維輸入時(shí),不像深度學(xué)習(xí)中的感知模型那樣被設(shè)計(jì)為針對(duì)單一模態(tài)。相反,傳統(tǒng)的感知模型通常依賴于特定于領(lǐng)域的假設(shè),例如幾乎所有現(xiàn)有視覺模型都利用的局部網(wǎng)格結(jié)構(gòu)。這些先驗(yàn)引入了有用的歸納偏見,但也使模型被鎖定到單個(gè)模態(tài)。
Perceiver模型利用不對(duì)稱的注意力機(jī)制,將輸入迭代地提煉為一個(gè)緊湊的潛在瓶頸,使其能夠擴(kuò)展以處理非常大的輸入。論文展示了這種架構(gòu)在各種模態(tài)的分類任務(wù)上與或優(yōu)于強(qiáng)大的專門模型:圖像、點(diǎn)云、音頻、視頻和視頻+音頻。Perceiver在ImageNet上通過直接關(guān)注50,000像素而獲得了與ResNet-50和ViT相媲美的性能,而不需要2D卷積。在AudioSet中,它在所有模態(tài)中都表現(xiàn)出競(jìng)爭(zhēng)力。
圖1:Perceiver是一種基于關(guān)注機(jī)制原理的架構(gòu),能夠處理高維輸入,如圖像、視頻、音頻、點(diǎn)云和多模態(tài)組合,而不做特定于領(lǐng)域的假設(shè)。Perceiver使用交叉注意力模塊,將高維輸入字節(jié)數(shù)組投影到一個(gè)固定維度的潛在瓶頸(輸入索引數(shù)M遠(yuǎn)遠(yuǎn)大于潛在索引數(shù)N),然后使用潛在空間中的一堆Transformer風(fēng)格的自注意力塊進(jìn)行處理。Perceiver通過交替使用交叉注意力和潛在自注意力塊,對(duì)輸入字節(jié)數(shù)組進(jìn)行迭代式關(guān)注。
圖2:我們?cè)趤碜訧mageNet(Deng等人,2009)的圖像(左側(cè)),AudioSet(Gemmeke等人,2017)的視頻和音頻(既考慮多模態(tài)也考慮單模態(tài))(中間),以及ModelNet40(Wu等人,2015)的3D點(diǎn)云(右側(cè))上對(duì)Perceiver架構(gòu)進(jìn)行訓(xùn)練。基本上不需要進(jìn)行架構(gòu)上的更改,就可以在各種不同的輸入數(shù)據(jù)上使用該模型。
表1:在ImageNet上的Top-1驗(yàn)證準(zhǔn)確率(以%表示)。使用2D卷積的模型在架構(gòu)上利用了特定領(lǐng)域的網(wǎng)格結(jié)構(gòu),而僅使用全局注意力的模型則沒有這樣的假設(shè)。第一個(gè)模塊報(bào)告了從像素獲得的標(biāo)準(zhǔn)性能 - 這些數(shù)字來自文獻(xiàn)。第二個(gè)模塊顯示了當(dāng)輸入是RGB值與2D傅里葉特征(FF)串聯(lián)在一起時(shí)的性能 - 這與Perceiver接收的輸入相同。這個(gè)模塊使用我們對(duì)基線的實(shí)現(xiàn)。Perceiver在ImageNet上與標(biāo)準(zhǔn)基線競(jìng)爭(zhēng),而不依賴于特定領(lǐng)域的架構(gòu)假設(shè)。文章來源:http://www.zghlxwxcb.cn/news/detail-828779.html
圖3:來自我們?cè)贗mageNet上表現(xiàn)最佳模型的第一、第二和第八(最后)個(gè)交叉關(guān)注層的注意力圖(參見表1)。在該模型中,交叉關(guān)注模塊2-8共享權(quán)重。第1行:原始圖像和來自每個(gè)這些層的一個(gè)注意力圖的局部放大圖。第2-4行:交叉關(guān)注模塊的注意力圖概覽。注意力圖似乎以一系列空間頻率的格子狀圖案掃描輸入圖像??梢暬淖⒁饬D沒有疊加在輸入圖像上:任何明顯的圖像結(jié)構(gòu)都存在于注意力圖本身中(狗在第一個(gè)模塊的注意力圖中清晰可見)。文章來源地址http://www.zghlxwxcb.cn/news/detail-828779.html
到了這里,關(guān)于【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!