Swin Transformer 可以說是批著Transformer外表的卷積神經(jīng)網(wǎng)絡(luò)。
具體的架構(gòu)如下圖所示:
首先我們得到一張224*224*3的圖片。
通過分成4*4的patch,變成了56*56*48。
線性變換后又變成了56*56*96。
然后利用了Swin Transformer中一個比較特別的結(jié)構(gòu) Patch Merging 變成28*28*192。
同理,變成14*14*384。
同理,變成7*7*768。
這是總體的過程,Swin Transformer內(nèi)部是由W-MSA 和SW-MSA組成的。
另外一個比較重要的是針對移位配置的高效批量計算。
移動窗口分區(qū)的一個問題是,它將導致更多的窗口,一些窗口將小于M×M。
一個簡單的解決方案是將較小的窗口填充到M×M的大小,并在計算注意力時屏蔽填充的值。這種樸素解增加的計算量是相當大的(2×2→ 3×3,是2.25倍)。
利用下圖所示的方法:
在該偏移之后,分批窗口可以由在特征圖中不相鄰的幾個子窗口組成,因此采用掩蔽機制來將自注意計算限制在每個子窗口內(nèi)。
掩碼如下:文章來源:http://www.zghlxwxcb.cn/news/detail-830204.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-830204.html
到了這里,關(guān)于關(guān)于Swin Transformer的架構(gòu)記錄的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!