論文地址:https://arxiv.org/pdf/2103.14030.pdf
代碼地址:https://github.com/microsoft/Swin-Transformer文章來源:http://www.zghlxwxcb.cn/news/detail-455835.html
本文介紹了一種新的視覺Transformer
,稱為Swin Transformer
,它可以作為計(jì)算機(jī)視覺通用的骨干網(wǎng)絡(luò)。從語言到視覺的轉(zhuǎn)換中,適應(yīng)Transformer
所面臨的挑戰(zhàn)源于兩個(gè)領(lǐng)域之間的差異,如視覺實(shí)體尺度的巨大變化和圖像中像素的高分辨率與文本中單詞的差異。為了解決這些差異,我們提出了一種分層Transformer
,其表示是通過Shifted
窗口計(jì)算的。Shifted
窗口方案通過將自注意計(jì)算限制在非重疊的本地窗口內(nèi),同時(shí)允許跨窗口連接,從而提高了效率。這種分層架構(gòu)具有在不同尺度下進(jìn)行建模的靈活性,并且與圖像大小的計(jì)算復(fù)雜度呈線性關(guān)系。這些特性使Swin Transformer
與廣泛的視覺任務(wù)兼容,包括圖像分類(在ImageNet-1K
上的87.3
的top-1
準(zhǔn)確率)和密集預(yù)測(cè)任務(wù),如物體檢測(cè)(在COCO
測(cè)文章來源地址http://www.zghlxwxcb.cn/news/detail-455835.html
到了這里,關(guān)于改進(jìn)YOLOv8 | 主干網(wǎng)絡(luò)篇 | YOLOv8 更換骨干網(wǎng)絡(luò)之 SwinTransformer | 《基于位移窗口的層次化視覺變換器》的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!