1,另一個ssfomer
我在找論文時發(fā)現(xiàn),把自己的分割模型命名為ssformer的有兩個:,一個論文SSformer: A Lightweight Transformer for Semantic Segmentation中提出的一種輕量級Transformer模型,結(jié)構(gòu)如下
這個結(jié)構(gòu)很簡單,就是在用MLP層處理一下不同層的swin transformer block特征,然后融合。
這個沒什么太多好說的。
2,我們要說的ssformer
我們要重點說的ssformer是Stepwise Feature Fusion: Local Guides Global這篇。
這篇論文的模型采用金字塔Transformer作為編碼器,并提出了一種全新的解碼器PLD。
整體結(jié)構(gòu)如下:
3,編碼器分支
編碼器采用了PVTv2(Pyramid Vision Transformer v2)的設(shè)計,該設(shè)計在Segformer中也有所使用。PVTv2是一種用于圖像識別任務(wù)的Transformer架構(gòu),它通過使用卷積操作來替代傳統(tǒng)Transformer中的位置上的嵌入(PE)操作,以保持空間信息的一致性并提供出色的性能和穩(wěn)定性。
4,解碼器分支PLD
PLD的設(shè)計旨在解決Transformer模型在處理密集預(yù)測任務(wù)時可能出現(xiàn)的注意力分散問題,并強調(diào)局部特征以改善細節(jié)處理能力。
PLD由局部強調(diào)模塊LE和漸進式特征聚合模塊(SFA)組成。
LE模塊使用卷積操作來混合每個補丁周圍的特征,從而增加相鄰補丁與中心補丁之間的關(guān)聯(lián)權(quán)重,強調(diào)局部特征。由于不同深度的特征流具有不同類型的特征,LE模塊在特征金字塔的不同層級上使用不同的卷積權(quán)重。
5,實驗結(jié)果文章來源:http://www.zghlxwxcb.cn/news/detail-840671.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-840671.html
到了這里,關(guān)于論文閱讀 Stepwise Feature Fusion: Local Guides Global的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!