-
這是TCSVT 2023年的一篇暗圖增強的論文
-
文章的核心思想是,暗圖有多種降質(zhì)因素,單一stage的model難以實現(xiàn)多降質(zhì)因素的去除,因此需要一個multi-stage的model,文章中設置了4個stage。同時提出了用預設query向量來代表不同的降質(zhì)因素,對原圖提取的key 和value進行注意力的方法。
-
網(wǎng)絡結(jié)構(gòu)如下圖所示:
-
首先是預處理模塊,用了孔洞卷積來提取多尺度特征圖
-
接著multi-stage部分是堆疊重復結(jié)構(gòu)組成,每個結(jié)構(gòu)由雙支路(兩個尺度,下采樣至1/2)殘差結(jié)構(gòu)核HVSA模塊組成。
-
HVSA模塊如下圖所示,他把特征圖1x1卷積后按通道平均分為horizontal和vertical,horizontal按行切分,每行是一個token,vertical按列切分。然后按行/列進行自注意力計算,再原樣拼回去1x1卷積產(chǎn)生HVSA的輸出(作為殘差特征加回 X i X_i Xi?)。但這里的尺度有點奇怪,全文也沒有提到這里有下采樣的操作,一方面每個stage的雙支路是不同分辨率,他是怎么加和到一起的,另一方面不同stage輸出的結(jié)果的shape來看是一直在下采樣的,不知道是不是patch merging操作沒有寫出來,得看代碼。
-
decoder則用預設的degradation token來作為query進行多頭注意力機制,然后卷積并上采樣成原圖,這里同樣也沒有寫很多細節(jié),比如怎么上采樣的以及多頭注意力對圖片是按pixel來算token還是按patch,按patch又是按多大的patch,統(tǒng)統(tǒng)沒有說。
-
損失函數(shù)則是三個損失的加權(quán)和,分別是MSE損失,vgg的perceptual損失和計算預測結(jié)果和GT的直方圖來算直方圖之間的L2損失。
-
在LOL上訓練并比較了LOL上面的結(jié)果:
文章來源:http://www.zghlxwxcb.cn/news/detail-577175.html
-
這篇工作很多細節(jié)沒有呈現(xiàn),但是用預設的vector作為degradation query的idea還是蠻有意思的,也是第一個個人感覺把transformer和暗圖增強這個任務的特殊性有結(jié)合的方法,其他的地方感覺有很多改進空間,預設vector作為degradation也有很多改進空間,感覺像是個比較除草的工作。文章來源地址http://www.zghlxwxcb.cn/news/detail-577175.html
到了這里,關于Low-Light Image Enhancement via Stage-Transformer-Guided Network 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!