前言
由于大多數(shù)基于卷積神經(jīng)網(wǎng)絡或者Attention機制的超分辨模型大部分都是PSNR主導的,即用PSNR作為損失函數(shù)進行訓練,這會導致超分辨圖像過度平滑的問題,也就是超分辨后的圖像高頻信息不能很好保留,并且超分辨的圖像較為固定,對于超分辨這種不適定問題來說不太合適。另外一種超分辨模型是基于GAN進行圖像生成,會存在訓練困難、模型不穩(wěn)定的問題。于是論文提出了基于擴散模型的超分辨模型,具有特點如下:①對于一張輸入低分辨率的圖片可以產(chǎn)生多種高分辨率的結果,并且很好地保留了高頻信息;②非常容易訓練;③可以靈活地進行圖像處理、內(nèi)容融合、潛在空間內(nèi)插。
網(wǎng)絡模型
區(qū)別于DDPM的無條件生成模型,SRDiff是一種條件生成模型,需要以輸入的低分辨率圖像作為條件,然后生成高分辨率的圖片。模型整體分為兩個階段,一個是訓練階段,另外一個是推理階段,這個是和DDPM的原理是一樣的。其中,只有噪聲的估計這一步驟中需要神經(jīng)網(wǎng)絡,用的也是Unet的模型。
上圖是SRDiff模型的整體結構,中間部分為Unet的噪聲估計模型,具體分為如下兩個階段進行分析。
訓練階段
?
?上圖分別是訓練階段的偽代碼和流程圖,XL是低分辨率輸入圖片,XH是對應的原始高分辨率圖片,Xe是經(jīng)過預訓練模型后的初始預測高分辨率圖片,up(XL)是直接對低分辨率進行bicubic上采樣后的圖片,Xr是上采樣圖片和真實高分辨率XH相減之后的高頻信息圖片,然后隨機采樣噪聲的ε計算得到Xt的噪聲圖,然后和估計噪聲計算損失,對噪聲估計網(wǎng)絡進行訓練。
推理階段
?
以上是推理階段的偽代碼和流程圖,Xe、初始隨機采樣的噪聲圖Xt和t作為Unet的輸入計算得到第t步估計得到的噪聲t,然后加入隨機采樣的擾動Z,計算得到Xt-1的噪聲圖,以此循環(huán)直至得到X0,最后X0和上采樣的XL進行相加最后得到高分率圖片Xsr。
實驗
CelebA和DIV2K上的超分實驗
?消融實驗
?擴展實驗
上圖是擴展實驗,左圖為內(nèi)容融合,在不同T時將第一幅圖的眼睛融合到第二個人的臉上,隨著t增大效果也看起來更加協(xié)調。右圖為潛在空間插值實驗,對于給定的LR圖像,SRDiff可以通過潛在空間內(nèi)插來操縱其預測,該方法將兩個SR預測的潛伏期進行線性內(nèi)插,并生成一個新的SR預測。文章來源:http://www.zghlxwxcb.cn/news/detail-514992.html
?總結
本文是基于擴散模型提出的超分辨方法,通過算法來看其實本質上是通過用圖像的噪聲來對高頻信息進行預測,最后再和上采用圖進行相加,得到的即為高分辨率圖片。在一些數(shù)據(jù)集上取得了不錯的效果,并且該模型在圖像的內(nèi)容融合上和潛在空間插值可以取得不錯的效果。文章來源地址http://www.zghlxwxcb.cn/news/detail-514992.html
到了這里,關于SRDiff: Single Image Super-Resolution with Diffusion Probabilistic Models 論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!