国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

這篇具有很好參考價(jià)值的文章主要介紹了實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

PIDNet是2023年發(fā)表在CVPR上的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò),在推理速度和準(zhǔn)確性之間實(shí)現(xiàn)了最佳平衡,其中該系列的PIDNet-S在Cityscapes 測(cè)試集上達(dá)到93.2 FPS + 78.6% mIOU。

論文和開(kāi)源代碼在這里。

解決的問(wèn)題:傳統(tǒng)雙分支網(wǎng)絡(luò)低層的細(xì)節(jié)信息和高層語(yǔ)義信息直接融合,會(huì)導(dǎo)致細(xì)節(jié)特征很容易被上下文信息淹沒(méi),即文中的overshoot。

思路:提出一種三分支網(wǎng)絡(luò)架構(gòu),分別解析細(xì)節(jié)、上下文和邊界信息,并設(shè)計(jì)邊界注意力引導(dǎo)融合模塊(Bag)融合三個(gè)分支的特征。實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖1 Cityscapes測(cè)試集中實(shí)時(shí)分割模型推理速度與準(zhǔn)確度之間的權(quán)衡

為了在推理速度和準(zhǔn)確度之間取得最佳平衡,研究人員投入了大量精力來(lái)重新設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),可以概括為:輕量級(jí)編碼器和解碼器(卷積分解及分組卷積)、多尺度輸入以及雙分支網(wǎng)絡(luò)。具體而言,SwiftNet使用一個(gè)低分辨率輸入來(lái)獲得高級(jí)語(yǔ)義,使用另一個(gè)高分辨率輸入來(lái)為其輕量級(jí)解碼器提供足夠的細(xì)節(jié)。DFANet通過(guò)修改基于深度可分離卷積的Xception的架構(gòu),引入了一種輕量級(jí)主干,并縮減了輸入大小以提高推理速度。ShuffleSeg采用Shuffle Net作為其主干,它結(jié)合了通道混洗和分組卷積,以降低計(jì)算成本。然而,這些網(wǎng)絡(luò)中的大多數(shù)仍然是編碼器-解碼器架構(gòu)的形式,并且需要信息流通過(guò)深層編碼器,然后反向通過(guò)解碼器,給這些模型帶來(lái)了很大的延遲。此外,由于GPU上深度可分離卷積的優(yōu)化還不成熟,傳統(tǒng)卷積盡管具有更多FLOP和參數(shù),但速度更快。

在語(yǔ)義分割任務(wù)中,上下文依賴性可以通過(guò)大的感受野來(lái)提取,而精確的邊界和小范圍物體識(shí)別則依賴于空間細(xì)節(jié)信息。在雙分支網(wǎng)絡(luò)如DDRNet中,細(xì)節(jié)分支的輸出分辨率為上下文分支的8倍(BiSeNet中為4倍),它們的直接融合將不可避免地導(dǎo)致過(guò)沖現(xiàn)象(overshoot),即物體邊界很容易被其周?chē)南袼匮蜎](méi),小規(guī)模物體可能被相鄰的大物體淹沒(méi)。文中用下圖來(lái)解釋過(guò)沖現(xiàn)象:
實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖2 動(dòng)態(tài)系統(tǒng)(左)和圖像分割(右)的過(guò)沖問(wèn)題。左圖為二階系統(tǒng)的PI和PID控制器的階躍響應(yīng),右圖從第一行到最后一行分別從groundtruth、DDRNet-23和ADB-Bag-DDRNet23的輸出中裁剪

PID控制器包含3個(gè)具有互補(bǔ)功能的組件:比例(P)控制器表示當(dāng)前誤差,積分(I)控制器累積先前誤差,微分(D)控制器預(yù)測(cè)未來(lái)誤差變化。在雙分支網(wǎng)絡(luò)中,上下文分支通過(guò)級(jí)聯(lián)卷積層或池化層(其實(shí)也就是下采樣操作)不斷聚合從局部到全局的語(yǔ)義信息,以解析像素之間的長(zhǎng)距離依賴關(guān)系,而細(xì)節(jié)分支特征圖維持高分辨率以保留單個(gè)像素的位置信息。因此細(xì)節(jié)分支和上下文分支可以被視為空間域中的比例和積分控制器,這解釋了分割任務(wù)中存在過(guò)沖問(wèn)題的原因。

PIDNet網(wǎng)絡(luò)結(jié)構(gòu)

實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖3 PIDNet網(wǎng)絡(luò)結(jié)構(gòu)

PIDNet主要包含以下結(jié)構(gòu):

  1. 綠色的比例(P)分支解析并保存高分辨率特征圖中的細(xì)節(jié)信息;
  2. 藍(lán)色的積分(I)分支聚合上下文信息,以解析遠(yuǎn)程依賴關(guān)系;
  3. 灰色的導(dǎo)數(shù)(D)分支提取高頻特征以預(yù)測(cè)邊界區(qū)域。

PIDNet的骨干網(wǎng)絡(luò)采用級(jí)聯(lián)的殘差塊,也就是ResNet中的BasicBlock和Bottleneck,首先我們介紹P分支中的Pag模塊。

Pag:選擇性學(xué)習(xí)高級(jí)語(yǔ)義

在PIDNet中,I分支提供的豐富和準(zhǔn)確的語(yǔ)義信息對(duì)于P分支的細(xì)節(jié)解析至關(guān)重要,P分支包含相對(duì)較少的層和通道。因此,可以將I分支作為其他兩個(gè)分支的備份,使其能夠向它們提供所需的信息。
實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖4 Pag模塊結(jié)構(gòu)

如上圖,先對(duì)I分支和P分支的輸入y和x分別做1*1卷積和BN,再將y上采樣(因?yàn)樘卣鲌Dy的大小為原圖的1/16,x為1/8),兩者相乘后將結(jié)果做逐通道求和,再經(jīng)過(guò)sigmoid得到結(jié)果σ,得到Pag的輸出為σ * y + (1 - σ) *x
代碼實(shí)現(xiàn):

class PagFM(nn.Module):
    def __init__(self, in_channels, mid_channels, after_relu=False, with_channel=False, BatchNorm=nn.BatchNorm2d):
        super(PagFM, self).__init__()
        self.with_channel = with_channel
        self.after_relu = after_relu
        self.f_x = nn.Sequential(
                                nn.Conv2d(in_channels, mid_channels, 
                                          kernel_size=1, bias=False),
                                BatchNorm(mid_channels)
                                )
        self.f_y = nn.Sequential(
                                nn.Conv2d(in_channels, mid_channels, 
                                          kernel_size=1, bias=False),
                                BatchNorm(mid_channels)
                                )
        if with_channel:
            self.up = nn.Sequential(
                                    nn.Conv2d(mid_channels, in_channels, 
                                              kernel_size=1, bias=False),
                                    BatchNorm(in_channels)
                                   )
        if after_relu:
            self.relu = nn.ReLU(inplace=True)
        
    def forward(self, x, y):
        input_size = x.size()
        if self.after_relu:
            y = self.relu(y)
            x = self.relu(x)
        
        y_q = self.f_y(y)
        y_q = F.interpolate(y_q, size=[input_size[2], input_size[3]],
                            mode='bilinear', align_corners=False)##上采樣到與x分辨率相同
        x_k = self.f_x(x)
        
        if self.with_channel:
            sim_map = torch.sigmoid(self.up(x_k * y_q))
        else:
            sim_map = torch.sigmoid(torch.sum(x_k * y_q, dim=1).unsqueeze(1)) 
        ##dim=1:逐通道相加,假設(shè)x_k * y_q的shape為[4, 32, 32, 64],相加后shape變?yōu)閇4, 32, 64],再通過(guò)unsqueeze(1)升維為[4, 1, 32, 64]
        
        y = F.interpolate(y, size=[input_size[2], input_size[3]],
                            mode='bilinear', align_corners=False)##上采樣到與x分辨率相同
        x = (1-sim_map)*x + sim_map*y
        
        return x

PAPPM:上下文特征快速聚合

作者改進(jìn)了DDRNet中用于聚合不同尺度上下文信息的DAPPM模塊,改變DAPPM中的連接并使其并行化,同時(shí)縮減了每個(gè)尺度的通道數(shù)以提高推理速度,提出一種新的上下文信息聚合模塊,稱為并行聚合PPM(PAPPM)。
實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖5 DDRNet中的DAPPM模塊(左)與PIDNet中的PAPPM模塊(右)

代碼實(shí)現(xiàn):

class PAPPM(nn.Module):
    def __init__(self, inplanes, branch_planes, outplanes, BatchNorm=nn.BatchNorm2d):
        super(PAPPM, self).__init__()
        bn_mom = 0.1
        self.scale1 = nn.Sequential(nn.AvgPool2d(kernel_size=5, stride=2, padding=2),
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, branch_planes, kernel_size=1, bias=False),
                                    )
        self.scale2 = nn.Sequential(nn.AvgPool2d(kernel_size=9, stride=4, padding=4),
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, branch_planes, kernel_size=1, bias=False),
                                    )
        self.scale3 = nn.Sequential(nn.AvgPool2d(kernel_size=17, stride=8, padding=8),
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, branch_planes, kernel_size=1, bias=False),
                                    )
        self.scale4 = nn.Sequential(nn.AdaptiveAvgPool2d((1, 1)),
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, branch_planes, kernel_size=1, bias=False),
                                    )##全局平均池化

        self.scale0 = nn.Sequential(
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, branch_planes, kernel_size=1, bias=False),
                                    )##scale0不做池化
        
        self.scale_process = nn.Sequential(
                                    BatchNorm(branch_planes*4, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(branch_planes*4, branch_planes*4, kernel_size=3, padding=1, groups=4, bias=False),
                                    )

      
        self.compression = nn.Sequential(
                                    BatchNorm(branch_planes * 5, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(branch_planes * 5, outplanes, kernel_size=1, bias=False),
                                    )
        
        self.shortcut = nn.Sequential(
                                    BatchNorm(inplanes, momentum=bn_mom),
                                    nn.ReLU(inplace=True),
                                    nn.Conv2d(inplanes, outplanes, kernel_size=1, bias=False),
                                    )


    def forward(self, x):
        width = x.shape[-1]
        height = x.shape[-2]        
        scale_list = []

        x_ = self.scale0(x)
        scale_list.append(F.interpolate(self.scale1(x), size=[height, width],
                        mode='bilinear', align_corners=algc)+x_)
        scale_list.append(F.interpolate(self.scale2(x), size=[height, width],
                        mode='bilinear', align_corners=algc)+x_)
        scale_list.append(F.interpolate(self.scale3(x), size=[height, width],
                        mode='bilinear', align_corners=algc)+x_)
        scale_list.append(F.interpolate(self.scale4(x), size=[height, width],
                        mode='bilinear', align_corners=algc)+x_)
        
        scale_out = self.scale_process(torch.cat(scale_list, 1))
       
        out = self.compression(torch.cat([x_,scale_out], 1)) + self.shortcut(x)
        return out

Bag:平衡細(xì)節(jié)和上下文

作者設(shè)計(jì)了一個(gè)邊界注意力引導(dǎo)融合模塊(Bag)來(lái)融合三個(gè)分支的特征,以邊界信息指導(dǎo)細(xì)節(jié)分支§和上下文分支(I)的融合。上下文分支可以提供準(zhǔn)確的語(yǔ)義信息,但丟失了很多空間和幾何細(xì)節(jié),尤其是邊界區(qū)域和小物體,而細(xì)節(jié)分支更好的保留了空間細(xì)節(jié)信息,Bag模塊使得模型沿著邊界區(qū)域更加信任細(xì)節(jié)分支,在對(duì)象內(nèi)部區(qū)域則更信任上下文特征。實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記

圖6 Bag(a)和Light Bag(b)模塊

當(dāng)σ > 0.5時(shí),模型更信任細(xì)節(jié)特征,小于0.5時(shí)更信任上下文特征。
代碼實(shí)現(xiàn):

##Bag:
class Bag(nn.Module):
    def __init__(self, in_channels, out_channels, BatchNorm=nn.BatchNorm2d):
        super(Bag, self).__init__()

        self.conv = nn.Sequential(
                                BatchNorm(in_channels),
                                nn.ReLU(inplace=True),
                                nn.Conv2d(in_channels, out_channels, 
                                          kernel_size=3, padding=1, bias=False)                  
                                )

        
    def forward(self, p, i, d):
        edge_att = torch.sigmoid(d)
        return self.conv(edge_att*p + (1-edge_att)*i)

##Light-Bag:
class Light_Bag(nn.Module):
    def __init__(self, in_channels, out_channels, BatchNorm=nn.BatchNorm2d):
        super(Light_Bag, self).__init__()
        self.conv_p = nn.Sequential(
                                nn.Conv2d(in_channels, out_channels, 
                                          kernel_size=1, bias=False),
                                BatchNorm(out_channels)
                                )
        self.conv_i = nn.Sequential(
                                nn.Conv2d(in_channels, out_channels, 
                                          kernel_size=1, bias=False),
                                BatchNorm(out_channels)
                                )
        
    def forward(self, p, i, d):
        edge_att = torch.sigmoid(d)
        
        p_add = self.conv_p((1-edge_att)*i + p)
        i_add = self.conv_i(i + edge_att*p)
        
        return p_add + i_add

分割頭S/B-Head

分割頭的結(jié)構(gòu)比較簡(jiǎn)單,主要作用是計(jì)算輔助損失,文中損失函數(shù)的定義如下:
Loss = λ?l? + λ?l? + λ?l? + λ?l?
其中l(wèi)?是額外的語(yǔ)義損失,l?是加權(quán)二元交叉熵?fù)p失,l?和l?是邊界感知CE loss,在文中設(shè)置的權(quán)重為λ? = 0.4,λ? = 20, λ? = λ? = 1
分割頭的代碼實(shí)現(xiàn):

class segmenthead(nn.Module):

    def __init__(self, inplanes, interplanes, outplanes, scale_factor=None):
        super(segmenthead, self).__init__()
        self.bn1 = BatchNorm2d(inplanes, momentum=bn_mom)
        self.conv1 = nn.Conv2d(inplanes, interplanes, kernel_size=3, padding=1, bias=False)
        self.bn2 = BatchNorm2d(interplanes, momentum=bn_mom)
        self.relu = nn.ReLU(inplace=True)
        self.conv2 = nn.Conv2d(interplanes, outplanes, kernel_size=1, padding=0, bias=True)
        self.scale_factor = scale_factor

    def forward(self, x):
        
        x = self.conv1(self.relu(self.bn1(x)))
        out = self.conv2(self.relu(self.bn2(x)))

        if self.scale_factor is not None:
            height = x.shape[-2] * self.scale_factor
            width = x.shape[-1] * self.scale_factor
            out = F.interpolate(out,
                        size=[height, width],
                        mode='bilinear', align_corners=algc)

        return out

訓(xùn)練和結(jié)果

由于論文中的訓(xùn)練的代碼比較復(fù)雜,博主功力不夠看著比較費(fèi)勁,就沒(méi)有用論文中的訓(xùn)練策略,而是參考一位大佬的語(yǔ)義分割系列25-BiSeNetV2(pytorch實(shí)現(xiàn))和語(yǔ)義分割系列26-VIT+SETR——Transformer結(jié)構(gòu)如何在語(yǔ)義分割中大放異彩來(lái)進(jìn)行訓(xùn)練和推理可視化的。論文中采用的是yacs庫(kù)以yaml格式的文件來(lái)配置模型的各種參數(shù),包括訓(xùn)練和測(cè)試等等的參數(shù),為模型復(fù)現(xiàn)、調(diào)整參數(shù)提供了很多便利,大伙可以一起學(xué)習(xí)學(xué)習(xí),yacs傳送門(mén)

下面是博主用PIDNet在camvid數(shù)據(jù)集上的分割結(jié)果,訓(xùn)練時(shí)沒(méi)有使用輔助損失,所以分割精度也不是特別高。
實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-402774.html

圖7 camvid數(shù)據(jù)集中的分割結(jié)果

到了這里,關(guān)于實(shí)時(shí)語(yǔ)義分割---PIDNet論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文筆記:ViT Adapter——Transformer與CNN特征融合,屠榜語(yǔ)義分割!

    論文筆記:ViT Adapter——Transformer與CNN特征融合,屠榜語(yǔ)義分割!

    論文題目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》 會(huì)議時(shí)間:ICLR 2023 論文地址:https://openreview.net/pdf?id=plKu2GByCNW 源碼地址:https://github.com/czczup/ViT-Adapter ??Transformer在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了顯著的成功,主要得益于transformer的 動(dòng)態(tài)建模能力(dynamic modeling capability) 和 注

    2024年04月15日
    瀏覽(19)
  • 論文閱讀—2023.7.13:遙感圖像語(yǔ)義分割空間全局上下文信息網(wǎng)絡(luò)(主要為unet網(wǎng)絡(luò)以及改unet)附加個(gè)人理解與代碼解析

    論文閱讀—2023.7.13:遙感圖像語(yǔ)義分割空間全局上下文信息網(wǎng)絡(luò)(主要為unet網(wǎng)絡(luò)以及改unet)附加個(gè)人理解與代碼解析

    前期看的文章大部分都是深度學(xué)習(xí)原理含量多一點(diǎn),一直在糾結(jié)怎么改模型,論文看的很吃力,看一篇忘一篇,總感覺(jué)摸不到方向。想到自己是遙感專業(yè),所以還是回歸遙感影像去談深度學(xué)習(xí),回歸問(wèn)題,再想著用什么方法解決問(wèn)題。 1、易丟失空間信息 在 Decoder 階段輸出多

    2024年02月16日
    瀏覽(23)
  • 語(yǔ)義分割大模型RSPrompter論文閱讀

    語(yǔ)義分割大模型RSPrompter論文閱讀

    RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation based on Visual Foundation Model RSPrompter 摘要 Abstract—Leveraging vast training data (SA-1B), the foundation Segment Anything Model (SAM) proposed by Meta AI Research exhibits remarkable generalization and zero-shot capabilities. Nonetheless, as a category-agnostic instance segmen

    2024年02月12日
    瀏覽(20)
  • 語(yǔ)義分割大模型SAM論文閱讀(二)

    語(yǔ)義分割大模型SAM論文閱讀(二)

    Segment Anything SAM 我們介紹了分割一切(SA)項(xiàng)目:一個(gè)新的圖像分割任務(wù),模型和數(shù)據(jù)集。在數(shù)據(jù)收集循環(huán)中使用我們的高效模型,我們建立了迄今為止(到目前為止)最大的分割數(shù)據(jù)集,在1100萬(wàn)張?jiān)S可和尊重隱私的圖像上擁有超過(guò)10億個(gè)掩模。 該模型被設(shè)計(jì)和訓(xùn)練為提示 ,因此它

    2024年02月13日
    瀏覽(24)
  • 關(guān)聯(lián)分割點(diǎn)云中的實(shí)例和語(yǔ)義<論文>

    關(guān)聯(lián)分割點(diǎn)云中的實(shí)例和語(yǔ)義<論文>

    題目:Associatively Segmenting Instances and Semantics in Point Clouds 代碼:https://github.com/WXinlong/ASIS 文章討論:?Instances?Segmentation 和?Semantics Segmentation 實(shí)例Instances Segmentation:分辨出每個(gè)單獨(dú)事物,但不知道是否是一類(lèi) 語(yǔ)義Semantics Segmentation:分辨出不同類(lèi)事物,但不知道每類(lèi)事物具體

    2024年02月03日
    瀏覽(13)
  • 3D點(diǎn)云分割系列5:RandLA-Net:3D點(diǎn)云的實(shí)時(shí)語(yǔ)義分割,隨機(jī)降采樣的重生

    3D點(diǎn)云分割系列5:RandLA-Net:3D點(diǎn)云的實(shí)時(shí)語(yǔ)義分割,隨機(jī)降采樣的重生

    《RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds》發(fā)布于CVPR 2020。 在自動(dòng)駕駛等領(lǐng)域,高效的分割網(wǎng)絡(luò)是目前最基本和最關(guān)鍵的研究方向。目前存在的一些點(diǎn)云處理方法包括PointNet、PointNet++、PointCNN、KPConv等方法,或多或少都存在效率不高或是特征采樣不足的情況,

    2024年02月04日
    瀏覽(19)
  • 【語(yǔ)義分割】ST_Unet論文 逐步代碼解讀

    【語(yǔ)義分割】ST_Unet論文 逐步代碼解讀

    主要工程文件為這5個(gè) 分別作用為: 構(gòu)造相應(yīng)的deform 卷積 DCNN的殘差網(wǎng)絡(luò) 編寫(xiě)相應(yīng)的配置文件,可以改變相應(yīng)參數(shù) 模型的主函數(shù)和主框架 模型的連接部分 代碼框架由3部分組成,encode,decode和decode中將圖像還原成語(yǔ)義分割預(yù)測(cè)圖 Transformer(config, img_size) 組成編碼部分,包含主

    2024年02月07日
    瀏覽(20)
  • BiSeNet:用于實(shí)時(shí)語(yǔ)義分割的雙邊分割網(wǎng)絡(luò)——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

    BiSeNet:用于實(shí)時(shí)語(yǔ)義分割的雙邊分割網(wǎng)絡(luò)——BiSeNet:Bilateral Segmentation Network for Real-time Semantic Segmentation

    ????????語(yǔ)義分割需要豐富的空間信息和較大的感受野。然而,現(xiàn)代的方法通常為了實(shí)現(xiàn)實(shí)時(shí)推斷速度而犧牲空間分辨率,導(dǎo)致性能下降。本文提出了一種新的雙邊分割網(wǎng)絡(luò)(BiSeNet)來(lái)解決這個(gè)問(wèn)題。我們首先設(shè)計(jì)了一個(gè)具有小步長(zhǎng)的空間路徑來(lái)保留空間信息并生成高分

    2024年04月28日
    瀏覽(34)
  • 【論文閱讀】Swin Transformer Embedding UNet用于遙感圖像語(yǔ)義分割

    【論文閱讀】Swin Transformer Embedding UNet用于遙感圖像語(yǔ)義分割

    Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation 全局上下文信息是遙感圖像語(yǔ)義分割的關(guān)鍵 具有強(qiáng)大全局建模能力的Swin transformer 提出了一種新的RS圖像語(yǔ)義分割框架ST-UNet型網(wǎng)絡(luò)(UNet) 解決方案:將Swin transformer嵌入到經(jīng)典的基于cnn的UNet中 ST-UNet由Swin變壓器和CNN并聯(lián)

    2024年02月08日
    瀏覽(59)
  • 【論文閱讀】MCTformer: 弱監(jiān)督語(yǔ)義分割的多類(lèi)令牌轉(zhuǎn)換器

    【論文閱讀】MCTformer: 弱監(jiān)督語(yǔ)義分割的多類(lèi)令牌轉(zhuǎn)換器

    Multi-class Token Transformer for Weakly Supervised Semantic Segmentation 本文提出了一種新的基于變換的框架來(lái)學(xué)習(xí)類(lèi)特定對(duì)象定位映射作為弱監(jiān)督語(yǔ)義分割(WSSS)的偽標(biāo)簽 ?? 可以利用標(biāo)準(zhǔn)視覺(jué)轉(zhuǎn)換器中一個(gè)類(lèi)令牌的參與區(qū)域來(lái)形成與類(lèi)無(wú)關(guān)的定位映射,我們研究了轉(zhuǎn)換器模型是否也可以通

    2024年04月17日
    瀏覽(33)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包