国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

這篇具有很好參考價(jià)值的文章主要介紹了【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

一、論文說(shuō)明

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

2023年5月18日提交的論文,華人一作。

論文地址:

https://arxiv.org/pdf/2305.10973.pdf

項(xiàng)目地址:

https://vcai.mpi-inf.mpg.de/projects/DragGAN/

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

代碼地址為:

https://github.com/XingangPan/DragGAN

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
具體代碼將會(huì)在六月開源!

二、前言

在圖像生成領(lǐng)域,以 Stable Diffusion 為代表的擴(kuò)散模型已然成為當(dāng)前占據(jù)主導(dǎo)地位的范式。但擴(kuò)散模型依賴于迭代推理,這是一把雙刃劍,因?yàn)榈椒梢詫?shí)現(xiàn)具有簡(jiǎn)單目標(biāo)的穩(wěn)定訓(xùn)練,但推理過(guò)程需要高昂的計(jì)算成本。

GAN(生成對(duì)抗網(wǎng)絡(luò))是一種深度學(xué)習(xí)模型,由生成器(Generator)和判別器(Discriminator)組成。GAN的目標(biāo)是訓(xùn)練生成器來(lái)生成逼真的數(shù)據(jù)樣本,同時(shí)訓(xùn)練判別器來(lái)區(qū)分生成器生成的樣本和真實(shí)樣本。

生成器和判別器通過(guò)對(duì)抗的方式進(jìn)行訓(xùn)練。生成器的任務(wù)是將隨機(jī)噪聲作為輸入,生成與真實(shí)樣本相似的數(shù)據(jù)樣本。判別器的任務(wù)是對(duì)給定的樣本進(jìn)行分類,判斷它是生成器生成的假樣本還是真實(shí)樣本。隨著訓(xùn)練的進(jìn)行,生成器逐漸學(xué)習(xí)生成更逼真的樣本,而判別器逐漸學(xué)習(xí)更準(zhǔn)確地區(qū)分真實(shí)樣本和生成樣本。

GAN的核心思想是通過(guò)兩個(gè)網(wǎng)絡(luò)之間的對(duì)抗來(lái)推動(dòng)模型的學(xué)習(xí)。生成器和判別器相互競(jìng)爭(zhēng),驅(qū)使彼此不斷提高,從而達(dá)到生成逼真樣本的目的。生成器試圖通過(guò)欺騙判別器來(lái)生成更真實(shí)的樣本,而判別器則試圖通過(guò)準(zhǔn)確地判斷樣本的真實(shí)性來(lái)區(qū)分生成樣本和真實(shí)樣本。

GAN的應(yīng)用非常廣泛,包括圖像生成、圖像修復(fù)、圖像轉(zhuǎn)換、語(yǔ)音合成等。通過(guò)訓(xùn)練生成器生成逼真的圖像,GAN可以用于生成藝術(shù)作品、虛擬場(chǎng)景和人物,甚至可以應(yīng)用于視頻游戲、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)等領(lǐng)域。

然而,GAN的訓(xùn)練過(guò)程相對(duì)復(fù)雜且不穩(wěn)定,需要合適的網(wǎng)絡(luò)架構(gòu)和超參數(shù)設(shè)置,以及大量的訓(xùn)練樣本和計(jì)算資源。近年來(lái),研究者們提出了許多改進(jìn)的GAN模型,如條件GAN、Wasserstein GAN、CycleGAN等,以解決GAN訓(xùn)練過(guò)程中的一些問(wèn)題和改進(jìn)生成效果。

在 Stable Diffusion 之前,生成對(duì)抗網(wǎng)絡(luò)(GAN)是圖像生成模型中常用的基礎(chǔ)架構(gòu)。相比于擴(kuò)散模型,GAN 通過(guò)單個(gè)前向傳遞生成圖像,因此本質(zhì)上是更高效的。但由于訓(xùn)練過(guò)程的不穩(wěn)定性,擴(kuò)展 GAN 需要仔細(xì)調(diào)整網(wǎng)絡(luò)架構(gòu)和訓(xùn)練因素。因此,GAN 方法很難擴(kuò)展到非常復(fù)雜的數(shù)據(jù)集上,在實(shí)際應(yīng)用方面,擴(kuò)散模型比 GAN 方法更易于控制,這是 GAN 式微的原因之一。

當(dāng)前,GAN 主要是通過(guò)手動(dòng)注釋訓(xùn)練數(shù)據(jù)或先驗(yàn) 3D 模型來(lái)保證其可控性,這通常缺乏靈活性、精確性和通用性。然而,一些研究者看重 GAN 在圖像生成上的高效性,做出了許多改進(jìn) GAN 的嘗試。

來(lái)自馬克斯?普朗克計(jì)算機(jī)科學(xué)研究所、MIT CSAIL 和谷歌的研究者們研究了一種控制 GAN 的新方法 DragGAN,能夠讓用戶以交互的方式「拖動(dòng)」圖像的任何點(diǎn)精確到達(dá)目標(biāo)點(diǎn)。

這種全新的控制方法非常靈活、強(qiáng)大且簡(jiǎn)單,有手就行,只需在圖像上「拖動(dòng)」想改變的位置點(diǎn)(操縱點(diǎn)),就能合成你想要的圖像。

例如,讓獅子「轉(zhuǎn)頭」并「開口」:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

還能輕松讓小貓 wink:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

再比如,你可以通過(guò)拖動(dòng)操縱點(diǎn),讓單手插兜的模特把手拿出來(lái)、改變站立姿勢(shì)、短袖改長(zhǎng)袖。

如果你也接到了「把大象轉(zhuǎn)個(gè)身」的 P 圖需求,不妨試試:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

整個(gè)圖像變換的過(guò)程就主打一個(gè)「簡(jiǎn)單靈活」,圖像想怎么變就怎么變,因此有網(wǎng)友預(yù)言:「PS 似乎要過(guò)時(shí)了」。

更多示例請(qǐng)看:

https://vcai.mpi-inf.mpg.de/projects/DragGAN/

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

那么,DragGAN 是如何做到強(qiáng)大又靈活的?我們來(lái)看一下該研究的技術(shù)方法。

三、論文理解

該研究提出的 DragGAN 主要由兩個(gè)部分組成,包括:

  1. 基于特征的運(yùn)動(dòng)監(jiān)督,驅(qū)動(dòng)圖像中的操縱點(diǎn)向目標(biāo)位置移動(dòng);
  2. 一種借助判別型 GAN 特征的操縱點(diǎn)跟蹤方法,以控制點(diǎn)的位置。

第一部分理解:

這句話描述了一種基于特征的運(yùn)動(dòng)監(jiān)督的方法,該方法用于驅(qū)動(dòng)圖像中的操縱點(diǎn)移動(dòng)到目標(biāo)位置。

首先,讓我們理解一些關(guān)鍵術(shù)語(yǔ):

  • 特征:在圖像中,特征可以是諸如邊緣、角點(diǎn)、紋理等可識(shí)別的結(jié)構(gòu)或模式。
  • 操縱點(diǎn):圖像中的操縱點(diǎn)是用戶定義或預(yù)先確定的位置點(diǎn),可以是感興趣區(qū)域的中心或其他關(guān)鍵點(diǎn)。
  • 目標(biāo)位置:在圖像中,目標(biāo)位置是操縱點(diǎn)所需移動(dòng)到的位置,可以由用戶指定或根據(jù)特定任務(wù)設(shè)定。

基于特征的運(yùn)動(dòng)監(jiān)督方法的目標(biāo)是通過(guò)分析圖像中的特征,以監(jiān)督并驅(qū)動(dòng)操縱點(diǎn)從其當(dāng)前位置移動(dòng)到目標(biāo)位置。這種方法通常包括以下步驟:

  • 特征提?。簭妮斎雸D像中提取出適合任務(wù)的特征。例如,可以使用計(jì)算機(jī)視覺(jué)技術(shù)(如邊緣檢測(cè)、角點(diǎn)檢測(cè)、紋理特征提取等)來(lái)獲取圖像中的特征信息。
  • 特征匹配:將當(dāng)前圖像中提取的特征與目標(biāo)位置附近的特征進(jìn)行匹配。這可以通過(guò)比較特征描述符或計(jì)算特征之間的相似性來(lái)實(shí)現(xiàn)。
  • 運(yùn)動(dòng)估計(jì):基于特征匹配的結(jié)果,估計(jì)操縱點(diǎn)需要移動(dòng)的方向和距離。這可以通過(guò)計(jì)算操縱點(diǎn)與目標(biāo)位置之間的幾何關(guān)系或使用光流估計(jì)等方法來(lái)實(shí)現(xiàn)。
  • 操縱點(diǎn)更新:根據(jù)運(yùn)動(dòng)估計(jì)的結(jié)果,將操縱點(diǎn)移動(dòng)一定距離或在特定方向上更新。這樣,操縱點(diǎn)逐漸靠近目標(biāo)位置。
  • 迭代過(guò)程:重復(fù)進(jìn)行上述步驟,直到操縱點(diǎn)達(dá)到目標(biāo)位置或達(dá)到停止條件。

通過(guò)這種基于特征的運(yùn)動(dòng)監(jiān)督方法,可以實(shí)現(xiàn)對(duì)圖像中的操縱點(diǎn)進(jìn)行控制和驅(qū)動(dòng),使其按照預(yù)定的路徑或目標(biāo)位置移動(dòng)。這種方法在許多計(jì)算機(jī)視覺(jué)和圖像處理任務(wù)中具有廣泛的應(yīng)用,如目標(biāo)跟蹤、物體定位、圖像配準(zhǔn)等。

第二部分理解:

判別型生成對(duì)抗網(wǎng)絡(luò)(Discriminative Generative Adversarial Networks,簡(jiǎn)稱GAN)是一種深度學(xué)習(xí)模型,由生成器和判別器兩個(gè)主要部分組成。生成器負(fù)責(zé)生成新樣本,而判別器則負(fù)責(zé)區(qū)分生成的樣本和真實(shí)的樣本。

操縱點(diǎn)跟蹤方法是指在一個(gè)給定的任務(wù)中,通過(guò)控制點(diǎn)的位置來(lái)實(shí)現(xiàn)目標(biāo)控制或優(yōu)化的方法。這種方法可以用于圖像處理、計(jì)算機(jī)視覺(jué)、機(jī)器人控制等領(lǐng)域。

在借助判別型GAN特征的操縱點(diǎn)跟蹤方法中,可以理解為利用GAN模型中的判別器部分提取特征,并將這些特征應(yīng)用于點(diǎn)跟蹤任務(wù)中。具體來(lái)說(shuō),可以將生成器部分用于生成操縱點(diǎn)的位置或變換,并利用判別器部分來(lái)評(píng)估生成的點(diǎn)位置的合理性或真實(shí)性。

例如,在圖像處理任務(wù)中,可以使用GAN模型來(lái)生成新的圖像樣本。然后,將這些生成的圖像輸入到判別器中,判斷它們是否看起來(lái)像真實(shí)的圖像。在操縱點(diǎn)跟蹤任務(wù)中,可以將待跟蹤的點(diǎn)作為生成器的輸入,生成新的點(diǎn)位置,并通過(guò)判別器評(píng)估這些點(diǎn)位置是否合理。

這種方法的好處在于,通過(guò)借助GAN的生成器和判別器,可以融合生成和判別的能力來(lái)實(shí)現(xiàn)更準(zhǔn)確的點(diǎn)跟蹤。生成器可以提供豐富的樣本變換能力,而判別器可以提供對(duì)生成的結(jié)果的評(píng)估和反饋,從而指導(dǎo)生成器的調(diào)整和優(yōu)化。

總之,借助判別型GAN特征的操縱點(diǎn)跟蹤方法是一種結(jié)合生成和判別能力的技術(shù),通過(guò)控制點(diǎn)的位置來(lái)實(shí)現(xiàn)特定任務(wù)的方法。這種方法可以根據(jù)具體的任務(wù)需求進(jìn)行調(diào)整和優(yōu)化,從而達(dá)到更好的效果。


DragGAN 能夠通過(guò)精確控制像素的位置對(duì)圖像進(jìn)行改變,可處理的圖像類型包括動(dòng)物、汽車、人類、風(fēng)景等,涵蓋大量物體姿態(tài)、形狀、表情和布局,并且用戶的操作方法簡(jiǎn)單通用。

GAN 有一個(gè)很大的優(yōu)勢(shì)是特征空間具有足夠的判別力,可以實(shí)現(xiàn)運(yùn)動(dòng)監(jiān)督(motion supervision)和精確的點(diǎn)跟蹤。

具體來(lái)說(shuō),運(yùn)動(dòng)監(jiān)督是通過(guò)優(yōu)化潛在代碼的移位特征 patch 損失來(lái)實(shí)現(xiàn)的。每個(gè)優(yōu)化步驟都會(huì)導(dǎo)致操縱點(diǎn)更接近目標(biāo),然后通過(guò)特征空間中的最近鄰搜索來(lái)執(zhí)行點(diǎn)跟蹤。重復(fù)此優(yōu)化過(guò)程,直到操縱點(diǎn)達(dá)到目標(biāo)。

DragGAN 還允許用戶有選擇地繪制感興趣的區(qū)域以執(zhí)行特定于區(qū)域的編輯。由于 DragGAN 不依賴任何額外的網(wǎng)絡(luò),因此它實(shí)現(xiàn)了高效的操作,大多數(shù)情況下在單個(gè) RTX 3090 GPU 上只需要幾秒鐘就可以完成圖像處理。這讓 DragGAN 能夠進(jìn)行實(shí)時(shí)的交互式編輯,用戶可以對(duì)圖像進(jìn)行多次變換更改,直到獲得所需輸出。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

如下圖所示,DragGAN 可以有效地將用戶定義的操縱點(diǎn)移動(dòng)到目標(biāo)點(diǎn),在許多目標(biāo)類別中實(shí)現(xiàn)不同的操縱效果。與傳統(tǒng)的形變方法不同的是,本文的變形是在 GAN 學(xué)習(xí)的圖像流形上進(jìn)行的,它傾向于遵從底層的目標(biāo)結(jié)構(gòu),而不是簡(jiǎn)單地應(yīng)用扭曲。例如,該方法可以生成原本看不見(jiàn)的內(nèi)容,如獅子嘴里的牙齒,并且可以按照物體的剛性進(jìn)行變形,如馬腿的彎曲。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

此外,通過(guò)與 GAN 反轉(zhuǎn)技術(shù)相結(jié)合,本文方法還可以作為一個(gè)用于真實(shí)圖像編輯的工具。

一個(gè)非常實(shí)用的用途是,即使合影中某些同學(xué)的表情管理不過(guò)關(guān),你也可以為 Ta 換上自信的笑容:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

順便提一句,這張照片正是本篇論文的一作潘新鋼,2021 年在香港中文大學(xué)多媒體實(shí)驗(yàn)室獲得博士學(xué)位,師從湯曉鷗教授。目前是馬克斯普朗克信息學(xué)研究所博士后,并將從 2023 年 6 月開始擔(dān)任南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 MMLab 的任助理教授。

這項(xiàng)工作旨在為 GAN 開發(fā)一種交互式的圖像操作方法,用戶只需要點(diǎn)擊圖像來(lái)定義一些對(duì)(操縱點(diǎn),目標(biāo)點(diǎn)),并驅(qū)動(dòng)操縱點(diǎn)到達(dá)其對(duì)應(yīng)的目標(biāo)點(diǎn)。

這項(xiàng)研究基于 StyleGAN2,基本架構(gòu)如下:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

在 StyleGAN2 架構(gòu)中,一個(gè) 512 維的潛在代碼??∈N(0,??)通過(guò)一個(gè)映射網(wǎng)絡(luò)被映射到一個(gè)中間潛在代碼??∈ R 512 \R^{512} R512 中。??的空間通常被稱為 W。然后,??被送到生成器??,產(chǎn)生輸出圖像 I = ??(??)。在這個(gè)過(guò)程中,??被復(fù)制了幾次,并被送到發(fā)生器??的不同層,以控制不同的屬性水平。另外,也可以對(duì)不同層使用不同的??,在這種情況下,輸入將是 ω ∈ R l × 512 = ω + \omega \in \R^{l \times 512} = \omega^{+} ωRl×512=ω+,其中??是層數(shù)。這種不太受約束的 ω + \omega^{+} ω+ 空間被證明是更有表現(xiàn)力的。由于生成器??學(xué)習(xí)了從低維潛在空間到高維圖像空間的映射,它可以被看作是對(duì)圖像流形的建模。

四、實(shí)驗(yàn)

為了展示 DragGAN 在圖像處理方面的強(qiáng)大能力,該研究展開了定性實(shí)驗(yàn)、定量實(shí)驗(yàn)和消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明 DragGAN 在圖像處理和點(diǎn)跟蹤任務(wù)中均優(yōu)于已有方法。

4.1 定性評(píng)估

下圖是本文方法和 UserControllableLT 之間的定性比較,展示了幾個(gè)不同物體類別和用戶輸入的圖像操縱結(jié)果。本文方法能夠準(zhǔn)確地移動(dòng)操縱點(diǎn)以到達(dá)目標(biāo)點(diǎn),實(shí)現(xiàn)了多樣化和自然的操縱效果,如改變動(dòng)物的姿勢(shì)、汽車形狀和景觀布局。相比之下,UserControllableLT 不能忠實(shí)地將操縱點(diǎn)移動(dòng)到目標(biāo)點(diǎn)上,往往會(huì)導(dǎo)致圖像中出現(xiàn)不想要的變化。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

如下圖所示,它也不能像本文方法那樣保持未遮蓋區(qū)域固定不變。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
下圖提供了與 PIPs 和 RAFT 之間的比較,本文方法準(zhǔn)確地跟蹤了獅子鼻子上方的操縱點(diǎn),從而成功地將它拖到了目標(biāo)位置:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
真實(shí)圖像編輯。使用 GAN inversion 技術(shù),將真實(shí)圖像嵌入 StyleGAN 的潛空間,本文方法也可以用來(lái)操作真實(shí)圖像。

其他圖像案例請(qǐng)?jiān)敿?xì)看論文!

4.2 定量評(píng)估

研究者在兩種設(shè)置中下對(duì)該方法進(jìn)行了定量評(píng)估,包括人臉標(biāo)記點(diǎn)操作和成對(duì)圖像重建。

人臉標(biāo)記點(diǎn)操作。如表 1 所示,在不同的點(diǎn)數(shù)下,本文方法明顯優(yōu)于 UserControllableLT。特別是,本文方法保留了更好的圖像質(zhì)量,正如表中的 FID 得分所示。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
這種對(duì)比在下圖中可以明顯看出來(lái),本文方法打開了嘴巴并調(diào)整下巴的形狀以匹配目標(biāo)臉,而 UserControllableLT 未能做到這一點(diǎn)。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了
成對(duì)圖像重建。如表 2 所示,本文方法在不同的目標(biāo)類別中優(yōu)于所有基線。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

4.3 討論

掩碼的影響。本文方法允許用戶輸入一個(gè)表示可移動(dòng)區(qū)域的二進(jìn)制掩碼,圖 8 展示了它的效果:

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

Out-of-distribution 操作。從圖 9 可以看出,本文的方法具有一定的 out-of-distribution 能力,可以創(chuàng)造出訓(xùn)練圖像分布之外的圖像,例如一個(gè)極度張開的嘴和一個(gè)大的車輪。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了

研究者同樣指出了本文方法現(xiàn)存的局限性:盡管有一些推斷能力,其編輯質(zhì)量仍然受到訓(xùn)練數(shù)據(jù)多樣性的影響。

如圖 14(a)所示,創(chuàng)建一個(gè)偏離訓(xùn)練分布的人體姿勢(shì)會(huì)導(dǎo)致偽影。

此外,如圖 14(b)和(c)所示,無(wú)紋理區(qū)域的操縱點(diǎn)有時(shí)會(huì)在追蹤中出現(xiàn)更多的漂移。因此,研究者建議盡可能挑選紋理豐富的操縱點(diǎn)。

【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-453477.html

到了這里,關(guān)于【計(jì)算機(jī)視覺(jué) | 擴(kuò)散模型】新論文 | DragGAN論文:如果甲方想把大象 P 轉(zhuǎn)身,你只需要拖動(dòng) GAN 就好了的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 計(jì)算機(jī)視覺(jué)領(lǐng)域經(jīng)典模型匯總(2023.09.08

    計(jì)算機(jī)視覺(jué)領(lǐng)域經(jīng)典模型匯總(2023.09.08

    一、RCNN系列 1、RCNN RCNN是用于目標(biāo)檢測(cè)的經(jīng)典方法,其核心思想是將目標(biāo)檢測(cè)任務(wù)分解為兩個(gè)主要步驟:候選區(qū)域生成和目標(biāo)分類。 候選區(qū)域生成:RCNN的第一步是生成可能包含目標(biāo)的候選區(qū)域,RCNN使用傳統(tǒng)的計(jì)算機(jī)視覺(jué)技術(shù),特別是 選擇性搜索(Selective Search)算法 ,這是一

    2024年02月09日
    瀏覽(24)
  • 數(shù)據(jù)增強(qiáng):讓計(jì)算機(jī)視覺(jué)模型更加智能和有效

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 引言 1.1. 背景介紹 隨著計(jì)算機(jī)視覺(jué)技術(shù)的快速發(fā)展,各種數(shù)據(jù)增強(qiáng)技術(shù)也應(yīng)運(yùn)而生。數(shù)據(jù)增強(qiáng)技術(shù)可以有效地提高計(jì)算機(jī)視覺(jué)模型的智能和有效性,從而在眾多應(yīng)用場(chǎng)景中取得更好的表現(xiàn)。 1.2. 文章目的 本文旨在闡述數(shù)據(jù)增強(qiáng)技術(shù)在計(jì)算機(jī)視

    2024年02月08日
    瀏覽(25)
  • 計(jì)算機(jī)視覺(jué):比SAM快50倍的分割一切視覺(jué)模型FastSAM

    計(jì)算機(jī)視覺(jué):比SAM快50倍的分割一切視覺(jué)模型FastSAM

    目錄 引言 1 FastSAM介紹 1.1 FastSAM誕生 1.2 模型算法 1.3 實(shí)驗(yàn)結(jié)果 2 FastSAM運(yùn)行環(huán)境構(gòu)建 2.1 conda環(huán)境構(gòu)建 2.2 運(yùn)行環(huán)境安裝 2.3 模型下載 3 FastSAM運(yùn)行 3.1 命令行運(yùn)行 3.1.1 Everything mode ?3.1.2 Text prompt 3.1.3 Box prompt (xywh) 3.1.4 Points prompt ?3.2 通過(guò)代碼調(diào)用 4 總結(jié) MetaAI提出的能夠“分割一切

    2024年02月11日
    瀏覽(29)
  • 數(shù)據(jù)增強(qiáng):如何讓計(jì)算機(jī)視覺(jué)模型更加準(zhǔn)確和可靠

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 數(shù)據(jù)增強(qiáng)(Data Augmentation)是一種常用的技術(shù),可以提高計(jì)算機(jī)視覺(jué)模型的精度和魯棒性。本文主要介紹數(shù)據(jù)增強(qiáng)技術(shù)的原理、分類方法及應(yīng)用。通過(guò)實(shí)例分析,闡述數(shù)據(jù)增強(qiáng)對(duì)模型精度提升的重要作用。最后,討論一些未來(lái)可能遇到的問(wèn)題與

    2024年02月07日
    瀏覽(28)
  • 模型剪枝:如何利用剪枝技術(shù)提高計(jì)算機(jī)視覺(jué)模型的準(zhǔn)確性

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 模型剪枝(pruning)是一種技術(shù),它通過(guò)刪除不重要的權(quán)重參數(shù),從而減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)數(shù)量,并保持其準(zhǔn)確率,同時(shí)降低計(jì)算量、占用內(nèi)存空間。這個(gè)過(guò)程稱之為模型壓縮(compression)。 模型剪枝的目的是為了改善神經(jīng)網(wǎng)絡(luò)在實(shí)際環(huán)境下

    2024年02月07日
    瀏覽(30)
  • 再見(jiàn)卷積神經(jīng)網(wǎng)絡(luò),使用 Transformers 創(chuàng)建計(jì)算機(jī)視覺(jué)模型

    再見(jiàn)卷積神經(jīng)網(wǎng)絡(luò),使用 Transformers 創(chuàng)建計(jì)算機(jī)視覺(jué)模型

    本文旨在介紹 / 更新 Transformers 背后的主要思想,并介紹在計(jì)算機(jī)視覺(jué)應(yīng)用中使用這些模型的最新進(jìn)展。 讀完這篇文章,你會(huì)知道…… 為什么 Transformers 在 NLP 任務(wù)中的表現(xiàn)優(yōu)于 SOTA 模型。 Transformer 模型的工作原理 這是卷積模型的主要限制。 Transformers 如何克服卷積模型的限

    2024年02月02日
    瀏覽(31)
  • 圖像處理與計(jì)算機(jī)視覺(jué):AI大模型的崛起

    在過(guò)去的幾年里,人工智能(AI)技術(shù)的發(fā)展取得了巨大的進(jìn)步,尤其是在圖像處理和計(jì)算機(jī)視覺(jué)領(lǐng)域。隨著深度學(xué)習(xí)和大型模型的興起,我們已經(jīng)看到了一系列令人印象深刻的成果,例如圖像識(shí)別、自動(dòng)駕駛、語(yǔ)音助手等。本文將涵蓋圖像處理與計(jì)算機(jī)視覺(jué)領(lǐng)域的核心概念、算

    2024年02月19日
    瀏覽(21)
  • 每天五分鐘計(jì)算機(jī)視覺(jué):如何構(gòu)造分類定位任務(wù)的算法模型?

    每天五分鐘計(jì)算機(jī)視覺(jué):如何構(gòu)造分類定位任務(wù)的算法模型?

    本節(jié)課程我們將學(xué)習(xí)分類定位的問(wèn)題,也就是說(shuō)不僅要完成圖片分類任務(wù),然后還要完成定位任務(wù)。如下所示,我們不僅要用算法判斷圖片中是不是一輛車,還要在圖片中標(biāo)記出它的位置,用邊框?qū)ο笕ζ饋?lái),這就是 分類定位問(wèn)題 。 一般可能會(huì)有一張圖片對(duì)應(yīng)多個(gè)對(duì)象,本

    2024年03月14日
    瀏覽(35)
  • 【計(jì)算機(jī)視覺(jué)】Visual Transformer (ViT)模型結(jié)構(gòu)以及原理解析

    【計(jì)算機(jī)視覺(jué)】Visual Transformer (ViT)模型結(jié)構(gòu)以及原理解析

    Visual Transformer (ViT) 出自于論文《AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE》,是基于Transformer的模型在視覺(jué)領(lǐng)域的開篇之作。 本文將盡可能簡(jiǎn)潔地介紹一下ViT模型的整體架構(gòu)以及基本原理。 ViT模型是基于Transformer Encoder模型的,在這里假設(shè)讀者已經(jīng)了解Transfo

    2024年02月02日
    瀏覽(33)
  • 【計(jì)算機(jī)視覺(jué)】最近跑實(shí)驗(yàn)的感悟:大模型訓(xùn)練太難了!

    【計(jì)算機(jī)視覺(jué)】最近跑實(shí)驗(yàn)的感悟:大模型訓(xùn)練太難了!

    這里大模型訓(xùn)練特指基座大模型的從0開始訓(xùn)練,不包括在2000條數(shù)據(jù)上SFT這樣的小任務(wù)。 有人說(shuō)大模型嘛,簡(jiǎn)單,給我卡就行,等到老板真給你買來(lái)了1000張卡你就知道有多難了,老板說(shuō),小王,卡買來(lái)了,三個(gè)月給我搞出來(lái)。 然后你發(fā)現(xiàn),就算有人把正確的代碼,數(shù)據(jù),參

    2024年02月09日
    瀏覽(14)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包