CV?-?計(jì)算機(jī)視覺(jué)?|??ML - 機(jī)器學(xué)習(xí)?|??RL -?強(qiáng)化學(xué)習(xí)?| NLP 自然語(yǔ)言處理?
Subjects:?cs.CV
1.Collaborative Diffusion for Multi-Modal Face Generation and Editing(CVPR 2023)
標(biāo)題:多模態(tài)人臉生成和編輯的協(xié)同擴(kuò)散
作者:Ziqi Huang, Kelvin C.K. Chan, Yuming Jiang, Ziwei Liu
文章鏈接:https://arxiv.org/abs/2304.10530
項(xiàng)目代碼:https://github.com/ziqihuangg/Collaborative-Diffusion
摘要:
????????擴(kuò)散模型最近作為一種強(qiáng)大的生成工具出現(xiàn)。盡管取得了很大進(jìn)展,但現(xiàn)有的擴(kuò)散模型主要關(guān)注單模態(tài)控制,即擴(kuò)散過(guò)程僅由一種條件模態(tài)驅(qū)動(dòng)。為了進(jìn)一步釋放用戶(hù)的創(chuàng)造力,希望模型能夠同時(shí)通過(guò)多種模式進(jìn)行控制,例如,通過(guò)描述年齡(文本驅(qū)動(dòng))來(lái)生成和編輯面部,同時(shí)繪制面部形狀(面具驅(qū)動(dòng))。在這項(xiàng)工作中,我們提出了協(xié)作擴(kuò)散,其中預(yù)先訓(xùn)練的單模態(tài)擴(kuò)散模型協(xié)作以實(shí)現(xiàn)多模態(tài)人臉生成和編輯而無(wú)需重新訓(xùn)練。我們的主要見(jiàn)解是,由不同模式驅(qū)動(dòng)的擴(kuò)散模型在潛在的去噪步驟方面具有內(nèi)在的互補(bǔ)性,可以建立雙邊聯(lián)系。具體來(lái)說(shuō),我們提出了動(dòng)態(tài)擴(kuò)散器,這是一種元網(wǎng)絡(luò),它通過(guò)預(yù)測(cè)每個(gè)預(yù)訓(xùn)練單模態(tài)模型的時(shí)空影響函數(shù)來(lái)自適應(yīng)幻覺(jué)多模態(tài)去噪步驟。Collaborative Diffusion 不僅協(xié)作了單模態(tài)擴(kuò)散模型的生成能力,而且還集成了多個(gè)單模態(tài)操作來(lái)執(zhí)行多模態(tài)編輯。廣泛的定性和定量實(shí)驗(yàn)證明了我們的框架在圖像質(zhì)量和條件一致性方面的優(yōu)越性。
2.Stochastic Interpolants: A Unifying Framework for Flows and Diffusions
標(biāo)題:隨機(jī)插值:流動(dòng)和擴(kuò)散的統(tǒng)一框架
作者:Michael S. Albergo, Nicholas M. Boffi, Eric Vanden-Eijnden
文章鏈接:https://arxiv.org/abs/2303.08797
項(xiàng)目代碼:https://github.com/microsoft/AdaM
摘要:
????????介紹了一類(lèi)統(tǒng)一基于流和基于擴(kuò)散的方法的生成模型。這些模型擴(kuò)展了 Albergo & Vanden-Eijnden (2023) 中提出的框架,允許使用稱(chēng)為“隨機(jī)插值”的一大類(lèi)連續(xù)時(shí)間隨機(jī)過(guò)程在有限時(shí)間內(nèi)精確地橋接任意兩個(gè)任意概率密度函數(shù)。這些插值是通過(guò)將來(lái)自?xún)蓚€(gè)規(guī)定密度的數(shù)據(jù)與一個(gè)以靈活方式塑造橋梁的附加潛在變量相結(jié)合而構(gòu)建的。隨機(jī)插值的時(shí)間相關(guān)概率密度函數(shù)被證明滿(mǎn)足一階傳輸方程以及一系列具有可調(diào)擴(kuò)散的前向和后向 Fokker-Planck 方程??紤]到單個(gè)樣本的時(shí)間演變,這種觀點(diǎn)立即導(dǎo)致基于概率流方程或具有可調(diào)噪聲水平的隨機(jī)微分方程的確定性和隨機(jī)生成模型。進(jìn)入這些模型的漂移系數(shù)是時(shí)間相關(guān)的速度場(chǎng),其特征是簡(jiǎn)單二次目標(biāo)函數(shù)的獨(dú)特最小值,其中之一是插值密度得分的新目標(biāo)。值得注意的是,我們表明,這些二次目標(biāo)的最小化可以控制我們建立在隨機(jī)動(dòng)力學(xué)基礎(chǔ)上的任何生成模型的可能性。相比之下,我們確定基于確定性動(dòng)力學(xué)的生成模型還必須控制目標(biāo)和模型之間的 Fisher 散度。我們還構(gòu)建了基于插值的生成模型的似然和交叉熵的估計(jì)量,討論了與其他隨機(jī)橋的聯(lián)系,并證明了在對(duì)插值進(jìn)行顯式優(yōu)化時(shí),此類(lèi)模型可以恢復(fù)兩個(gè)目標(biāo)密度之間的薛定諤橋。
Subjects:?cs.LG
3.Architectures of Topological Deep Learning: A Survey on Topological Neural Networks
標(biāo)題:拓?fù)渖疃葘W(xué)習(xí)的架構(gòu):拓?fù)渖窠?jīng)網(wǎng)絡(luò)綜述
作者:Mathilde Papillon, Sophia Sanborn, Mustafa Hajij, Nina Miolane
文章鏈接:https://arxiv.org/abs/2304.10031
項(xiàng)目代碼:https://github.com/awesome-tnns/awesome-tnns
摘要:
????????自然界充滿(mǎn)了復(fù)雜的系統(tǒng),其特征是其組成部分之間存在錯(cuò)綜復(fù)雜的關(guān)系:從社交網(wǎng)絡(luò)中個(gè)體之間的社交互動(dòng)到蛋白質(zhì)中原子之間的靜電相互作用。拓?fù)渖疃葘W(xué)習(xí) (TDL) 提供了一個(gè)綜合框架來(lái)處理與這些系統(tǒng)相關(guān)的數(shù)據(jù)并從中提取知識(shí),例如預(yù)測(cè)個(gè)人所屬的社會(huì)社區(qū)或預(yù)測(cè)蛋白質(zhì)是否可以成為藥物開(kāi)發(fā)的合理目標(biāo)。TDL 已經(jīng)展示了理論和實(shí)踐優(yōu)勢(shì),有望在應(yīng)用科學(xué)及其他領(lǐng)域取得突破。然而,TDL 文獻(xiàn)的快速增長(zhǎng)也導(dǎo)致拓?fù)渖窠?jīng)網(wǎng)絡(luò) (TNN) 體系結(jié)構(gòu)的符號(hào)和語(yǔ)言缺乏統(tǒng)一。這對(duì)在現(xiàn)有工作的基礎(chǔ)上進(jìn)行構(gòu)建以及將 TNN 部署到新的現(xiàn)實(shí)世界問(wèn)題中構(gòu)成了真正的障礙。為了解決這個(gè)問(wèn)題,我們提供了一個(gè)易于理解的 TDL 介紹,并使用統(tǒng)一的數(shù)學(xué)和圖形符號(hào)來(lái)比較最近發(fā)布的 TNN。通過(guò)對(duì) TDL 新興領(lǐng)域的直觀和批判性審查,我們提取了對(duì)當(dāng)前挑戰(zhàn)和未來(lái)發(fā)展令人興奮的機(jī)會(huì)的寶貴見(jiàn)解。
?文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-430322.html
更多Ai資訊:公主號(hào)AiCharm文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-430322.html
到了這里,關(guān)于每日學(xué)術(shù)速遞4.24的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!