国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

這篇具有很好參考價值的文章主要介紹了CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、A Dynamic Multi-Scale Voxel Flow Network for Video Prediction

  • 視頻預(yù)測(video prediction)的性能已經(jīng)通過先進的深度神經(jīng)網(wǎng)絡(luò)大幅提高。然而,大多數(shù)當(dāng)前的方法存在著大的模型尺寸和需要額外的輸入(如,語義/深度圖)以實現(xiàn)良好的性能。出于效率考慮,本文提出了一個動態(tài)多尺度體素流網(wǎng)絡(luò)(Dynamic Multi-scale Voxel Flow Network,DMVFN),只基于RGB圖像,可以在更低的計算成本下實現(xiàn)更好的視頻預(yù)測性能,比之前的方法快一個數(shù)量級。

  • DMVFN的核心是一個可以有效感知視頻幀的運動尺度的可微分路由模塊(differentiable routing module)。一旦訓(xùn)練完成,在推理階段為不同的輸入選擇自適應(yīng)子網(wǎng)絡(luò)。在幾個基準(zhǔn)測試上的實驗表明,相比于Deep Voxel Flow,DMVFN速度快一個數(shù)量級,超越了最新的基于迭代的OPT在生成圖像質(zhì)量上的表現(xiàn)。

  • https://huxiaotaostasy.github.io/DMVFN/

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

2、A Unified Pyramid Recurrent Network for Video Frame Interpolation

  • 流引導(dǎo)合成(Flow-guided synthesis),為幀插值提供了一個通用的框架,其中估計光流以指導(dǎo)合成兩個連續(xù)輸入之間的中間幀。本文提出了一種新型的統(tǒng)一金字塔循環(huán)網(wǎng)絡(luò)(UPR-Net)用于幀插值。UPR-Net利用靈活的金字塔框架,利用輕量級循環(huán)模塊進行雙向流估計和中間幀合成。在每個金字塔級別,它利用估計的雙向流為幀合成生成正向變形表示;跨越金字塔級別,它使迭代的優(yōu)化用于光流和中間幀。迭代合成策略可以顯著提高大運動情況下的幀插值的魯棒性。

  • 盡管基于UPR-Net的基礎(chǔ)版本極度輕量(1.7M參數(shù)),但在大量基準(zhǔn)測試上表現(xiàn)出色。UPR-Net系列的代碼和訓(xùn)練模型在https://github.com/srcn-ivl/UPR-Net

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

3、Conditional Image-to-Video Generation with Latent Flow Diffusion Models

  • 條件圖像到視頻(Conditional image-to-video,cI2V)生成,旨在從圖像(例如,人臉)和條件(例如,類別標(biāo)簽,例如微笑)開始合成一個新的 plausible 視頻。cI2V任務(wù)的關(guān)鍵挑戰(zhàn)在于同時生成與給定圖像和條件對應(yīng)的空間外觀和時間性動態(tài)。

  • 本文提出一種使用基于新型潛流擴散模型(latent flow diffusion models,LFDM)的cI2V方法。與以前直接合成相比,LFDM更好利用給定圖像的空間內(nèi)容,在潛在空間中進行變形來合成細節(jié)和運動。LFDM訓(xùn)練分為兩個獨立階段:(1)無監(jiān)督學(xué)習(xí)階段,用于訓(xùn)練潛在流自動編碼器以進行空間內(nèi)容生成,其中流預(yù)測器用于估計視頻幀對之間的潛在流(2)條件學(xué)習(xí)階段,用于訓(xùn)練基于3D-UNet的擴散模型(DM)以進行時間潛在流生成。LFDM僅需要學(xué)習(xí)低維潛在流空間以進行運動生成,計算高效。

  • 在多個數(shù)據(jù)集上進行了全面實驗,證明LFDM始終優(yōu)于現(xiàn)有技術(shù)。此外,展示LFDM可以通過簡單微調(diào)圖像解碼器來輕松適應(yīng)新領(lǐng)域。代碼在https://github.com/nihaomiao/CVPR23_LFDM

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

4、Diffusion Video Autoencoders: Toward Temporally Consistent Face Video Editing via Disentangled Video Encoding

  • 受最近人臉圖像編輯方法的卓越性能啟發(fā),有幾項研究自然地提出將這些方法擴展到視頻編輯任務(wù)中。其中一個主要的挑戰(zhàn)是編輯幀之間的時間一致性,這仍然沒有解決。

  • 為此,提出了一種基于擴散自動編碼器的新的人臉視頻編輯框架,能夠通過簡單地操作具有時間穩(wěn)定性的特征即可實現(xiàn)視頻編輯以達到一致性。模型另一個獨特優(yōu)勢是,基于擴散模型可以同時滿足重建和編輯能力,并且不同于現(xiàn)有的基于GAN的方法,可以抵御極端情況,自然場景人臉視頻(例如遮擋的面部)。

  • https://diff-video-ae.github.io/

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

5、Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation

  • 有效地提取幀間運動和外觀信息對于視頻幀插值(video frame interpolation,VFI)非常重要。以往要么混合提取這兩種信息,要么針對每種信息都要有詳盡的單獨模塊,這會導(dǎo)致表示的模糊性和效率不高。

  • 本文提出一種新模塊,通過統(tǒng)一的操作明確地提取運動和外觀信息。具體而言,重新考慮幀間注意力中的信息處理,并重用其注意力圖以用于外觀特征增強和運動信息提取。此外,為了實現(xiàn)高效的VFI,模塊可以無縫集成到混合CNN和Transformer體系結(jié)構(gòu)中。這種混合管道可以緩解幀間注意力的計算復(fù)雜性,同時保留詳細的低級結(jié)構(gòu)信息。

  • 實驗結(jié)果表明,無論是在固定間隔還是任意間隔的插值方面,方法在各種數(shù)據(jù)集上都實現(xiàn)了最先進性能。同時,與具有相似性能的模型相比,具有更小的計算開銷。源代碼和模型在https://github.com/MCG-NJU/EMA-VF

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

6、MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation

  • 提出了第一個聯(lián)合音頻-視頻生成的框架,可以同時帶來引人入勝的觀看和聽覺體驗,旨在實現(xiàn)高質(zhì)量的逼真視頻。為了生成聯(lián)合音視頻對,提出了一種新的多模態(tài)擴散模型(即MM-Diffusion),其中包括兩個耦合去噪自編碼器。與現(xiàn)有的單模態(tài)擴散模型不同,MM-Diffusion由一個順序的多模態(tài)U-Net組成,通過設(shè)計用于聯(lián)合去噪過程。用于音頻和視頻的兩個子網(wǎng)絡(luò)逐步從高斯噪聲中學(xué)習(xí)生成對齊的音頻視頻對。

  • 實驗結(jié)果表明,在無條件音視頻生成和零樣本條件任務(wù)(例如,視頻到音頻)方面具有優(yōu)越的結(jié)果。代碼和預(yù)訓(xùn)練模型在https://github.com/researchmm/MM-Diffusion

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

7、MOSO: Decomposing MOtion, Scene and Object for Video Prediction

  • 運動、場景和物體是視頻的三個主要視覺組成部分。特別是,物體代表前景,場景代表背景,運動則追蹤它們的動態(tài)?;谶@個認(rèn)識,本文提出了一個兩階段的運動、場景和物體分解框架(MOtion, Scene and Object decomposition,MOSO),用于視頻預(yù)測,包括MOSO-VQVAE和MOSO-Transformer。

  • 在第一階段中,MOSO-VQVAE將先前視頻剪輯分解為運動、場景和物體組件,并將它們表示為不同的離散token組。然后,在第二階段中,MOSO-Transformer基于先前的標(biāo)記預(yù)測后續(xù)視頻剪輯的物體和場景token,并在生成的物體和場景token級別上添加動態(tài)運動。

  • 框架可以輕松擴展到無條件視頻生成和視頻幀插值任務(wù)。實驗結(jié)果表明,方法在視頻預(yù)測和無條件視頻生成的五個具有挑戰(zhàn)性的基準(zhǔn)測試中取得了新的最優(yōu)性能:BAIR、RoboNet、KTH、KITTI和UCF101。此外,MOSO可以通過組合來自不同視頻的對象和場景產(chǎn)生逼真的視頻。

  • https://github.com/iva-mzsun/MOSO

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

8、Text-Visual Prompting for Efficient 2D Temporal Video Grounding

  • 本文研究了時間視頻定位(temporal video grounding,TVG)的問題,它旨在預(yù)測由文本句子描述的時刻在視頻中的起始/結(jié)束時間點。由于精細3D視覺特征優(yōu)勢,TVG在近年來取得明顯進展。然而,3D卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的高復(fù)雜性耗時,需大量的存儲和計算資源。

  • 為了實現(xiàn)高效的TVG,提出一種新的文本-視覺提示(TVP)框架,將優(yōu)化的擾動模式(optimized perturbation patterns,稱之為“prompts”)并入TVG模型的視覺輸入和文本特征中。與3D CNN相比,TVP有效地在2D TVG模型中共同訓(xùn)練視覺編碼器和語言編碼器,并使用低復(fù)雜度的稀疏2D視覺特征來提高跨模態(tài)特征融合的性能。此外,提出了一種用于有效學(xué)習(xí)TVG的時間距離IoU(TDIoU)損失?;贑harades-STA和ActivityNet Captions數(shù)據(jù)集的實驗證明,TVP顯著提升了2D TVG的性能(如Charades-STA上的9.79%改進和ActivityNet Captions上的30.77%改進),且用3D視覺特征進行TVG相比,推斷加速達到5倍。

  • https://github.com/intel

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

9、Towards End-to-End Generative Modeling of Long Videos with Memory-Efficient Bidirectional Transformers

  • Autoregressive transformer在視頻生成方面表現(xiàn)出色。然而,受到自注意力的二次復(fù)雜性限制,不能直接學(xué)習(xí)視頻中的長期依賴性,并且由于自回歸過程而受到慢速推理時間和誤差傳播影響。

  • 本文提出一種記憶效率的雙向transformer(Memory-efficient Bidirectional Transformer,MeBT),用于端到端學(xué)習(xí)視頻中的長期依賴性和快速推理。基于最新進展,方法學(xué)習(xí)從部分觀察到的patch中并行解碼視頻的整個時空volume。在編碼和解碼方面均具有線性時間復(fù)雜度,通過將可觀察的上下文token投影到固定數(shù)目的潛在token中,并通過交叉注意力將它們條件化為編碼、解碼掩碼token。

  • 由于線性復(fù)雜度和雙向建模,方法在質(zhì)量和速度上對適度長時間內(nèi)視頻的生成比自回歸有著顯著改進。視頻和代碼在https://sites.google.com/view/mebt-cvpr2023

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

10、Video Probabilistic Diffusion Models in Projected Latent Space

  • 盡管深度生成模型取得了顯著進展,但由于高維度和復(fù)雜的時空動態(tài)以及大的空間變化,合成高分辨率和時間連貫的視頻仍然是一個挑戰(zhàn)。最近擴散模型研究顯示了它們解決這一問題的潛力,但它們面臨著計算和內(nèi)存效率問題。

  • 為了解決這個問題,本文提出了一個新的視頻生成生成模型,稱為投影潛在視頻擴散模型(PVDM),它是一個概率擴散模型,可以在低維潛在空間中學(xué)習(xí)視頻分布,因此可以在有限的資源下高效地訓(xùn)練高分辨率視頻。具體來說,PVDM由兩個組件組成:(a)一個自編碼器,將給定的視頻投影為2D形狀的潛在向量,這些向量分解了視頻像素的復(fù)雜立方體結(jié)構(gòu);以及(b)一個擴散模型體系結(jié)構(gòu),專門為新分解潛在空間和訓(xùn)練/采樣過程設(shè)計,并使用單個模型合成任意長度的視頻。流行視頻生成數(shù)據(jù)集上的實驗證明了PVDM相對于以前的視頻合成方法的優(yōu)越性;例如,PVDM在UCF-101長視頻(128幀)生成基準(zhǔn)測試中獲得了639.7的FVD得分,比先前的最優(yōu)方法提高了1773.4。

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

11、VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation

  • 擴散概率模型(DPM)通過逐步向數(shù)據(jù)添加噪聲構(gòu)建正向擴散過程,并學(xué)習(xí)反向去噪過程以生成新的樣本,已被證明可處理復(fù)雜的數(shù)據(jù)分布。盡管在圖像生成方面取得了成功,但將DPM應(yīng)用于視頻生成仍具有挑戰(zhàn),因為它面臨高維度的數(shù)據(jù)空間。以前的方法通常采用標(biāo)準(zhǔn)擴散過程,在其中同一視頻中的幀使用獨立的噪聲進行破壞,忽略了內(nèi)容冗余和時間相關(guān)性。

  • 本文通過將每幀噪聲解決為在所有幀之間共享的基礎(chǔ)噪聲和沿時間軸變化的殘余噪聲,提出了一個分解擴散過程。去噪流程采用兩個聯(lián)合學(xué)習(xí)的網(wǎng)絡(luò)相應(yīng)地匹配噪聲分解。各種數(shù)據(jù)集上的實驗確認(rèn)了方法(稱為VideoFusion)在高質(zhì)量視頻生成方面超越了基于GAN和基于擴散的替代方案。

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯

關(guān)注公眾號【機器學(xué)習(xí)與AI生成創(chuàng)作】,更多精彩等你來讀

深入淺出stable diffusion:AI作畫技術(shù)背后的潛在擴散模型論文解讀

深入淺出ControlNet,一種可控生成的AIGC繪畫生成算法!?

經(jīng)典GAN不得不讀:StyleGAN

CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯?戳我,查看GAN的系列專輯~!

一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!

最新最全100篇匯總!生成擴散模型Diffusion Models

ECCV2022 | 生成對抗網(wǎng)絡(luò)GAN部分論文匯總

CVPR 2022 | 25+方向、最新50篇GAN論文

?ICCV 2021 | 35個主題GAN論文匯總

超110篇!CVPR 2021最全GAN論文梳理

超100篇!CVPR 2020最全GAN論文梳理

拆解組新的GAN:解耦表征MixNMatch

StarGAN第2版:多域多樣性圖像生成

附下載 |?《可解釋的機器學(xué)習(xí)》中文版

附下載 |《TensorFlow 2.0 深度學(xué)習(xí)算法實戰(zhàn)》

附下載 |《計算機視覺中的數(shù)學(xué)方法》分享

《基于深度學(xué)習(xí)的表面缺陷檢測方法綜述》

《零樣本圖像分類綜述: 十年進展》

《基于深度神經(jīng)網(wǎng)絡(luò)的少樣本學(xué)習(xí)綜述》

《禮記·學(xué)記》有云:獨學(xué)而無友,則孤陋而寡聞

點擊一杯奶茶,成為AIGC+CV視覺的前沿弄潮兒!,加入?AI生成創(chuàng)作與計算機視覺?知識星球!文章來源地址http://www.zghlxwxcb.cn/news/detail-487912.html

到了這里,關(guān)于CVPR 2023 | 視頻AIGC,預(yù)測/插幀/生成/編輯的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 【CVPR 2023的AIGC應(yīng)用匯總(4)】圖像恢復(fù),基于GAN生成對抗/diffusion擴散模型方法...

    【CVPR 2023的AIGC應(yīng)用匯總(4)】圖像恢復(fù),基于GAN生成對抗/diffusion擴散模型方法...

    【CVPR 2023的AIGC應(yīng)用匯總(1)】圖像轉(zhuǎn)換/翻譯,基于GAN生成對抗/diffusion擴散模型方法 【CVPR 2023的AIGC應(yīng)用匯總(2)】可控文生圖,基于diffusion擴散模型/GAN生成對抗方法 【CVPR 2023的AIGC應(yīng)用匯總(3)】GAN改進/可控生成的方法10篇 本文研究JPEG圖像恢復(fù)問題,即加密比特流中的比特錯誤。

    2024年02月06日
    瀏覽(24)
  • CVPR 2023 | 用戶可控的條件圖像到視頻生成方法(基于Diffusion)

    CVPR 2023 | 用戶可控的條件圖像到視頻生成方法(基于Diffusion)

    注1:本文系“計算機視覺/三維重建論文速遞”系列之一,致力于簡潔清晰完整地介紹、解讀計算機視覺,特別是三維重建領(lǐng)域最新的頂會/頂刊論文(包括但不限于 Nature/Science及其子刊; CVPR, ICCV, ECCV, NeurIPS, ICLR, ICML, TPAMI, IJCV 等)。 本次介紹的論文是: CVPR 2023 | 用戶可控的條件圖

    2024年02月13日
    瀏覽(16)
  • AIGC視頻生成/編輯技術(shù)調(diào)研報告

    AIGC視頻生成/編輯技術(shù)調(diào)研報告

    人物AIGC:FaceChain人物寫真生成工業(yè)級開源項目,歡迎上github體驗。 簡介: ?隨著圖像生成領(lǐng)域的研究飛速發(fā)展,基于diffusion的生成式模型取得效果上的大突破。在圖像生成/編輯產(chǎn)品大爆發(fā)的今天,視頻生成/編輯技術(shù)也引起了學(xué)術(shù)界和產(chǎn)業(yè)界的高度關(guān)注。該分享主要介紹視頻

    2024年02月05日
    瀏覽(27)
  • AIGC產(chǎn)業(yè)研究報告2023——視頻生成篇

    AIGC產(chǎn)業(yè)研究報告2023——視頻生成篇

    易觀: 今年以來,隨著人工智能技術(shù)不斷實現(xiàn)突破迭代,生成式AI的話題多次成為熱門,而人工智能內(nèi)容生成(AIGC)的產(chǎn)業(yè)發(fā)展、市場反應(yīng)與相應(yīng)監(jiān)管要求也受到了廣泛關(guān)注。為了更好地探尋其在各行業(yè)落地應(yīng)用的可行性和發(fā)展趨勢,易觀對AIGC產(chǎn)業(yè)進行了探索并將發(fā)布AIGC產(chǎn)

    2024年02月10日
    瀏覽(28)
  • CVPR 2023 | 風(fēng)格遷移論文3篇簡讀,視覺AIGC系列

    CVPR 2023 | 風(fēng)格遷移論文3篇簡讀,視覺AIGC系列

    內(nèi)容相似度損失(包括特征和像素相似度)是逼真和視頻風(fēng)格遷移中出現(xiàn)偽影的主要問題。本文提出了一個名為CAP-VSTNet的新框架,包括一個新的可逆殘差網(wǎng)絡(luò)(reversible residual network)和一個無偏線性變換模塊,用于多功能風(fēng)格轉(zhuǎn)移。這個可逆殘差網(wǎng)絡(luò)不僅可以保留內(nèi)容關(guān)聯(lián)性

    2024年02月11日
    瀏覽(28)
  • CVPR 2023 | 最全 AIGC 論文清單匯總版,30個方向130篇!

    目錄 1、圖像轉(zhuǎn)換/翻譯 2、GAN改進/可控 3、可控文生圖/定制化文生圖 4、圖像恢復(fù) 5、布局可控生成 6、醫(yī)學(xué)圖像 7、人臉相關(guān) 8、3D相關(guān) 9、deepfake檢測 10、圖像超分 11、風(fēng)格遷移 12、去雨去噪去模糊 13、圖像分割 14、視頻相關(guān) 15、對抗攻擊 16、擴散模型改進 17、數(shù)據(jù)增廣 18、說

    2024年02月14日
    瀏覽(19)
  • CVPR2023新作:3D視頻物體檢測

    Title: 3D Video Object Detection With Learnable Object-Centric Global Optimization Affiliation: 中國科學(xué)院自動化研究所 (Institute of Automation, Chinese Academy of Sciences),中國科學(xué)院大學(xué)人工智能學(xué)院 (School of Artificial Intelligence, University of Chinese Academy of Sciences),香港中文大學(xué)人工智能與機器人中心 (Ce

    2024年02月15日
    瀏覽(29)
  • 臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完。

    臥剿,6萬字!30個方向130篇!CVPR 2023 最全 AIGC 論文!一口氣讀完。

    一杯奶茶,成為 AIGC+CV 視覺前沿弄潮兒! 25個方向!CVPR 2022 GAN論文匯總 ?35個方向!ICCV 2021 最全GAN論文匯總 超110篇!CVPR 2021 最全GAN論文梳理 超100篇!CVPR 2020 最全GAN論文梳理 ? 在最新的視覺頂會?CVPR 2023?會議中,涌現(xiàn)出了大量基于 生成式AIGC 的CV論文,包括不限于 生成對抗

    2024年02月09日
    瀏覽(32)
  • CVPR 2023 | 去雨去噪去模糊,圖像low-level任務(wù),視覺AIGC系列

    CVPR 2023 | 去雨去噪去模糊,圖像low-level任務(wù),視覺AIGC系列

    基于Transformer的方法在圖像去雨任務(wù)中取得了顯著的性能,因為它們可以對重要的非局部信息進行建模,這對高質(zhì)量的圖像重建至關(guān)重要。本文發(fā)現(xiàn)大多數(shù)現(xiàn)有的Transformer通常使用查詢-鍵對中的所有token的相似性進行特征聚合。然而,如果查詢中的token與鍵中的token不同,從這

    2024年02月12日
    瀏覽(28)
  • TPS Motion(CVPR2022)視頻生成論文解讀

    TPS Motion(CVPR2022)視頻生成論文解讀

    論文: 《Thin-Plate Spline Motion Model for Image Animation》 github: https://github.com/yoyo-nb/Thin-Plate-Spline-Motion-Model 問題: 盡管當(dāng)前有些工作使用無監(jiān)督方法進可行任意目標(biāo)姿態(tài)遷移,但是當(dāng)源圖與目標(biāo)圖差異大時,對當(dāng)前無監(jiān)督方案來說仍然具有挑戰(zhàn)。 方法: 本文提出無監(jiān)督TPS Motio

    2023年04月11日
    瀏覽(103)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包