国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?

這篇具有很好參考價(jià)值的文章主要介紹了小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛 小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛
你能找出哪個(gè)物體是假的么?

項(xiàng)目demo效果非常驚艷,仔細(xì)看了之后又發(fā)現(xiàn)工作量很大,Pipeline很復(fù)雜,即使Supplementary Material中補(bǔ)充了很多信息,但具體細(xì)節(jié)估計(jì)需要詳細(xì)看代碼才能清楚了??次恼碌呐虐婧蛼斓絘rxiv的時(shí)間,應(yīng)該是投CVPR2024了,可以期待一下完整代碼。

摘要:實(shí)際視頻模擬在從虛擬現(xiàn)實(shí)到電影制作的多樣化應(yīng)用中顯示出巨大的潛力,特別是在現(xiàn)實(shí)世界環(huán)境中拍攝視頻不切實(shí)際或成本過高的情況下?,F(xiàn)有的視頻模擬方法常常無法準(zhǔn)確地模擬光照環(huán)境、表現(xiàn)物體幾何形狀或達(dá)到高水平的照片級(jí)真實(shí)感。在這篇論文中,提出了一個(gè)名為“任何物體在任何場景”(Anything in Any Scene)的新型通用視頻模擬框架,它能夠無縫地將任何物體插入到現(xiàn)有的動(dòng)態(tài)視頻中,強(qiáng)調(diào)物理真實(shí)性。文章提出的通用框架包括三個(gè)關(guān)鍵過程:1) 將逼真的物體整合到給定場景視頻中,并進(jìn)行適當(dāng)放置以確保幾何真實(shí)性;2) 評(píng)估天空和環(huán)境光分布,并模擬逼真的陰影以增強(qiáng)光照真實(shí)性;3) 使用風(fēng)格轉(zhuǎn)換網(wǎng)絡(luò)優(yōu)化最終視頻輸出,以最大化照片級(jí)真實(shí)感。我們通過實(shí)驗(yàn)證明,“任何物體在任何場景”框架能夠生成具有極高幾何真實(shí)性、光照真實(shí)性和照片級(jí)真實(shí)感的模擬視頻。通過顯著減輕與視頻數(shù)據(jù)生成相關(guān)的挑戰(zhàn),該方法為獲取高質(zhì)量視頻提供了一個(gè)高效且成本效益的解決方案。此外,它的應(yīng)用遠(yuǎn)不止于視頻數(shù)據(jù)增強(qiáng),還在虛擬現(xiàn)實(shí)、視頻編輯以及其他許多以視頻為中心的應(yīng)用中顯示出了有希望的潛力。

CODE(未完全開源):https://anythinginanyscene.github.io/

Pipeline:

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

1. Assets Bank

根據(jù)video的場景和內(nèi)容檢索匹配的object,并獲取帶mesh的模型。

2. object placement & stabilization

a. Placement

這一步的目標(biāo)是確定object放置的坐標(biāo),使其處于合理位置并且不遮擋當(dāng)前幀內(nèi)已經(jīng)存在的object。
首先,對(duì)場景進(jìn)行3D重建,這樣做一方面是3D場景中進(jìn)行選取坐標(biāo)可以更不容易被視角限制,另一方面為了后續(xù)在不同幀內(nèi)對(duì)同一object不同視角更好的保持一致性。將世界坐標(biāo)系 O w = [ 0 , 0 , 0 , 1 ] O_w=[0,0,0,1] Ow?=[0,0,0,1]的點(diǎn)轉(zhuǎn)換到像素坐標(biāo)系的一點(diǎn) o ~ n \widetilde{o}_n o n?, 并且只選取mask內(nèi)的區(qū)域(使用訓(xùn)好分割模型,分割出不會(huì)遮擋其他物體的合理區(qū)域 M ^ 1 \hat{M}_1 M^1?)。即下述公式:
o ~ n = K [ R n ∣ t n ] O w \tilde{o}_n = K[R_n | t_n]O_w o~n?=K[Rn?tn?]Ow?
小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛
b. Stabilization
考慮同一object在不同幀內(nèi)的坐標(biāo)(frame間的時(shí)域信息),使object在不同幀之間的位置更穩(wěn)定。

優(yōu)化像素坐標(biāo)系到世界坐標(biāo)系的兩個(gè)變換矩陣-旋轉(zhuǎn)矩陣 R n R_n Rn?和 轉(zhuǎn)換向量 t n t_n tn?,使通過變換得到的坐標(biāo) p ^ n \hat{p}_n p^?n?(利用物體的世界坐標(biāo)得到的估計(jì)量) 與利用光流進(jìn)行tracking(使用下一幀計(jì)算光流) 得到 p ^ n \hat{p}_n p^?n? 之間的error:
( R n , t n ) = arg ? min ? ( R n , t n ) ∑ i = 1 M ( p ^ i ? p n ) 2 = arg ? min ? ( R n , t n ) ∑ i = 1 M ( p ^ i ? K [ R n ∣ t n ] P w ) 2 (R_n, t_n) = \arg\min_{(R_n, t_n)} \sum_{i=1}^{M} (\hat{p}_i - p_n)^2 = \arg\min_{(R_n, t_n)} \sum_{i=1}^{M} (\hat{p}_i - K[R_n | t_n]P_w)^2 (Rn?,tn?)=arg(Rn?,tn?)min?i=1M?(p^?i??pn?)2=arg(Rn?,tn?)min?i=1M?(p^?i??K[Rn?tn?]Pw?)2

3. Lighting Estimation and Shadow Generation

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

為了得到更真實(shí)的光照效果與陰影效果,需要對(duì)場景內(nèi)的光源進(jìn)行估計(jì),分為太陽光源與環(huán)境光源兩部分,并基于光源分布對(duì)陰影進(jìn)行渲染。

a. 光源分布估計(jì)

第一步,由于input的可視范圍較小,可能會(huì)忽略掉周圍一些光源信息從而影響渲染的結(jié)果,所以首先使用Inpainting(使用了image-to-image的diffusion model)得到包含更多的光源信息的全景圖片.

第二步,Luminance Distribution Estimation太陽光源分布估計(jì),輸入全景LDR(Low Dynamic Dange)圖片,輸出HDR map L L L。采用GAN訓(xùn)練的U-net,HDR map由sky region luminance distribution與sun region luminance distribution組成,前者采用Resnet做backbone,后者采用VGG16。
小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

第三步,Environmental HDR Image Reconstruction環(huán)境光源分布估計(jì),使用視頻連續(xù)幀作為場景不同視角,得到HDR全景多視角圖片,能夠?yàn)殇秩咎峁┤轿坏墓庹招畔ⅰ?br>小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

b. 陰影渲染

HDR天空和環(huán)境圖像被集成在一起,以便在渲染過程中對(duì)插入的對(duì)象實(shí)現(xiàn)逼真的光照效果。此外,我們利用估算出的HDR天空?qǐng)D像為插入的對(duì)象渲染陰影,為此使用了3D圖形應(yīng)用程序Vulkan。

4. 真實(shí)風(fēng)格轉(zhuǎn)換

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

采用coarse-to-fine的模式,用類似inpainting的方式進(jìn)行實(shí)現(xiàn)(只需要對(duì)插入的foreground object進(jìn)行 style transfer, background不用改變)。輸入包括三部分:Background、mask、foreground,首先將這三部分輸入送入coarse network得到coarse output,再將三部分輸入與coarse output一起輸入Refine network得到最終結(jié)果。

這里有一個(gè)疑問,輸入object應(yīng)該是和當(dāng)前background風(fēng)格不一致的,再使用object的真實(shí)風(fēng)格作為gt進(jìn)行訓(xùn)練,那么輸入的object風(fēng)格是如何得到的,文中并沒有提到。

實(shí)驗(yàn)

實(shí)驗(yàn)部分,除了大量的可視化結(jié)果展示以外,除了常用的FID指標(biāo)以外,作者還進(jìn)行A/B test,從人類的主觀判斷準(zhǔn)確性來評(píng)價(jià)方法的效果。
Human score定義為:
t i m e s ? o f ? r e s u l t s ? b y ? m e t h o d ? A ? s e l e c t e d t o t a l ? t i m e s ? o f ? r e s u l t s ? b y ? m e t h o d ? A ? a n d ? B ? s e l e c t e d \frac{times\ of\ results\ by\ method\ A\ selected}{total\ times\ of\ results\ by\ method\ A\ and\ B\ selected} total?times?of?results?by?method?A?and?B?selectedtimes?of?results?by?method?A?selected?
主要體現(xiàn)method A 對(duì)比baseline method B 在人類判斷下有多大提升。

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

同時(shí),也驗(yàn)證了方法作為數(shù)據(jù)增強(qiáng)對(duì)下游感知任務(wù)性能的提升。

小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?,音視頻,計(jì)算機(jī)視覺,深度學(xué)習(xí),AIGC,自動(dòng)駕駛

總結(jié)

文章的工作非常扎實(shí),效果又很不錯(cuò),作為自動(dòng)駕駛大廠的工作確實(shí)非常有水平。觀察demo可以發(fā)現(xiàn),位置和陰影確實(shí)感覺很不錯(cuò)了,但由于沒引入幀間style的穩(wěn)定機(jī)制,可以發(fā)現(xiàn)object在不同幀的style(顏色紋理)感覺略有變化,感覺對(duì)于人類觀察者這是最容易發(fā)現(xiàn)插入object的特點(diǎn)。

于沒引入幀間style的穩(wěn)定機(jī)制,可以發(fā)現(xiàn)object在不同幀的style(顏色紋理)感覺略有變化,感覺對(duì)于人類觀察者這是最容易發(fā)現(xiàn)插入object的特點(diǎn)。

視頻任務(wù)的潛力確實(shí)很大,利用視頻提供的豐富場景信息進(jìn)行object插入,作為數(shù)據(jù)增強(qiáng)來說,相比圖片級(jí)Copy Paste確實(shí)感覺效果好很多,但若考慮消耗的資源不知道會(huì)怎樣?另一方面,感覺這種真實(shí)的3D物體插入方法可能在AR/MR會(huì)有很大潛力?文章來源地址http://www.zghlxwxcb.cn/news/detail-829507.html

到了這里,關(guān)于小鵬團(tuán)隊(duì)提出Anything in Any Scene,超真實(shí)的視頻模擬框架,圖像增強(qiáng)的未來?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Dynamic Routing Between Capsules——黃海波團(tuán)隊(duì)的論文,提出了一個(gè)膠囊網(wǎng)絡(luò)的改進(jìn)

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 在深度學(xué)習(xí)領(lǐng)域,神經(jīng)網(wǎng)絡(luò)(NN)已經(jīng)成為一個(gè)非常有效、普遍且廣泛應(yīng)用的機(jī)器學(xué)習(xí)技術(shù)。而最近,隨著大數(shù)據(jù)、計(jì)算能力的提升以及深度學(xué)習(xí)模型的性能指標(biāo)的提高,神經(jīng)網(wǎng)絡(luò)已逐漸成為解決各種各樣的問題的利器。近年來,膠囊網(wǎng)絡(luò)(CapsNe

    2024年02月08日
    瀏覽(18)
  • 斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測器DetectGPT,通過文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

    斯坦福大學(xué)團(tuán)隊(duì)提出AI生成文本檢測器DetectGPT,通過文本對(duì)數(shù)概率的曲率進(jìn)行可解釋判斷

    原文鏈接:https://www.techbeat.net/article-info?id=4583 作者:seven_ 隨著以ChatGPT等大型語言模型(large language models,LLMs)的爆火, 學(xué)界和工業(yè)界目前已經(jīng)開始重視這些模型的安全性 ,由于ChatGPT強(qiáng)大的 知識(shí)存儲(chǔ)和推理能力 ,其目前可以針對(duì)各種各樣的用戶輸入來產(chǎn)生非常流暢和完整

    2024年02月09日
    瀏覽(22)
  • 上海交大 AI4S 團(tuán)隊(duì)提出「智能化科學(xué)設(shè)施」構(gòu)想,建立跨學(xué)科 AI 科研助手

    上海交大 AI4S 團(tuán)隊(duì)提出「智能化科學(xué)設(shè)施」構(gòu)想,建立跨學(xué)科 AI 科研助手

    作者:李寶珠 編輯:三羊 上海交大人工智能研究院 AI for Science 團(tuán)隊(duì)楊小康教授等人,提出一種智能化科學(xué)設(shè)施的建設(shè)構(gòu)想,形成科學(xué)領(lǐng)域大模型、生成式模擬與反演、自主智能無人實(shí)驗(yàn)及大規(guī)??尚趴蒲袇f(xié)作等創(chuàng)新功能。 近年來,人工智能在科研中的應(yīng)用持續(xù)向縱深發(fā)展,

    2024年02月22日
    瀏覽(92)
  • 《論文閱讀07》Segment Anything in 3D with NeRFs

    《論文閱讀07》Segment Anything in 3D with NeRFs

    研究領(lǐng)域:圖像分割(3D) 論文:Segment Anything in 3D with NeRFs Submitted on 24 Apr 2023 (v1), last revised 1 Jun 2023 (this version, v3) Computer Vision and Pattern Recognition (cs.CV) nvos數(shù)據(jù)集 論文鏈接 使用NeRFs在3D中分割任何內(nèi)容 摘要 最近,Segment Anything Model(SAM)作為一種強(qiáng)大的視覺基礎(chǔ)模型出現(xiàn),它能

    2024年02月16日
    瀏覽(22)
  • 【視覺SLAM】An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation

    【視覺SLAM】An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation

    Cite: H. Qian and P. Ding.An Improved ORB-SLAM2 in Dynamic Scene with Instance Segmentation[C].2019 Workshop on Research, Education and Development of Unmanned Aerial Systems (RED UAS).Cranfield, UK. 2019:185-191. Keyword: 特征提取,圖像運(yùn)動(dòng)分析,圖像分割,移動(dòng)機(jī)器人,姿勢估計(jì),機(jī)器人視覺,SLAM (機(jī)器人) 為了提高動(dòng)態(tài)

    2024年02月01日
    瀏覽(15)
  • SQL 單行子查詢 、多行子查詢、單行函數(shù)、聚合函數(shù) IN 、ANY 、SOME 、ALL

    單行子查詢 子查詢結(jié)果是 一個(gè)列一行記錄 select a,b,c from table where a (select avg(xx) from table ) 還支持這種寫法,這種比較少見 select a,b,c from table where (a ,b)=(select xx,xxx from table where col=‘000’ ) 多行子查詢 子查詢結(jié)果是 一個(gè)列多行記錄 select a,b,c from table where a [ some | any |

    2024年02月14日
    瀏覽(22)
  • Mental Illness Care in an AI World: Are There any Thera

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) ? 在這個(gè)信息時(shí)代,許多人都把注意力集中在了技術(shù)革命上,以及相關(guān)的商業(yè)模式上。然而,“技術(shù)革命”帶來的成就并不是每個(gè)人都可以享受的。正如馬云所說:“社會(huì)的變化和環(huán)境的變化要求我們必須改變自己的方式、觀念和行為”。 ?

    2024年02月06日
    瀏覽(21)
  • 【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    【論文閱讀筆記】Sam3d: Segment anything model in volumetric medical images[

    Bui N T, Hoang D H, Tran M T, et al. Sam3d: Segment anything model in volumetric medical images[J]. arXiv preprint arXiv:2309.03493, 2023.【開源】 本文提出的SAM3D模型是針對(duì)三維體積醫(yī)學(xué)圖像分割的一種新方法。其核心在于將“分割任何事物”(SAM)模型的預(yù)訓(xùn)練編碼器與一個(gè)輕量級(jí)的3D解碼器相結(jié)合。與

    2024年01月20日
    瀏覽(32)
  • Plugin xxx was was not found in any of the following sources:

    ? ? ? ? 最近打開AndroidStudio,經(jīng)常出現(xiàn)如下異常: ? ? 嘗試調(diào)整gradle版本,發(fā)現(xiàn)仍然不能解決,最后?通過降低app目錄下build.gradle的? \\\"compileSdk\\\"和\\\"targetSdk\\\"版本,以及去掉buildToolsVersion解決。

    2024年02月12日
    瀏覽(25)
  • Inpaint Anything: 自動(dòng)化抹除視頻元素

    Inpaint Anything: 自動(dòng)化抹除視頻元素

    自動(dòng)化抹除視頻元素 不用逐幀摳圖,直接SAM + Tracking + Video Inpainting就能實(shí)現(xiàn)自動(dòng)化抹除奔跑吧idol。 https://github.com/geekyutao/Inpaint-Anything https://huggingface.co/spaces/InpaintAI/Inpaint-Anything 原理就是,只要在視頻的第一幀點(diǎn)擊下要抹除的目標(biāo),tracking模型隨即開始跟蹤目標(biāo)并輸出對(duì)應(yīng)的

    2024年02月15日
    瀏覽(14)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包