国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OpenAI全新發(fā)布文生視頻模型:Sora!

這篇具有很好參考價(jià)值的文章主要介紹了OpenAI全新發(fā)布文生視頻模型:Sora!。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

OpenAI官網(wǎng)原文鏈接:https://openai.com/research/video-generation-models-as-world-simulators#fn-20

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

?????我們探索視頻數(shù)據(jù)生成模型的大規(guī)模訓(xùn)練。具體來說,我們在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上聯(lián)合訓(xùn)練文本條件擴(kuò)散模型。我們利用對視頻和圖像潛在代碼的時(shí)空Patches進(jìn)行操作的Transformer架構(gòu)。我們最大的模型Sora能夠生成一分鐘的高保真視頻。我們的結(jié)果表明,擴(kuò)展視頻生成模型是構(gòu)建物理世界通用模擬器的一條有前途的途徑。

?????本技術(shù)報(bào)告重點(diǎn)關(guān)注(1)我們將所有類型的視覺數(shù)據(jù)轉(zhuǎn)化為統(tǒng)一表示的方法,從而能夠大規(guī)模訓(xùn)練生成模型,以及(2)對 Sora 的能力和局限性進(jìn)行定性評估。本報(bào)告不包含模型和實(shí)施細(xì)節(jié)。

?????許多先前的工作已經(jīng)研究了使用各種方法對視頻數(shù)據(jù)進(jìn)行生成建模,包括循環(huán)網(wǎng)絡(luò)[1 ,2 ,3]、生成對抗網(wǎng)絡(luò)[4 ,5 ,6 ,7],自回歸變壓器[8 ,9],和擴(kuò)散模型[10 ,11,12]。這些作品通常關(guān)注一小類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。Sora是視覺數(shù)據(jù)的通用模型,它可以生成不同時(shí)長、長寬比和分辨率的視頻和圖像,最多可達(dá)一分鐘的高清視頻。

1. 將視覺數(shù)據(jù)轉(zhuǎn)化為Patches

?????我們從大型語言模型中獲得靈感,這些模型通過互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)的訓(xùn)練來獲得通用能力。LLM范式[13、14]的成功部分歸功于tokens的使用, 這些tokens優(yōu)雅地統(tǒng)一了文本代碼、數(shù)學(xué)和各種自然語言的不同模式。在這項(xiàng)工作中,我們考慮視覺數(shù)據(jù)的生成模型如何繼承這些好處。LLM 有文本標(biāo)記,而 Sora 有視覺Patches。此前,Patches已被證明是視覺數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn)Patches是一種高度可擴(kuò)展且有效的表示形式[15 ,16 ,17、18],可用于在不同類型的視頻和圖像上訓(xùn)練生成模型。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖
?????在較高的層次上,我們首先將視頻壓縮到較低維的隱空間[19],然后將表示分解為時(shí)空Patches,將視頻轉(zhuǎn)換為Patches

2. 視頻壓縮網(wǎng)絡(luò)

?????我們訓(xùn)練一個(gè)降低視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。該網(wǎng)絡(luò)[20]將原始視頻作為輸入并輸出在時(shí)間和空間上壓縮的潛在表示。Sora 在這個(gè)壓縮的潛在空間中接受訓(xùn)練并隨后生成視頻。我們還訓(xùn)練了相應(yīng)的解碼器模型,將生成的潛伏映射回像素空間。

3. 隱空間時(shí)空Patches

?????給定一個(gè)壓縮的輸入視頻,我們提取一系列時(shí)空補(bǔ)丁,充當(dāng)變壓器令牌。該方案也適用于圖像,因?yàn)閳D像只是具有單幀的視頻。我們基于補(bǔ)丁的表示使 Sora 能夠?qū)Σ煌直媛?、持續(xù)時(shí)間和長寬比的視頻和圖像進(jìn)行訓(xùn)練。在推理時(shí),我們可以通過在適當(dāng)大小的網(wǎng)格中排列隨機(jī)初始化的補(bǔ)丁來控制生成視頻的大小。

4. 用于視頻生成的Transformers拓展

?????Sora是一個(gè)擴(kuò)散模型[21、22、23、24、25]; 給定輸入噪聲補(bǔ)?。ㄒ约拔谋咎崾镜日{(diào)節(jié)信息),它被訓(xùn)練來預(yù)測原始的“干凈”補(bǔ)丁。重要的是,Sora 是一個(gè)擴(kuò)散變壓器。Transformer [26]在各個(gè)領(lǐng)域都表現(xiàn)出了卓越的擴(kuò)展特性,包括語言建模[15 ,16 ,17、18]、計(jì)算機(jī)視覺[15 ,16 ,17、18],和圖像生成[27、28 ,29]。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖
?????在這項(xiàng)工作中,我們發(fā)現(xiàn)擴(kuò)散變壓器也可以有效地縮放為視頻模型。下面,我們展示了訓(xùn)練過程中具有固定種子和輸入的視頻樣本的比較。隨著訓(xùn)練計(jì)算的增加,樣本質(zhì)量顯著提高。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

5.可變的持續(xù)時(shí)間、分辨率、寬高比

?????過去的圖像和視頻生成方法通常會(huì)將視頻調(diào)整大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸,例如,分辨率為 256x256 的 4 秒視頻。我們發(fā)現(xiàn),對原始大小的數(shù)據(jù)進(jìn)行訓(xùn)練有幾個(gè)好處。

采樣靈活性

?????Sora 可以采樣寬屏1920x1080視頻、垂直1080x1920 頻以及介于兩者之間的所有視頻。這使得 Sora 可以直接以其原生寬高比為不同設(shè)備創(chuàng)建內(nèi)容。它還使我們能夠在以全分辨率生成之前快速以較低尺寸制作原型內(nèi)容 - 所有這些都使用相同的模型。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

改進(jìn)的框架和構(gòu)圖

?????我們根據(jù)經(jīng)驗(yàn)發(fā)現(xiàn),以原始長寬比對視頻進(jìn)行訓(xùn)練可以改善構(gòu)圖和取景。我們將 Sora 與將所有訓(xùn)練視頻裁剪為正方形的模型版本進(jìn)行比較,這是訓(xùn)練生成模型時(shí)的常見做法。在方形作物(左)上訓(xùn)練的模型有時(shí)會(huì)生成僅部分可見主體的視頻。相比之下,Sora(右)的視頻的取景效果有所改善。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

語言理解

?????訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻。我們應(yīng)用了 DALL·E 3 中引入的重新字幕技術(shù)30到視頻。我們首先訓(xùn)練一個(gè)高度描述性的字幕生成器模型,然后使用它為訓(xùn)練集中的所有視頻生成文本字幕。我們發(fā)現(xiàn),對高度描述性視頻字幕進(jìn)行訓(xùn)練可以提高文本保真度以及視頻的整體質(zhì)量。

?????與 DALL·E 3 類似,我們還利用 GPT 將簡短的用戶提示轉(zhuǎn)換為較長的詳細(xì)字幕,然后發(fā)送到視頻模型。這使得 Sora 能夠生成準(zhǔn)確遵循用戶提示的高質(zhì)量視頻。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

6. 通過圖像和視頻進(jìn)行提示

?????上面和我們的著陸頁中的所有結(jié)果都顯示文本到視頻的示例。但 Sora 也可以通過其他輸入進(jìn)行提示,例如預(yù)先存在的圖像或視頻。此功能使 Sora 能夠執(zhí)行各種圖像和視頻編輯任務(wù) - 創(chuàng)建完美的循環(huán)視頻、動(dòng)畫靜態(tài)圖像、及時(shí)向前或向后擴(kuò)展視頻等。

DALL·E 圖像動(dòng)畫

?????Sora 能夠生成提供圖像和提示作為輸入的視頻。下面我們展示基于DALL·E 2生成的示例視頻231和達(dá)爾·E 330圖片。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

擴(kuò)展生成的視頻

?????Sora 還能夠在時(shí)間上向前或向后擴(kuò)展視頻。下面是四個(gè)視頻,它們都是從生成的視頻片段開始向后延伸的。因此,這四個(gè)視頻的開頭都不同,但所有四個(gè)視頻的結(jié)局都是相同的。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

?????我們可以使用此方法向前和向后擴(kuò)展視頻以產(chǎn)生無縫的無限循環(huán)。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

視頻到視頻編輯

?????擴(kuò)散模型啟用了多種根據(jù)文本提示編輯圖像和視頻的方法。下面我們應(yīng)用其中一種方法,SDEdit,32到索拉。這項(xiàng)技術(shù)使 Sora 能夠零鏡頭地改變輸入視頻的風(fēng)格和環(huán)境。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

連接視頻

?????我們還可以使用 Sora 在兩個(gè)輸入視頻之間逐漸進(jìn)行插值,從而在具有完全不同主題和場景構(gòu)成的視頻之間創(chuàng)建無縫過渡。在下面的示例中,中心的視頻插值在左側(cè)和右側(cè)的相應(yīng)視頻之間。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

7. 圖像生成能力

?????Sora 還能夠生成圖像。我們通過在時(shí)間范圍為一幀的空間網(wǎng)格中排列高斯噪聲塊來實(shí)現(xiàn)這一點(diǎn)。該模型可以生成各種尺寸的圖像,分辨率高達(dá) 2048x2048。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

新興的模擬功能

?????我們發(fā)現(xiàn),視頻模型在大規(guī)模訓(xùn)練時(shí)表現(xiàn)出許多有趣的新興功能。這些功能使 Sora 能夠模擬現(xiàn)實(shí)世界中人、動(dòng)物和環(huán)境的某些方面。這些屬性的出現(xiàn)對 3D、物體等沒有任何明確的歸納偏差——它們純粹是尺度現(xiàn)象。

3D 一致性

?????Sora 可以生成帶有動(dòng)態(tài)攝像機(jī)運(yùn)動(dòng)的視頻。隨著攝像機(jī)的移動(dòng)和旋轉(zhuǎn),人和場景元素在三維空間中一致移動(dòng)。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

遠(yuǎn)程相干性和物體持久性

?????視頻生成系統(tǒng)面臨的一個(gè)重大挑戰(zhàn)是在采樣長視頻時(shí)保持時(shí)間一致性。我們發(fā)現(xiàn) Sora 通常(盡管并非總是)能夠有效地對短期和長期依賴關(guān)系進(jìn)行建模。例如,我們的模型可以保留人、動(dòng)物和物體,即使它們被遮擋或離開框架。同樣,它可以在單個(gè)樣本中生成同一角色的多個(gè)鏡頭,并在整個(gè)視頻中保持其外觀。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

與世界互動(dòng)

?????索拉有時(shí)可以用簡單的方式模擬影響世界狀況的動(dòng)作。例如,畫家可以在畫布上留下新的筆觸,并隨著時(shí)間的推移而持續(xù)存在,或者一個(gè)人可以吃漢堡并留下咬痕。
OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

模擬數(shù)字世界

?????Sora 還能夠模擬人工過程——一個(gè)例子是視頻游戲。Sora 可以同時(shí)通過基本策略控制《我的世界》中的玩家,同時(shí)以高保真度渲染世界及其動(dòng)態(tài)。這些能力可以通過用提及“我的世界”的標(biāo)題提示 Sora 來零射擊。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

?????這些功能表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的高性能模擬器的一條有前途的道路。

8. 討論

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖
?????Sora 目前作為模擬器表現(xiàn)出許多局限性。例如,它不能準(zhǔn)確地模擬許多基本相互作用的物理過程,例如玻璃破碎。其他交互(例如吃食物)并不總是會(huì)產(chǎn)生對象狀態(tài)的正確變化。我們在登陸頁面中列舉了模型的其他常見故障模式,例如長時(shí)間樣本中出現(xiàn)的不連貫性或?qū)ο蟮淖园l(fā)出現(xiàn)。

OpenAI全新發(fā)布文生視頻模型:Sora!,# AIGC,Sora,OpenAI,AIGC,文生圖

?????我們相信,Sora 今天所擁有的能力表明,視頻模型的持續(xù)擴(kuò)展是開發(fā)物理和數(shù)字世界以及生活在其中的物體、動(dòng)物和人的強(qiáng)大模擬器的一條有前途的道路。

參考文獻(xiàn)

[1]Srivastava, Nitish, Elman Mansimov, and Ruslan Salakhudinov. “Unsupervised learning of video representations using lstms.” International conference on machine learning. PMLR, 2015.??
[2] Chiappa, Silvia, et al. “Recurrent environment simulators.” arXiv preprint arXiv:1704.02254 (2017).??
[3] Ha, David, and Jürgen Schmidhuber. “World models.” arXiv preprint arXiv:1803.10122 (2018).??
[4] Vondrick, Carl, Hamed Pirsiavash, and Antonio Torralba. “Generating videos with scene dynamics.” Advances in neural information processing systems 29 (2016).??
[5] Tulyakov, Sergey, et al. “Mocogan: Decomposing motion and content for video generation.” Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.??
[6] Clark, Aidan, Jeff Donahue, and Karen Simonyan. “Adversarial video generation on complex datasets.” arXiv preprint arXiv:1907.06571 (2019).??
[7] Brooks, Tim, et al. “Generating long videos of dynamic scenes.” Advances in Neural Information Processing Systems 35 (2022): 31769-31781.??
[8] Yan, Wilson, et al. “Videogpt: Video generation using vq-vae and transformers.” arXiv preprint arXiv:2104.10157 (2021).??
[9] Wu, Chenfei, et al. “Nüwa: Visual synthesis pre-training for neural visual world creation.” European conference on computer vision. Cham: Springer Nature Switzerland, 2022.??
[10] Ho, Jonathan, et al. “Imagen video: High definition video generation with diffusion models.” arXiv preprint arXiv:2210.02303 (2022).??
[11] Blattmann, Andreas, et al. “Align your latents: High-resolution video synthesis with latent diffusion models.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.??
[12] Gupta, Agrim, et al. “Photorealistic video generation with diffusion models.” arXiv preprint arXiv:2312.06662 (2023).??
[13] Vaswani, Ashish, et al. “Attention is all you need.” Advances in neural information processing systems 30 (2017).????
[14] Brown, Tom, et al. “Language models are few-shot learners.” Advances in neural information processing systems 33 (2020): 1877-1901.????
[15] Dosovitskiy, Alexey, et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).????
[16] Arnab, Anurag, et al. “Vivit: A video vision transformer.” Proceedings of the IEEE/CVF international conference on computer vision. 2021.????
[17] He, Kaiming, et al. “Masked autoencoders are scalable vision learners.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.????
[18] Dehghani, Mostafa, et al. “Patch n’Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution.” arXiv preprint arXiv:2307.06304 (2023).????
[19] Rombach, Robin, et al. “High-resolution image synthesis with latent diffusion models.” Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.??
[20] Kingma, Diederik P., and Max Welling. “Auto-encoding variational bayes.” arXiv preprint arXiv:1312.6114 (2013).??
[21] Sohl-Dickstein, Jascha, et al. “Deep unsupervised learning using nonequilibrium thermodynamics.” International conference on machine learning. PMLR, 2015.??
[22] Ho, Jonathan, Ajay Jain, and Pieter Abbeel. “Denoising diffusion probabilistic models.” Advances in neural information processing systems 33 (2020): 6840-6851.??
[23] Nichol, Alexander Quinn, and Prafulla Dhariwal. “Improved denoising diffusion probabilistic models.” International Conference on Machine Learning. PMLR, 2021.??
[24] Dhariwal, Prafulla, and Alexander Quinn Nichol. “Diffusion Models Beat GANs on Image Synthesis.” Advances in Neural Information Processing Systems. 2021.??
[25] Karras, Tero, et al. “Elucidating the design space of diffusion-based generative models.” Advances in Neural Information Processing Systems 35 (2022): 26565-26577.??
[26] Peebles, William, and Saining Xie. “Scalable diffusion models with transformers.” Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.??
[27] Chen, Mark, et al. “Generative pretraining from pixels.” International conference on machine learning. PMLR, 2020.??
[28] Ramesh, Aditya, et al. “Zero-shot text-to-image generation.” International Conference on Machine Learning. PMLR, 2021.??
[29] Yu, Jiahui, et al. “Scaling autoregressive models for content-rich text-to-image generation.” arXiv preprint arXiv:2206.10789 2.3 (2022): 5.??
[30] Betker, James, et al. “Improving image generation with better captions.” Computer Science. https://cdn.openai.com/papers/dall-e-3. pdf 2.3 (2023): 8????
[31] Ramesh, Aditya, et al. “Hierarchical text-conditional image generation with clip latents.” arXiv preprint arXiv:2204.06125 1.2 (2022): 3.??
[32] Meng, Chenlin, et al. “Sdedit: Guided image synthesis and editing with stochastic differential equations.” arXiv preprint arXiv:2108.01073 (2021).??文章來源地址http://www.zghlxwxcb.cn/news/detail-827900.html

到了這里,關(guān)于OpenAI全新發(fā)布文生視頻模型:Sora!的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 深入淺出熟悉OpenAI最新大作Sora文生視頻大模型

    深入淺出熟悉OpenAI最新大作Sora文生視頻大模型

    蠢蠢欲動(dòng),惴惴不安,朋友們我又來了,這個(gè)春節(jié)真的過的是像過山車,Gemini1.5 PRO還沒過勁,OpenAI又放大招,人類真的要認(rèn)輸了嗎,讓我忍不住想要再探究竟,到底是什么讓文生視頻發(fā)生了質(zhì)的躍遷,再次不僅止不住唏噓,那些老板們辛辛苦苦創(chuàng)起來的業(yè),恐怕又被降維打擊

    2024年02月21日
    瀏覽(26)
  • 精煉爆炸性新聞!OpenAI發(fā)布革命性AI視頻生成模型Sora:實(shí)現(xiàn)長達(dá)60秒的高清視頻創(chuàng)作「附AIGC行業(yè)系統(tǒng)搭建」

    精煉爆炸性新聞!OpenAI發(fā)布革命性AI視頻生成模型Sora:實(shí)現(xiàn)長達(dá)60秒的高清視頻創(chuàng)作「附AIGC行業(yè)系統(tǒng)搭建」

    在人工智能領(lǐng)域,每一次技術(shù)革新都引領(lǐng)著未來的發(fā)展方向。OpenAI,作為全球領(lǐng)先的人工智能研究機(jī)構(gòu),再次證明了其在推動(dòng)AI技術(shù)革新方面的領(lǐng)導(dǎo)地位。近日,OpenAI宣布推出了一款革命性的AI視頻生成模型——Sora,這一大膽的創(chuàng)新舉措,無疑將AI視頻生成技術(shù)推向了一個(gè)新的

    2024年02月20日
    瀏覽(41)
  • AIGC專欄10——EasyAnimate 一個(gè)新的類SORA文生視頻模型 輕松文生視頻

    AIGC專欄10——EasyAnimate 一個(gè)新的類SORA文生視頻模型 輕松文生視頻

    在過年期間,OpenAI放出了SORA文生視頻的預(yù)覽效果,一瞬間各大媒體爭相報(bào)道,又引爆了一次科技圈,可惜的是,SORA依然沒選擇開源。 在這個(gè)契機(jī)下,本來我也對文生視頻的工作非常感興趣,所以也研究了一些與SORA相關(guān)的技術(shù),雖然我們沒有像OpenAI那么大的算力,但做一些基

    2024年04月17日
    瀏覽(38)
  • OpenAI-Sora:60s超長長度、超強(qiáng)語義理解、世界模型。淺析文生視頻模型Sora以及技術(shù)原理簡介

    OpenAI-Sora:60s超長長度、超強(qiáng)語義理解、世界模型。淺析文生視頻模型Sora以及技術(shù)原理簡介

    Sora官方鏈接:https://openai.com/sora ??視頻模型領(lǐng)頭羊Runway Gen 2、Pika等AI視頻工具,都還在突破幾秒內(nèi)的連貫性,而OpenAI,已經(jīng)達(dá)到了史詩級的紀(jì)錄。 OpenAI,永遠(yuǎn)快別人一步?。。?! 像ChatGPT成功搶了Claude的頭條一樣,這一次,谷歌核彈級大殺器Gemini 1.5才推出沒幾個(gè)小時(shí),全世

    2024年03月15日
    瀏覽(26)
  • OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    OpenAI發(fā)布Sora模型,可根據(jù)文字生成逼真AI視頻

    早在2022年11月30日,OpenAI第一次發(fā)布人工智能聊天機(jī)器人ChatGPT,隨后在全世界掀起了人工智能狂潮,顛覆了一個(gè)又一個(gè)行業(yè)。在過去的一年多的時(shí)間里,chatGPT的強(qiáng)大功能改變了越來越多人的工作和生活方式,成為了世界上用戶增長最快的應(yīng)用程序。 昨天,OpenAI發(fā)布了一款新

    2024年02月19日
    瀏覽(32)
  • 【AIGC】OpenAI推出王炸級模型sora,顛覆AI視頻行業(yè)

    【AIGC】OpenAI推出王炸級模型sora,顛覆AI視頻行業(yè)

    強(qiáng)烈推薦 前些天發(fā)現(xiàn)了一個(gè)巨牛的人工智能學(xué)習(xí)網(wǎng)站,通俗易懂,風(fēng)趣幽默,忍不住分享一下給大家。點(diǎn)擊跳轉(zhuǎn)到網(wǎng)站: 人工智能 前言 2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。 據(jù)了解,通過文本指令,Sora可以直接輸出長達(dá)60秒的視頻,并且包含高度細(xì)致的

    2024年02月21日
    瀏覽(33)
  • [ai筆記8] 聊聊openAI最新文生視頻產(chǎn)品-Sora

    [ai筆記8] 聊聊openAI最新文生視頻產(chǎn)品-Sora

    歡迎來到文思源想的ai空間,這是技術(shù)老兵重學(xué)ai以及成長思考的第8篇分享! 近期sora在科技屆引發(fā)不小的轟動(dòng),雖然這是openai并未對外發(fā)布的相關(guān)產(chǎn)品,目前如同小米汽車的技術(shù)發(fā)布會(huì),但是確實(shí)引發(fā)了不小的震撼,因此特地到官方網(wǎng)站閱讀了它的所有介紹,包括技術(shù)資料,

    2024年02月20日
    瀏覽(21)
  • OpenAI 最新發(fā)布的從文本生成視頻模型 Sora 炸裂登場,它能根據(jù)文字指令創(chuàng)造逼真且富有想象力的場景

    OpenAI 最新發(fā)布的從文本生成視頻模型 Sora 炸裂登場,它能根據(jù)文字指令創(chuàng)造逼真且富有想象力的場景

    ?? CSDN 葉庭云 : https://yetingyun.blog.csdn.net/ 此頁面上的所有視頻均由 Sora 直接生成,未經(jīng)修改。 OpenAI - Sora is an AI model that can create realistic and imaginative scenes from text instructions. 2024 年 2 月 16 日,OpenAI 發(fā)布 AI 視頻模型 Sora,60 秒的一鏡到底,驚艷的效果生成。AI 視頻生成可能要

    2024年02月19日
    瀏覽(19)
  • 文生視頻大模型Sora的復(fù)現(xiàn)經(jīng)驗(yàn)

    文生視頻大模型Sora的復(fù)現(xiàn)經(jīng)驗(yàn)

    ??大家好,我是herosunly。985院校碩士畢業(yè),現(xiàn)擔(dān)任算法研究員一職,熱衷于機(jī)器學(xué)習(xí)算法研究與應(yīng)用。曾獲得阿里云天池比賽第一名,CCF比賽第二名,科大訊飛比賽第三名。擁有多項(xiàng)發(fā)明專利。對機(jī)器學(xué)習(xí)和深度學(xué)習(xí)擁有自己獨(dú)到的見解。曾經(jīng)輔導(dǎo)過若干個(gè)非計(jì)算機(jī)專業(yè)的

    2024年04月22日
    瀏覽(26)
  • OpenAI Sora引領(lǐng)AI跳舞視頻新浪潮:字節(jié)跳動(dòng)發(fā)布創(chuàng)新舞蹈視頻生成框架

    OpenAI Sora引領(lǐng)AI跳舞視頻新浪潮:字節(jié)跳動(dòng)發(fā)布創(chuàng)新舞蹈視頻生成框架

    OpenAI的Sora已經(jīng)引起廣泛關(guān)注,預(yù)計(jì)今年AI跳舞視頻將在抖音平臺上大放異彩。下面將為您詳細(xì)介紹一款字節(jié)跳動(dòng)發(fā)布的AI視頻動(dòng)畫框架。 技術(shù)定位 :這款框架采用先進(jìn)的diffusion技術(shù),專注于生成人類舞蹈視頻。它不僅能夠?qū)崿F(xiàn)人體動(dòng)作和表情的遷移,還能保持身份信息的準(zhǔn)確

    2024年02月22日
    瀏覽(31)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包