国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3

這篇具有很好參考價(jià)值的文章主要介紹了OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

在11月7日OpenAI的首屆開(kāi)發(fā)者大會(huì)上,除了推出一系列重磅產(chǎn)品之外,還開(kāi)源了兩款產(chǎn)品,全新解碼器Consistency Decoder(一致性解碼器)和最新語(yǔ)音識(shí)別模型Whisper v3。

據(jù)悉,Consistency Decoder可以替代Stable Diffusion VAE解碼器。該解碼器可以改善所有與Stable Diffusion 1.0+ VAE兼容的圖像,尤其是在文本、面部和直線(xiàn)方面有大幅度提升。僅上線(xiàn)一天的時(shí)間,在Github就收到1100顆星。

Whisper large-v3是OpenAI之前開(kāi)源的whisper模型的最新版本,在各種語(yǔ)言上的性能都有顯著提升。OpenAI會(huì)在未來(lái)的API計(jì)劃中提供Whisper v3。

解碼器地址:https://github.com/openai/consistencydecoder

Whisper v3地址:https://github.com/openai/whisper

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

Consistency Decoder效果展示

Consistency Decoder算是OpenAI“一致性”家族里的新成員,所以,「AIGC開(kāi)放社區(qū)」想為大家介紹一下OpenAI之前開(kāi)源的另一個(gè)創(chuàng)新模型——Consistency Models。

擴(kuò)散模型的出現(xiàn)極大推動(dòng)了文生圖片、視頻、音頻等領(lǐng)域的發(fā)展,涌現(xiàn)了GAN、VAE等知名模型。但是這些模型在推理的過(guò)程中,過(guò)于依賴(lài)迭代采樣過(guò)程,導(dǎo)致生成效率非常緩慢或生成圖片質(zhì)量太差。

OpenAI為了突破這個(gè)技術(shù)瓶頸,提出了Consistency Models(一致性模型)框架并將其開(kāi)源。該技術(shù)的最大優(yōu)勢(shì)是支持單步高質(zhì)量生成,同時(shí)保留迭代生成的優(yōu)點(diǎn)。簡(jiǎn)單來(lái)說(shuō),可以使文生圖模型在推理的過(guò)程中又快又準(zhǔn)攻守兼?zhèn)洹?/p>

此外,Consistency Models可以通過(guò)提取預(yù)先訓(xùn)練的擴(kuò)散模型來(lái)使用,也可以作為獨(dú)立的生成模型來(lái)訓(xùn)練,兼容性強(qiáng)且靈活。

開(kāi)源地址:https://github.com/openai/consistency_models

論文:https://arxiv.org/abs/2303.01469

為了讓大家更好的理解Consistency Models技術(shù)特點(diǎn),「AIGC開(kāi)放社區(qū)」先簡(jiǎn)單的介紹一下擴(kuò)散模型的原理。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

什么是擴(kuò)散模型

擴(kuò)散模型主要通過(guò)模擬擴(kuò)散過(guò)程來(lái)生成數(shù)據(jù),核心技術(shù)是將數(shù)據(jù)看作是由一個(gè)簡(jiǎn)單的隨機(jī)過(guò)程(例如,高斯白噪聲)經(jīng)過(guò)一系列平滑變換得到的結(jié)果。

擴(kuò)散模型主要由正向過(guò)程和反向過(guò)程兩大塊組成。正向過(guò)程(擴(kuò)散過(guò)程):首先將原始數(shù)據(jù)通過(guò)添加噪聲逐漸擴(kuò)散,直到變成無(wú)法識(shí)別的噪聲。

具體來(lái)說(shuō),每一步都會(huì)添加一點(diǎn)噪聲,噪聲的強(qiáng)度通常會(huì)隨著步驟的進(jìn)行而增大。這個(gè)過(guò)程可以用一個(gè)隨機(jī)微分方程來(lái)描述。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

反向過(guò)程(去噪聲過(guò)程):然后使用一個(gè)學(xué)習(xí)到的模型從噪聲數(shù)據(jù)中重建原始數(shù)據(jù)。

這個(gè)過(guò)程通常通過(guò)優(yōu)化一個(gè)目標(biāo)函數(shù)來(lái)進(jìn)行,目標(biāo)是讓重建的數(shù)據(jù)與原始數(shù)據(jù)盡可能相似。

Consistency Models簡(jiǎn)單介紹

Consistency Models受擴(kuò)散模型技術(shù)思路啟發(fā),直接將噪聲映射到數(shù)據(jù)分布,無(wú)需迭代過(guò)程直接生成高質(zhì)量圖像。實(shí)驗(yàn)證明,如果模型輸出在同一軌跡上的點(diǎn)保持一致,可以有效學(xué)習(xí)此映射。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

簡(jiǎn)單來(lái)說(shuō),Consistency Models直接放棄了逐步去噪過(guò)程,而是直接學(xué)習(xí)把隨機(jī)的噪聲映射到復(fù)雜的圖像上,同時(shí)加上了一致性的規(guī)則約束,避免生成的圖像出現(xiàn)“驢唇不對(duì)馬嘴”的情況。

說(shuō)的更直白一點(diǎn),我們?nèi)绻鲆坏缆槠哦垢?,需要先切豆腐、配菜,然后放在馬勺里進(jìn)行大火翻炒,再放上調(diào)料最后出鍋。

而Consistency Models的方法是直接就變出一盤(pán)麻婆豆腐,省去了所有制作流程,并且口味、菜品都是按照用戶(hù)標(biāo)準(zhǔn)來(lái)的,這就是該技術(shù)的神奇之處。

基于上述技術(shù)概念,OpenAI的研究人員使用了知識(shí)蒸餾和直接訓(xùn)練兩種方法來(lái)訓(xùn)練Consistency Models。

知識(shí)蒸餾:使用一個(gè)預(yù)先訓(xùn)練好的擴(kuò)散模型(如Diffusion),生成一些數(shù)據(jù)對(duì),然后訓(xùn)練Consistency Models時(shí)讓這些數(shù)據(jù)對(duì)的輸出盡可能接近,來(lái)跟擴(kuò)散模型進(jìn)行知識(shí)蒸餾。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

直接訓(xùn)練法:直接從訓(xùn)練集樣本中學(xué)習(xí)數(shù)據(jù)到噪聲的映射,不需要依賴(lài)預(yù)訓(xùn)練模型。主要是加入噪聲進(jìn)行數(shù)據(jù)增強(qiáng),然后優(yōu)化增強(qiáng)前后的輸出一致性。

實(shí)驗(yàn)數(shù)據(jù)

研究人員在多個(gè)圖像數(shù)據(jù)集上測(cè)試了Consistency Models,包括CIFAR-10、ImageNet 64x64和LSUN 256x256。

結(jié)果表明,知識(shí)蒸餾訓(xùn)練的Consistency Models效果最好,在所有數(shù)據(jù)集和步數(shù)下均優(yōu)于現(xiàn)有最好的蒸餾技術(shù)Progressive Distillation。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

例如,在CIFAR-10上,單步生成達(dá)到新記錄的FID 3.55,兩步生成達(dá)到2.93;在ImageNet 64x64上,單步生成FID為6.20,兩步生成為4.70,均刷新記錄。

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能

直接訓(xùn)練方式下,Consistency Models也顯示出強(qiáng)大的能力,在CIFAR-10上打敗了大多數(shù)單步生成模型,質(zhì)量接近Progressive Distillation。

此外,該模型支持進(jìn)行零樣本圖像編輯,可實(shí)現(xiàn)圖像去噪、插值、上色、超分辨率生成、筆觸生成等多種任務(wù),而無(wú)需專(zhuān)門(mén)訓(xùn)練。

如有對(duì)AI圖像感興趣的同學(xué),推薦這款可以免費(fèi)使用的智元兔AI設(shè)計(jì)師

OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3,chatgpt,人工智能文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-752902.html

到了這里,關(guān)于OpenAI開(kāi)源全新解碼器和語(yǔ)音識(shí)別模型Whisper-v3的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包