社區(qū)分享了不少文本生成圖像的AIGC(AI生成內(nèi)容)應用的突破,圖像類的生成已經(jīng)是“紅?!绷?。
我們需要尋找“藍?!保诔霈F(xiàn)了其他內(nèi)容的突破嗎?
Mixlab
小杜
社區(qū)五月份介紹了?Pollinations.ai?,平臺集成了文本、圖像、音頻、視頻等多種模態(tài)的模型,近期平臺功能也進行了迭代升級,但在模型內(nèi)容質(zhì)量上還是參差不齊。
最近熱度最高的開源模型是? Stable Diffusion,其極為優(yōu)秀的開源生態(tài)也催生了許多模型的整合創(chuàng)新。Stable Diffusion?+ Mubert 就實現(xiàn)了高質(zhì)量的圖像到音樂的生成。尤其是圖片轉(zhuǎn)音樂,不是那種抽象電子風,而是真正具備了應用級配樂的水準?。ㄕ埧聪挛模?br>
speech-to-image
img-to-music?
小杜
speech-to-image?demo 使用預先訓練的 OpenAI whisper-small 與 Stable Diffusion 從音頻樣本生成圖像。img-to-music?則是發(fā)送圖像到剪輯詢問器?CLIP Interrogator?生成文本提示,然后通過 Mubert 識別文本輸出音樂,實現(xiàn)輸入圖像到生成音樂的過程。
帶我們看看測試效果?
Mixlab
小杜
speech-to-image?,我測試了三類聲音到圖像的生成
#?人聲哼唱(小編的瞎哼)
#?流行音樂?(Golden Hour 前奏+一丟丟人聲)
#?環(huán)境自然音(小編嘈雜的居住環(huán)境)
#01?人聲哼唱
#02?流行音樂
#03?環(huán)境音
......
小杜
出乎意料的驚喜!對于我們?nèi)祟?,與為文字配插畫相比,為音樂配
圖似乎是件更為困難的事。音樂的抽象特征與AI生成的特質(zhì)意外的契合。
AI給第一個哼唱生成了一幅略顯俏皮的圣誕老人形象,似乎有點在嘲諷我哼唱得五音不全hh。第二個流行歌曲,AI應該是識別出了歌曲的關鍵詞 “Love” ,雖說沒太拼對,但有種為愛情沖昏了頭腦的感覺。第三個環(huán)境音嘈雜而沒有感情色彩,AI也生成了一幅比較契合的黑白色調(diào)的拼貼畫。
反過來,圖像生成音樂是啥效果?
Mixlab
小杜
那可更驚喜了!我找的音頻素材可沒AI生成的驚艷~同樣也測試了三類圖片生成的音樂-#?音頻生成的圖像
#?Stable?Diffusion?文本生成的圖像
# 藝術畫作
#01?音頻生成的圖像
#02?文本生成的圖像
#03?名畫千里江山圖局部
......
小杜
真是一個比一個驚喜!第一張圖是測試 Golden Hour 音頻轉(zhuǎn)圖像生成的圖,反過來生成了有點迷幻電子風的音樂。第二張是用SD生成的概念汽車場景,AI較為精準地 “理解了” 畫面內(nèi)容,生成了科幻槍戰(zhàn)的配樂。第三個則是震驚到我了,AI盡然為我挑選的千里江山圖生成了有樂章結構的中國風音樂!
Stable Diffusion 的開源生態(tài)已經(jīng)不局限于圖像了。在文本-音樂生成模型 Mubert 實現(xiàn)圖像-音樂的工作流中,文本是在哪一步生成的呢?
Mixlab
小杜
img-to-music?使用了 CLIP Interrogator 來生成圖像的文字,再通過 Mubert 實現(xiàn)文本轉(zhuǎn)音樂。
圖像轉(zhuǎn)文本模型demo
文本轉(zhuǎn)音頻demo
小杜
img-to-music?作者 @fffiloni?也展示了他產(chǎn)出的一些輸出探索,非常奇妙~
圖像轉(zhuǎn)音頻 demo
小杜
以?img-to-music 為線索,我找出了 Stable Diffusion?較完善的擴展應用模型集成,大家感興趣也可以自主嘗試基于SD模型的應用擴展創(chuàng)新哦~
speech-to-image demo:huggingface.co/spaces/fffiloni/speech-to-image
Image to Music demo:huggingface.co/spaces/fffiloni/img-to-music
CLIP Interrogator:huggingface.co/spaces/pharma/CLIP-InterrogatorMubert demo:
huggingface.co/spaces/Mubert/Text-to-Music
Mubert 項目地址:github.com/MubertAI/Mubert-Text-to-Music
SD 擴展模型應用集成:
github.com/huggingface/diffusers/tree/main/examples/community#speech-to-image
小杜
更多有關AIGC最新突破的知識信息,歡迎查閱社群知識庫哦~
【雙11優(yōu)惠】元宇宙知識庫只需139元
下一期我們再卷卷視頻?來點動態(tài)內(nèi)容,AIGC 啥都玩一遍hhh
Mixlab
opus
歡迎留言討論,參與?AIGC??話題的共創(chuàng)共建~
添加請備注AIGC?& 元宇宙文章來源:http://www.zghlxwxcb.cn/news/detail-521233.html
??文章來源地址http://www.zghlxwxcb.cn/news/detail-521233.html
到了這里,關于實測AIGC工作流,Stable Diffusion + Mubert 實現(xiàn)圖片與音樂的轉(zhuǎn)換生成的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!