現(xiàn)在熱門的不僅是多模態(tài)的文本圖像生成,前陣子,OpenAI 發(fā)布了一個自動語音識別系統(tǒng) Whispe 。在處理口音、背景噪聲以及技術(shù)術(shù)語方面,Whisper 幾乎達(dá)到了人類的水準(zhǔn)。
那么將 Whisper 與 Stable Diffusion 結(jié)合,可以直接完成語音生成圖像的任務(wù)。用戶可以語音輸入一個短句,Whisper 會自動將語音轉(zhuǎn)化為文本,接著,Stable Diffusion 會根據(jù)文本生成圖像。
步驟?
第一步:錄制音頻或上傳音頻文件
圖片來源:huggingface
第二步:檢查語言輸出,必要時進(jìn)行更正
圖片來源:huggingface
第三步:等待1~10秒,直到有穩(wěn)定的擴(kuò)散結(jié)果
圖片來源:huggingface
簡單概況一下,Whisper 是一個通用的語音識別模型,它是在各種音頻的大型數(shù)據(jù)集上進(jìn)行訓(xùn)練的,也是一個多任務(wù)模型,可以執(zhí)行多語言語音識別以及語音翻譯和語言識別。
Stable Diffusion 是一個通過文本生成圖像的模型。
將它們們結(jié)合起來,你就可以通過語音來直接生成圖像。
不如現(xiàn)在就試試看:
https://huggingface.co/spaces/fffiloni/whisper-to-stable-diffusion
文章來源:http://www.zghlxwxcb.cn/news/detail-603598.html
社群,請?zhí)砑涌头?span toymoban-style="hidden">文章來源地址http://www.zghlxwxcb.cn/news/detail-603598.html
到了這里,關(guān)于唱歌就能畫一幅圖像? #whisper-to-stable-diffusion的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!