前言
好久沒(méi)有寫csdn博客了,突然不知道寫點(diǎn)什么,最近AIGC真的很火,有一種三天不看就跟不上發(fā)展趨勢(shì)的感覺(jué),讓人又激動(dòng)又有點(diǎn)慌??。這里我簡(jiǎn)單整理一下最近看到的AIGC的一些內(nèi)容,后續(xù)如果有需要我詳細(xì)描述一下如何使用。
AIGC類型
AIGC現(xiàn)在發(fā)展可以說(shuō)是‘坐地日行八萬(wàn)里’了,總的來(lái)說(shuō)我將目前技術(shù)較為成熟的AIGC工具大概分為三種類型,圖像生成類,文本生成類,語(yǔ)音生成類,這三類目前均有不同程度的應(yīng)用:
- 圖像生成類 : Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
- 文本生成類:Chat GPT,auto-GPT,GPT-4等;
- 語(yǔ)音生成類:So-vits-svc 4.0;
下面就每一類工具,我大概描述一下他們的功能及優(yōu)勢(shì)劣勢(shì)的比較,如有大家有興趣我會(huì)詳細(xì)講解。
圖像生成類
Stable diffusion
Stable Diffusion是一個(gè)文本到圖像的潛在擴(kuò)散模型,由CompVis、Stability AI和LAION的研究人員和工程師創(chuàng)建。它使用來(lái)自LAION-5B數(shù)據(jù)庫(kù)子集的512x512圖像進(jìn)行訓(xùn)練。目前已有大神將SD打包為本地可直接使用的工具(繪世 sd-webui),通過(guò)這個(gè)工具我們可以通過(guò)網(wǎng)頁(yè)可視化,便捷使用文生圖,圖生圖。
這就是啟動(dòng)界面,只需要輸入正向及反向prompt,調(diào)整類似圖像大小,迭代步數(shù)等就可以生成各種不同類型的圖像。同時(shí)還可以通過(guò)加載不同的lora及controlnet等模型來(lái)進(jìn)行微調(diào),生成自己需要的圖案。
Midjourney
MidJourney 是一個(gè)文本到圖像的在線服務(wù)AI,創(chuàng)始人是David Holz,它可以根據(jù)您的文本提示生成華麗的視覺(jué)效果。MidJourney 更喜歡用互補(bǔ)的顏色、光影的藝術(shù)運(yùn)用、清晰的細(xì)節(jié)以及具有令人滿意的對(duì)稱性或透視性的構(gòu)圖來(lái)創(chuàng)建圖像。
DALL·E 2
DALL-E 2由OpenAI開發(fā),它通過(guò)一段文本描述生成圖像。其使用超過(guò)100億個(gè)參數(shù)訓(xùn)練的GPT-3轉(zhuǎn)化器模型,能夠解釋自然語(yǔ)言輸入并生成相應(yīng)的圖像。
三種工具比較
以上比較為個(gè)人觀點(diǎn),如有補(bǔ)充會(huì)進(jìn)行修改。
DeepFloyd IF
這個(gè)是stability.ai/團(tuán)隊(duì)最新作品,據(jù)官方介紹,DeepFloyd IF 是最新最先進(jìn)的開源文本-圖像模型,擁有強(qiáng)大的語(yǔ)言理解能力,生成的圖像具有高度真實(shí)感。從其官網(wǎng)展示了圖像來(lái)看,DeepFloyd IF 生成的圖像質(zhì)量非常不錯(cuò),也能處理多種不同的風(fēng)格效果。能在圖像中生成連貫清晰的文本,以及理解不同對(duì)象的屬性和空間關(guān)系。比如它可以正確地將文字呈現(xiàn)在路牌、紙片、包裝外殼等規(guī)定的媒介內(nèi);能理解文本之間的連續(xù)關(guān)系,將不同的字母或數(shù)字按順序呈現(xiàn)在不同的物體上;以及分清圓球是金屬的,三角形是毛茸茸的,不會(huì)將不同物體的屬性弄混。
文本生成
文本生成領(lǐng)域現(xiàn)在chatgpt、autogpt和gpt4目前正在大熱。目前針對(duì)chat gpt及gpt-4網(wǎng)絡(luò)上已經(jīng)有很多相關(guān)體驗(yàn)結(jié)果及解析,這里對(duì)三個(gè)gpt模型進(jìn)行一下對(duì)比。
chat GPT和GPT-4均為OpenAI公司開發(fā)的自然語(yǔ)言處理模型,gpt4和chatgpt的區(qū)別在于gpt4可以處理圖像內(nèi)容,可以更正確的理解信息和處理問(wèn)題,且回復(fù)的準(zhǔn)確性提高不少;chatgpt不支持圖像內(nèi)容處理,有時(shí)還會(huì)出現(xiàn)錯(cuò)誤或者矛盾的回答。此外,GPT-4支持圖文語(yǔ)義化的解讀,以及更好的回答組織能力,而chatgpt則帶來(lái)了AI對(duì)語(yǔ)義理解的突破。
Auto-GPT 的運(yùn)作方式與 ChatGPT 相同,但增加了運(yùn)動(dòng)功能。它將大型語(yǔ)言模型指令鏈接在一起,以實(shí)現(xiàn)指定的結(jié)果。該工具具有一定的決策權(quán),可以讓AI自我提示。
語(yǔ)音生成
So-vits-svc 4.0
B站大佬已經(jīng)將該算法工具化,類似于sd-webui,通過(guò)可視化就可以完成語(yǔ)音訓(xùn)練及推理。
具體效果大家可以看B站很多AI翻唱,很讓人驚艷,后續(xù)我會(huì)將各個(gè)工具的具體用法進(jìn)行介紹。
結(jié)尾
以上是我的一點(diǎn)總結(jié),目前AIGC工具及算法日新月異,發(fā)展很快,我總結(jié)的一些東西在我下筆的那一刻可能就已經(jīng)過(guò)時(shí)了。學(xué)無(wú)止盡,能親身經(jīng)歷人工智能的發(fā)展,真的是幸事。另外,給自己打個(gè)廣告,有沒(méi)有做這個(gè)的一起玩兒啊??。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-521083.html
下面是一些工具鏈接
Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
2. 文本生成類:Chat GPT,auto-GPT,GPT-4等;
3. 語(yǔ)音生成類:So-vits-svc 4.0;
[1]: sd-webui :https://github.com/AUTOMATIC1111/stable-diffusion-webui
[2]: Midjourney:https://www.midjourney.com/home/
[3]: DALL·E 2:https://labs.openai.com/
[4]:DeepFloyd IF:https://deepfloyd.ai/deepfloyd-if
[5]:Chat GPT:https://chat.openai.com/
[6]:auto-GPT:https://github.com/Significant-Gravitas/Auto-GPT
[7]:GPT-4:https://openai.com/product/gpt-4
[8]: So-vits-svc 4.0:https://github.com/voicepaw/so-vits-svc-fork/blob/main/README_zh_CN.md文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-521083.html
到了這里,關(guān)于整理一下最近了解到的AIGC工具的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!