目錄
一、“不會(huì)開(kāi)發(fā)游戲的AI工具制作者不是好博士”
?二、ControlNet出現(xiàn)的背景
三、什么是ControlNet?
四、「神采 Prome AI」的誕生
五、總結(jié)
去年DALLE2,Stable Diffusion等文-圖底層大模型發(fā)布帶動(dòng)了應(yīng)用層的發(fā)展,出現(xiàn)了一大批爆款產(chǎn)品,被認(rèn)為是”AI繪畫(huà)元年“。目光再轉(zhuǎn)到今年,在隔壁ChatGPT風(fēng)頭一時(shí)無(wú)二的時(shí)候,ControlNet的出現(xiàn)再次把大家的注意力移到了AI繪畫(huà)生成上面。
一、“不會(huì)開(kāi)發(fā)游戲的AI工具制作者不是好博士”
在科普ControlNet之前,有必要先介紹一下他的作者。目前正在斯坦福讀博的中國(guó)人張呂敏(Lvmin Zhang),2021年才畢業(yè)于蘇州大學(xué),并且在本科期間就發(fā)表了多篇ICCV,CVPR,ECCV等頂會(huì)著作。這些論文高度與繪畫(huà)相關(guān),他的Style2Paints甚至已經(jīng)更新到第五版了。
很少人知道,他還在Unity上做了一款名為 YGOPro2 的TCG游戲,可見(jiàn)每一個(gè)學(xué)霸都是時(shí)間管理大師。
?二、ControlNet出現(xiàn)的背景
時(shí)間再回到去年各種模型誕生初期,那時(shí)候圖像生成只需要用戶簡(jiǎn)單地輸入文本(Prompts)就可以實(shí)現(xiàn),這讓普通人操作的難度大大降低。尤其是Stable Diffusion的出現(xiàn),直接部署在家用電腦的同時(shí)又很快生成高質(zhì)量圖片。
但是伴隨著普通用戶的嘗試,種種問(wèn)題也隨之暴露出來(lái)。首先由于擴(kuò)散模型本身diversity很強(qiáng),導(dǎo)致生成的圖像往往不受控制(可控性低),常常無(wú)法滿足需求,需要用戶在三四十張生成的圖片中挑選一張可用的(廢片率高)。
提示詞:一張精美的圖片需要通過(guò)大量的關(guān)鍵詞拼湊(多達(dá)四五十個(gè)單詞),才呈現(xiàn)出一個(gè)相對(duì)比較好的表現(xiàn)形式:
對(duì)于剛接觸AI繪畫(huà)的普通人來(lái)說(shuō)找到合適的關(guān)鍵詞是面臨的首要問(wèn)題,其次很多我們常見(jiàn)的關(guān)鍵詞如:建筑,宏大/精美等遠(yuǎn)遠(yuǎn)不如渲染配置參數(shù)詞:“4K超清”,“高質(zhì)量”,“陰影效果”表現(xiàn)效果好??梢?jiàn)單純的關(guān)鍵詞控制無(wú)法滿足用戶對(duì)精美細(xì)節(jié)的需要。而在成圖的時(shí)候原生Stable-Diffusion 模型的瑕疵則更明顯,比如著名的“AI不會(huì)畫(huà)手”,“美少女吃面梗”都反映出大模型在手腳方面的細(xì)節(jié)表現(xiàn)不好。針對(duì)這些問(wèn)題除了避免出現(xiàn)手腳,進(jìn)行二次AI創(chuàng)作/手動(dòng)修改似乎也沒(méi)什么好的辦法(加入數(shù)據(jù)集針對(duì)性訓(xùn)練當(dāng)然也是一種辦法,但是一方面對(duì)于數(shù)據(jù)量的要求會(huì)很大大提升,另一方面還是沒(méi)有很好地解決黑盒問(wèn)題)。
幸運(yùn)的,就在不久之前,ControlNet發(fā)布了。
三、什么是ControlNet?
ControlNet是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)添加額外的條件來(lái)控制擴(kuò)散模型。
ControlNet將網(wǎng)絡(luò)結(jié)構(gòu)劃分為:1. 不可訓(xùn)練(locked)部分保留了stable-diffusion模型的原始數(shù)據(jù)和模型自身的學(xué)習(xí)能力。2. 可訓(xùn)練(trainable)部分通過(guò)額外的輸入針對(duì)可控的部分進(jìn)行學(xué)習(xí),本質(zhì)是端對(duì)端的訓(xùn)練。簡(jiǎn)單來(lái)說(shuō)就是通過(guò)一些額外條件生成受控圖像-在Stable Diffusion模型中添加與UNet結(jié)構(gòu)類似的ControlNet額外條件信息,映射進(jìn)參數(shù)固定的模型中,完成可控條件生成。
眾所周知,AIGC的可控性是它進(jìn)入實(shí)際生產(chǎn)最關(guān)鍵的一環(huán)。有了ControlNet的幫助我們可以直接提取建筑的構(gòu)圖,人物的姿勢(shì),畫(huà)面的深度和語(yǔ)義信息等等。在很大程度上我們不需要頻繁更換提示詞來(lái)碰運(yùn)氣,嘗試一次次開(kāi)盲盒的操作了。
?ControlNet把每一種不同類別的輸入分別訓(xùn)練了模型,目前有8個(gè):Canny,Depth,HED,MLSD,Normal,Openpose,Scribble,Seg。這些可控條件大致可以分為三類,下面我們將一一展開(kāi)介紹:
- 姿勢(shì)識(shí)別
姿勢(shì)識(shí)別,用于人物動(dòng)作,提取人體姿勢(shì)的骨架特征(posture skeleton)。姿勢(shì)提取的效果圖很像小時(shí)候flash上的小游戲“火柴人打斗”,有了這個(gè)就不用去網(wǎng)上尋找各種英語(yǔ)姿勢(shì)tag,而是可以直接輸入一張姿勢(shì)圖。并且這個(gè)模型還可以生成多人姿勢(shì)(偶爾會(huì)翻車,但是之前靠提示詞是完全無(wú)法生成多人動(dòng)作的)
這個(gè)功能對(duì)于人物設(shè)計(jì)和動(dòng)畫(huà)非常有用,可能會(huì)用于影視和游戲行業(yè),比如動(dòng)作捕捉和捏臉系統(tǒng)。
邊緣檢測(cè),通過(guò)從原始圖片中提取線稿,來(lái)生成同樣構(gòu)圖的畫(huà)面
跟canny類似,適合重新上色和風(fēng)格化
?針對(duì)涂鴉
?語(yǔ)義分割識(shí)別(區(qū)塊標(biāo)注,適合大片塊狀草圖上色)
- 線段識(shí)別,適用于建筑場(chǎng)景
?深度檢測(cè),提取深度圖
通過(guò)提取原始圖片中的深度信息,生成具有深度圖,再生成具有同樣表面幾何形狀的圖片。甚至可以利用3D建模軟件搭建簡(jiǎn)單的場(chǎng)景,再交給ControlNet去渲染。
模型識(shí)別,適用于建模,類似深度圖,比深度模型對(duì)于細(xì)節(jié)的保留更加精確,用于法線貼圖。
靠著以上八種模型就可以用其他Input Condition(語(yǔ)義圖,關(guān)鍵點(diǎn)圖,深度圖等單一維度的特征)來(lái)輔助文字提示詞來(lái)生成可控的輸出圖片了。比起僅僅依靠提示詞的方法,ControlNet雖然多花了點(diǎn)時(shí)間,但要知道有些圖片靠直接點(diǎn)擊按鈕的方式的話,不論roll多少次都是搞不出來(lái)的。
四、「神采 Prome AI」的誕生
皮卡智能一直在AIGC的應(yīng)用中無(wú)限探索,去年AI繪畫(huà)爆火時(shí),我們創(chuàng)造了「AI藝術(shù)創(chuàng)作」平臺(tái),用戶可以用中文生成AI繪畫(huà)和使用「圖生圖」的功能。
與去年上線的「AI藝術(shù)創(chuàng)作」不同,這款新產(chǎn)品主要面向B端用戶,ControlNet的出現(xiàn),讓我們將AI繪畫(huà)從玩具變成工具。神采PromeAI擁有強(qiáng)大的人工智能驅(qū)動(dòng)設(shè)計(jì)助手和廣泛可控的AIGC(C-AIGC)模型風(fēng)格庫(kù),使你能夠輕松地創(chuàng)造出令人驚嘆的圖形、視頻和動(dòng)畫(huà)。例如邊緣和人物姿態(tài),甚至可以通過(guò)線稿控制來(lái)完美解決AIGC經(jīng)常受到詬病的“手指”問(wèn)題。
該產(chǎn)品具有以下功能:可以直接將涂鴉和照片轉(zhuǎn)化為插畫(huà),自動(dòng)識(shí)別人物姿勢(shì)并生成插畫(huà);將線稿轉(zhuǎn)化為完整的上色稿,并提供多種配色方案;自動(dòng)識(shí)別圖片景深信息以生成具有相同景深結(jié)構(gòu)的圖片,識(shí)別建筑及室內(nèi)圖片線段并生成新的設(shè)計(jì)方案;讀取圖片法線信息以輔助快速建模,利用圖片語(yǔ)義分割識(shí)別生成具有相同構(gòu)圖和內(nèi)容的不同風(fēng)格圖片。
五、總結(jié)
就在AI繪畫(huà)剛出來(lái)那會(huì)兒,就有人說(shuō)ai無(wú)法生成不同圖層,或者是線稿/中間圖,不會(huì)取代人工繪畫(huà)。不提后者,就說(shuō)現(xiàn)在,不管是文生圖(直接生成線稿),還是圖生圖(ControlNet,從圖片提取線稿),哪怕把渲染過(guò)程制作成視頻也是輕而易舉的。每個(gè)技術(shù)問(wèn)題都會(huì)變成下一次的突破,在大模型解決畫(huà)風(fēng),Lora解決角色,ControlNet解決了輸出內(nèi)容之后,手腳以及其他關(guān)鍵點(diǎn)優(yōu)化很快也會(huì)解決了。
從模型本身上看,不難想象下一次技術(shù)的迭代一定會(huì)在可控性上有更大的提升,因?yàn)橐粡垐D像能提取的特征無(wú)非就是畫(huà)風(fēng)、深度,光照,姿勢(shì),語(yǔ)義等。從應(yīng)用方面看,既然ControlNet能標(biāo)記骨骼來(lái)畫(huà)人體,說(shuō)不定之后也可以用于醫(yī)學(xué),建筑,也能標(biāo)記車站畫(huà)軌道。
文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-482412.html
?在各個(gè)細(xì)分領(lǐng)域的公司帶著他們的ai工具“下沉”之后,他們已經(jīng)發(fā)現(xiàn)了越來(lái)越多可以做的事情。今年才過(guò)了三個(gè)月,無(wú)法想象在接下來(lái)的九個(gè)月AIGC這條賽道還會(huì)帶給我們哪些更驚奇的變化。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-482412.html
到了這里,關(guān)于ControlNet多重控制功能推出,AI繪畫(huà)進(jìn)入導(dǎo)演時(shí)代!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!