3D模型在智能設(shè)計領(lǐng)域以其可塑性,可編輯性有著屬于自己的獨(dú)特優(yōu)勢,擴(kuò)展了2D設(shè)計的上限。但是其目前存在的局限性也是顯而易見的:建模的效率,模型的數(shù)量,以及3D設(shè)計的成本。
背景
在商品展示側(cè),圍繞人-貨-場的商品展示重要性不言而喻,需要為每個消費(fèi)者搭建最感興趣的貨-場匹配。尤其以3D,VR等新內(nèi)容形態(tài)的發(fā)展,使得貨-場的展示除了傳統(tǒng)的圖文,短視頻展示方式之外,開始逐漸出現(xiàn)圍繞3D模型的貨場匹配內(nèi)容創(chuàng)作形態(tài)。
一方面,站在用戶的角度,除了基礎(chǔ)商品信息之外,越來越多其他的信息會被納入最終購買決策中,例如在購買大件家具的時候,用戶會考慮家具的顏色和款式和家中的硬裝是否搭配,功能性以及舒適性是否滿足家人使用。
另一方面,站在賣家角度,也開始發(fā)現(xiàn)3D模型內(nèi)容創(chuàng)作的提效作用:例如在手機(jī)行業(yè),越來越多的手機(jī)廠商愿意投入資金使用3D模型進(jìn)行短視頻的制作,且為不同顏色的sku配置不同顏色的動態(tài)背景?;?D模型的內(nèi)容創(chuàng)作能進(jìn)一步提升用戶的體驗(yàn),在一定程度上提升轉(zhuǎn)化效率。因此本文將圍繞3D內(nèi)容創(chuàng)作上層應(yīng)用的三塊核心步驟展開:
創(chuàng)作:基于商品的3D模型/2D圖片/文本的內(nèi)容創(chuàng)作,解決素材創(chuàng)作內(nèi)容多樣性及效率需求問題。
投放:初步以商品頭圖,短視頻的形式落地在實(shí)際的應(yīng)用場景中,構(gòu)建內(nèi)容投放鏈路進(jìn)行效率層面優(yōu)化。
優(yōu)化:同時基于線上流量反饋,通過拆解設(shè)計元素的原子化能力,指導(dǎo)創(chuàng)作更優(yōu)質(zhì)的3D內(nèi)容。
這里把過程中的經(jīng)驗(yàn)和成果分享給大家,歡迎感興趣的同學(xué)和業(yè)務(wù)方進(jìn)行交流和探討。
素材創(chuàng)作
???業(yè)務(wù)方案現(xiàn)狀
基于現(xiàn)有鏈路,目前在商品圖和商品短視頻創(chuàng)作的過程中存在以下瓶頸:
高質(zhì)量素材需求量大:對于素材的數(shù)量,質(zhì)量,和可控性都有非常高的要求。
新內(nèi)容形態(tài)數(shù)據(jù)缺失:尤其以3D,AR,VR的全新內(nèi)容形態(tài),極度缺乏歷史先驗(yàn)數(shù)據(jù)。
容易出現(xiàn)的版權(quán)糾紛:另一方面直接使用網(wǎng)絡(luò)中的素材圖會有較大的可能的版權(quán)問題。
專業(yè)人士制作成本高:需要花費(fèi)極高的制作成本請專人進(jìn)行內(nèi)容制作。
因此我們針對3D相關(guān)內(nèi)容資產(chǎn)的創(chuàng)作瓶頸進(jìn)行優(yōu)化。
???目前支持能力
首先,在素材創(chuàng)作層面目前已經(jīng)能支持包括創(chuàng)意背景制作(txt2img),風(fēng)格化AI(AI作畫),內(nèi)容補(bǔ)全(inpainting)等。我們將圍繞效率提升和用戶體驗(yàn)兩個方面出發(fā),分別講解目前已具備的能力:
從效率層面進(jìn)行考量:在進(jìn)行商品頭圖或商品短視頻制作時,與商品搭配的背景視頻尤為重要。針對目前不同主色,不同配置的商品型號,我們有針對性的進(jìn)行背景的生產(chǎn),因此建設(shè)創(chuàng)意背景制作(txt2img)能力,用于生產(chǎn)對應(yīng)商品的專屬背景。
而從用戶體驗(yàn)出發(fā):目前AI作畫風(fēng)靡全國,讓很多沒有繪畫經(jīng)驗(yàn),但是愿意進(jìn)行二次創(chuàng)作的消費(fèi)者,體驗(yàn)自己的二次元/油畫/板畫風(fēng)格的作品。目前在抖音/貼吧/知乎/bilibili 都有相應(yīng)的AI創(chuàng)作專區(qū),日活超千萬。因此我們著重展示以上兩種能力:
創(chuàng)意背景制作(txt2img)
為了構(gòu)建多樣性的短視頻背景,從而實(shí)現(xiàn)更高效率的內(nèi)容展現(xiàn),我們首先進(jìn)行創(chuàng)意背景制作相關(guān)能力的構(gòu)建。可以實(shí)現(xiàn)多種多樣化的內(nèi)容生產(chǎn),實(shí)現(xiàn)可編輯,可自由創(chuàng)作,不受關(guān)鍵詞約束,例如輸入“星空背景”:
星空背景的應(yīng)用在手機(jī)詳情頁展示case1:
風(fēng)格化內(nèi)容創(chuàng)作(img2img)
圍繞有趣的用戶體驗(yàn),我們分別給出了人像照片/商品照片的風(fēng)格化效果:
商品圖/詳情圖風(fēng)格化:
???算法模型背景&優(yōu)化
擴(kuò)散模型原理部分
在介紹算法背景之前,首先介紹一些原理層面的知識。對于擴(kuò)散模型原理感興趣的同學(xué)可以參看個人的相關(guān)解讀:
《Diffusion Model (擴(kuò)散模型)系列一(DDPM)Denoising diffusion probalistic models》
《Diffusion Model (擴(kuò)散模型)系列二:(DDIM) denoising diffusion implicit models》。
算法背景
首先在DDPM中,證明了當(dāng)每一步添加的高斯噪聲的均值和方差都足夠小時,其逆向步驟同樣能夠滿足高斯分布,這是擴(kuò)散模型搭建和應(yīng)用的理論基礎(chǔ)。而這樣帶來的問題在于,大量小幅度變化的高斯噪聲疊加帶來了大量的計算量。因此很多研究者把目光放在了減少逆向分布采樣步驟量的方向上。
而DDIM的核心優(yōu)化點(diǎn),就是在保證DDPM中的逆向步驟為高斯分布的條件下,構(gòu)造了滿足逆向步驟的迭代公式,從而大幅度減少了模型的訓(xùn)練,推理的計算量。
回到應(yīng)用層面。以目前前沿的擴(kuò)散模型相關(guān)的生成模型為例,更多的在下游任務(wù)中進(jìn)行領(lǐng)域級別的優(yōu)化:無論是Dalle-2系列,還是基于有效針對隱式特征空間進(jìn)行壓縮和擴(kuò)散模型建模的Stable-Diffusion ,對于擴(kuò)散模型的采樣及運(yùn)算優(yōu)化涉及不多。更多的注重在特征的前/后處理以及生成模型上。而此類做法很容易導(dǎo)致最終運(yùn)算效率受到擴(kuò)散模型采樣還原的效率影響。Stable-Diffusion巧妙的做法在于,將特征空間映射到低維進(jìn)行操作,在建模進(jìn)行特征的還原以及圖像的生成,因此避開了計算量的問題。
優(yōu)化思路
而在本模型中,我們希望直面挑戰(zhàn),從擴(kuò)散模型采樣效率出發(fā),將擴(kuò)散模型所需的采樣頻率進(jìn)一步下降,且保證生成效率基本持平甚至有所提升。這樣可以直接在高維特征上進(jìn)行模型優(yōu)化,也為后續(xù)的優(yōu)化建立了足夠的空間。
從前述背景中我們可以知道,DDIM的核心優(yōu)化點(diǎn),就是針對DDPM的微小變化馬爾可夫鏈采樣函數(shù)優(yōu)化,構(gòu)建了一種同樣能滿足逆向傳播條件的采樣方程式,極大減少了采樣需求量:
而如何想到是用這個公式進(jìn)行逆向采樣擬合呢?原文并沒有給出答案,而使用了數(shù)學(xué)歸納法,驗(yàn)證了該式為逆向馬爾可夫分布的充分條件,更多的給人一種靈光一閃的感覺。因此我們從這里入手,針對DDIM的采樣方式進(jìn)行進(jìn)一步的優(yōu)化。通過構(gòu)建針對積分的離散近似表達(dá),來實(shí)現(xiàn)基于DDIM的2階段優(yōu)化,首先我們給出一階解析解的積分形式:
我們針對其積分形式進(jìn)行泰勒展開,在展開的部分中我們可以使用泰勒展開的一階/二階展開近似積分的擬合形式,可以講DDPM的采樣需求量進(jìn)一步簡化。我們基于其二階展開進(jìn)行進(jìn)一步優(yōu)化,可以將DDIM的采樣需求量進(jìn)一步縮小。由于目前在準(zhǔn)備相關(guān)論文及專利,詳細(xì)推導(dǎo)公式在后續(xù)專欄中給出。
實(shí)驗(yàn)效果對比
測試生成圖(為了看效果盡量進(jìn)行放大),前圖為對比case,后圖為優(yōu)化后 case:
內(nèi)容投放
???背景
在完成構(gòu)建內(nèi)容創(chuàng)作的能力之后,我們需要有一套完整的線上投放機(jī)制,以保證線上內(nèi)容展示效率。此時我們遇到的第一個難點(diǎn)就是:
缺少2-3D的特征體系和對比損失的統(tǒng)一性,即3D內(nèi)容和商家制作2D內(nèi)容的對比。因此我們首先有針對性的構(gòu)建了維度統(tǒng)一的特征體系,同時為以下工作提供了基礎(chǔ)能力:
1.冷啟動模型和流控模型的構(gòu)建。首先保證線上投放鏈路的正收益。
2.設(shè)計理解和優(yōu)化設(shè)計能力。其次我們也希望利用線上的反饋數(shù)據(jù),基于以上的特征體系對我們的設(shè)計能力進(jìn)行優(yōu)化。
這邊額外提一些設(shè)計理解部分的能力的構(gòu)建的思考和理解。在我們常規(guī)的理解中,在完成內(nèi)容創(chuàng)作-冷啟動-流控放大-過期下線 四個部分后,一整套的內(nèi)容創(chuàng)作流程已經(jīng)完成了,從平臺側(cè)出發(fā),也已經(jīng)實(shí)現(xiàn)了效率最大的優(yōu)化。那么我們?yōu)槭裁慈匀恍枰鈽?gòu)設(shè)計特征,給出設(shè)計元素級別的理解呢?
從平臺層面:盡管以上鏈路已經(jīng)完成了最優(yōu)質(zhì)的迭代,但是我們忽略了兩個問題:1.冷啟動流量測試中的劣質(zhì)內(nèi)容損耗。2.流控放大步驟中更優(yōu)質(zhì)內(nèi)容的沉沒成本。通過設(shè)計理解,進(jìn)一步提升內(nèi)容質(zhì)量效率,能提升表達(dá)上限。
從商家/設(shè)計師層面:從商家工具的層面入手,商家也希望能夠從歷史數(shù)據(jù)中,提供指導(dǎo)商品主圖及短視頻的的建議,提升商品點(diǎn)擊轉(zhuǎn)化相關(guān)指標(biāo)。
下面我們詳細(xì)展開:
???3D內(nèi)容和非3D內(nèi)容特征體系/對比損失的統(tǒng)一性問題和解決
由于在部分場景中,需要和商家制作的2D主圖的線上效率進(jìn)行對比,而如果僅僅使用圖像提取embedding,構(gòu)建pairwise損失函數(shù),一方面表達(dá)能力有限,另一方面,只使用圖像embedding的黑盒模式無法對后續(xù)的設(shè)計起到優(yōu)化和指導(dǎo)的作用。因此我們針對此問題,搭建了包括2D的機(jī)位特征獲取,位姿特征獲取模塊在內(nèi)的2/3D統(tǒng)一特征體系:
???完善的多級流量放大框架的搭建
和開發(fā)同學(xué)共建多級測試-投放的多級放大流量控制體系,針對投放過程中的新內(nèi)容投放任務(wù),我們構(gòu)建了完善的測試-投放鏈路,保證了復(fù)用性能。
內(nèi)容冷啟動
在內(nèi)容冷啟動鏈路中,我們基于前述構(gòu)建的完備的統(tǒng)一特征體系,引入多層Attention模塊,針對多模態(tài)特征進(jìn)行高效的融合和處理,結(jié)合對比數(shù)據(jù)-如商家制作的商品主圖,構(gòu)建了Pairwise損失函數(shù),完成價值預(yù)估模型的構(gòu)建,在進(jìn)行冷啟動內(nèi)容投放時,優(yōu)先選擇高預(yù)估分的內(nèi)容進(jìn)行測投。
完善內(nèi)容流量調(diào)控
針對通過步驟1.內(nèi)容冷啟動的,將符合條件的商品送入多級放大流量模塊中,將其30日/14日/7日/3日/1日內(nèi)的特征及效率表現(xiàn)作為輸入,構(gòu)建PID模型進(jìn)行流量調(diào)優(yōu)。
???設(shè)計可解釋性&設(shè)計優(yōu)化
在完成線上多級放大鏈路的搭建之后,我們不僅可以進(jìn)行整體效率維度的優(yōu)化,對于具體的設(shè)計,結(jié)合前述構(gòu)建的2/3D全面統(tǒng)一的特征體系,也可以嘗試構(gòu)建元素維度對于點(diǎn)擊效率的影響,即設(shè)計可解釋性。舉例而言,當(dāng)我們想使用Diffusion Model 進(jìn)行帶約束的內(nèi)容創(chuàng)作時,需要加上特殊的關(guān)鍵詞(prompt),以調(diào)整最終的生成創(chuàng)意內(nèi)容。當(dāng)我們掌握了設(shè)計元素維度對于點(diǎn)擊率的影響之后,我們可以通過線上數(shù)據(jù)反饋進(jìn)行關(guān)鍵詞優(yōu)化:例如“紅色衣服適合白色主色調(diào)的氛圍”,“灰綠色沙發(fā)放在簡約風(fēng)格的樣板間中進(jìn)行展示較合適”。
因此在設(shè)計可解釋性層面,我們使用Shaply Value作為特征重要性標(biāo)準(zhǔn),而針對Shaply Value存在的缺陷:在多維度交叉特征上的準(zhǔn)確性及計算量問題,將采樣進(jìn)行進(jìn)一步簡化。采樣方式參考《Polynomial calculation of the Shapley value based on sampling》,這邊給出采樣的偽代碼:
展示case:
以二維特征交叉為例,在灰色系的商品(訓(xùn)練數(shù)據(jù)為家具模型)背景創(chuàng)作/匹配時,可以加入藍(lán)色背景相關(guān)關(guān)鍵字進(jìn)行生成,而不適合放在純白的背景中。
寫在最后的“以終為始”
3D模型在智能設(shè)計領(lǐng)域以其可塑性,可編輯性有著屬于自己的獨(dú)特優(yōu)勢,擴(kuò)展了2D設(shè)計的上限。但是其目前存在的局限性也是顯而易見的:建模的效率,模型的數(shù)量,以及3D設(shè)計的成本。
我個人比較推崇的一種思考方式是“以終為始”:將理想中的目標(biāo)作為起點(diǎn),反推實(shí)現(xiàn)最終目標(biāo)中所需要的必經(jīng)之路。當(dāng)我們想要實(shí)現(xiàn)3D相關(guān)應(yīng)用所帶來的高效,高質(zhì)量內(nèi)容創(chuàng)作,甚至改變整個生態(tài)的最終目標(biāo)前:高質(zhì)量且多樣的的內(nèi)容創(chuàng)作能力,以及高效的線上測/投鏈路是必不可少的,也即圍繞本文開頭部分的框架進(jìn)行展開。
未來我們將圍繞3D內(nèi)容的效率和體驗(yàn)兩方面內(nèi)容,基于現(xiàn)有的經(jīng)驗(yàn)進(jìn)一步進(jìn)行內(nèi)容創(chuàng)作,進(jìn)一步擴(kuò)展3D內(nèi)容創(chuàng)作的邊界。
團(tuán)隊介紹
大淘寶技術(shù)Meta團(tuán)隊,目前負(fù)責(zé)面向消費(fèi)場景的3D/XR基礎(chǔ)技術(shù)建設(shè)和創(chuàng)新應(yīng)用探索,創(chuàng)造以手機(jī)及XR 新設(shè)備為載體的消費(fèi)購物新體驗(yàn)。團(tuán)隊在端智能、端云協(xié)同、商品三維重建、3D引擎、XR引擎等方面有著深厚的技術(shù)積累,先后發(fā)布深度學(xué)習(xí)引擎MNN、端側(cè)實(shí)時視覺算法庫PixelAI、商品三維重建工具Object Drawer、端云協(xié)同系統(tǒng)Walle等。團(tuán)隊在OSDI、MLSys、CVPR、ICCV、NeurIPS、TPAMI等頂級學(xué)術(shù)會議和期刊上發(fā)表多篇論文。歡迎視覺算法、3D/XR引擎、深度學(xué)習(xí)引擎研發(fā)、終端研發(fā)等領(lǐng)域的優(yōu)秀人才加入,共同走進(jìn)3D數(shù)字新時代。簡歷請投遞至: chengfei.lcf@alibaba-inc.com
¤?拓展閱讀?¤
3DXR技術(shù)?|?終端技術(shù)?|?音視頻技術(shù)文章來源:http://www.zghlxwxcb.cn/news/detail-435881.html
服務(wù)端技術(shù)?|?技術(shù)質(zhì)量?|?數(shù)據(jù)算法文章來源地址http://www.zghlxwxcb.cn/news/detail-435881.html
到了這里,關(guān)于基于擴(kuò)散模型的3D智能創(chuàng)作引擎與內(nèi)容投放算法最新實(shí)踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!