在AIGC取得舉世矚目成就的背后,基于大模型、多模態(tài)的研究范式也在不斷地推陳出新。微軟研究院作為這一研究領(lǐng)域的佼佼者,與圖靈獎(jiǎng)得主、深度學(xué)習(xí)三巨頭之一的Yoshua Bengio一起提出了AIGC新范式——Regeneration Learning。這一新范式究竟會(huì)帶來(lái)哪些創(chuàng)新變革?本文作者將帶來(lái)他的深度解讀。
作者 |?譚旭
AIGC(AI-Generated Content)在近年來(lái)受到了廣泛關(guān)注,基于深度學(xué)習(xí)的內(nèi)容生成在圖像、視頻、語(yǔ)音、音樂(lè)、文本等生成領(lǐng)域取得了非常矚目的成就。不同于傳統(tǒng)的數(shù)據(jù)理解任務(wù)通常采用表征學(xué)習(xí)(Representation Learning)范式來(lái)學(xué)習(xí)數(shù)據(jù)的抽象表征,數(shù)據(jù)生成任務(wù)需要刻畫(huà)數(shù)據(jù)的整體分布而不是抽象表征,需要一個(gè)新的學(xué)習(xí)范式來(lái)指導(dǎo)處理數(shù)據(jù)生成的建模問(wèn)題。
為此,微軟研究院的研究員和深度學(xué)習(xí)/表征學(xué)習(xí)先驅(qū)Yoshua Bengio一起,通過(guò)梳理典型的數(shù)據(jù)生成任務(wù)以及建模流程,抽象出面向數(shù)據(jù)生成任務(wù)的學(xué)習(xí)范式Regeneration Learning。該學(xué)習(xí)范式適合多種數(shù)據(jù)生成任務(wù)(圖像/視頻/語(yǔ)音/音樂(lè)/文本生成等),能夠?yàn)殚_(kāi)發(fā)設(shè)計(jì)數(shù)據(jù)生成的模型方法提供新的洞見(jiàn)和指導(dǎo)。
論文:Regeneration Learning: A Learning Paradigm for Data Generation
鏈接:https://arxiv.org/abs/2301.08846?
為什么是Regeneration Learning?
什么是數(shù)據(jù)理解與數(shù)據(jù)生成?
機(jī)器學(xué)習(xí)中一類典型的任務(wù)是學(xué)習(xí)一個(gè)從源數(shù)據(jù)X到目標(biāo)數(shù)據(jù)Y的映射,比如在圖像分類中X是圖像而Y是類別標(biāo)簽,在文本到語(yǔ)音合成中X是文本而Y是語(yǔ)音。根據(jù)X和Y含有信息量的不同,可以將這種映射分成數(shù)據(jù)理解(Data Understanding)、數(shù)據(jù)生成(Data Generation)以及兩者兼有的任務(wù)。圖1顯示了這三種任務(wù)以及X和Y含有的相對(duì)信息。
圖1:機(jī)器學(xué)習(xí)中常見(jiàn)的三種任務(wù)類型以及X和Y含有的相對(duì)信息量
X和Y的信息差異導(dǎo)致了采用不同的方法來(lái)解決不同的任務(wù):
對(duì)于數(shù)據(jù)理解任務(wù),X通常比較高維、復(fù)雜并且比Y含有更多的信息,所以任務(wù)的核心是從X學(xué)習(xí)抽象表征來(lái)預(yù)測(cè)Y。因此,深度學(xué)習(xí)中非?;馃岬谋碚鲗W(xué)習(xí)(Representation Learning,比如基于自監(jiān)督學(xué)習(xí)的大規(guī)模預(yù)訓(xùn)練)適合處理這類任務(wù)。
對(duì)于數(shù)據(jù)生成任務(wù),Y通常比較高維、復(fù)雜并且比X含有更多的信息,所以任務(wù)的核心是刻畫(huà)Y的分布以及從X生成Y。
對(duì)于數(shù)據(jù)理解和生成兼有的任務(wù),它們需要分別處理兩者的問(wèn)題。
數(shù)據(jù)生成任務(wù)面臨的獨(dú)特挑戰(zhàn)
數(shù)據(jù)生成任務(wù)面臨獨(dú)特的挑戰(zhàn)包括:
因?yàn)閅含有很多X不含有的信息,生成模型面臨嚴(yán)重的一對(duì)多映射(One-to-Many Mapping)問(wèn)題,增加了學(xué)習(xí)難度。比如在圖像生成中,類別標(biāo)簽“狗”對(duì)應(yīng)不同的狗的圖片,如果沒(méi)有合理地學(xué)習(xí)這種一對(duì)多的映射,會(huì)導(dǎo)致訓(xùn)練集上出現(xiàn)過(guò)擬合,在測(cè)試集上泛化性很差。
-
對(duì)于一些生成任務(wù)(比如文本到語(yǔ)音合成,語(yǔ)音到說(shuō)話人臉生成等),X和Y的信息量相當(dāng),會(huì)有兩種問(wèn)題,一種是X到Y(jié)的映射不是一一對(duì)應(yīng),會(huì)面臨上面提到的一對(duì)多映射問(wèn)題,另一種是X和Y含有虛假關(guān)聯(lián)(Spurious Correlation,比如在語(yǔ)音到說(shuō)話人臉生成中,輸入語(yǔ)音的音色和目標(biāo)說(shuō)話人臉視頻中的頭部姿態(tài)沒(méi)有太大關(guān)聯(lián)關(guān)系),會(huì)導(dǎo)致模型學(xué)習(xí)到虛假映射出現(xiàn)過(guò)擬合。
為什么需要Regeneration Learning
深度生成模型(比如對(duì)抗生成網(wǎng)絡(luò)GAN、變分自編碼器VAE、自回歸模型AR、標(biāo)準(zhǔn)化流模型Flow、擴(kuò)散模型Diffusion等)在數(shù)據(jù)生成任務(wù)上取得了非常大的進(jìn)展,在理想情況下可以擬合任何數(shù)據(jù)分布以實(shí)現(xiàn)復(fù)雜的數(shù)據(jù)生成。但是,在實(shí)際情況中,由于數(shù)據(jù)映射太復(fù)雜,計(jì)算代價(jià)太大以及數(shù)據(jù)稀疏性問(wèn)題等,它們不能很好地?cái)M合復(fù)雜的數(shù)據(jù)分布以及一對(duì)多映射和虛假映射問(wèn)題。類比于數(shù)據(jù)理解任務(wù),盡管強(qiáng)大的模型,比如Transformer已經(jīng)取得了不錯(cuò)的效果,但是表征學(xué)習(xí)(近年來(lái)的大規(guī)模自監(jiān)督學(xué)習(xí)比如預(yù)訓(xùn)練)還是能大大提升性能。數(shù)據(jù)生成任務(wù)也迫切需要一個(gè)類似于表征學(xué)習(xí)的范式來(lái)指導(dǎo)建模。
因此,我們針對(duì)數(shù)據(jù)生成任務(wù)提出了Regeneration Learning學(xué)習(xí)范式。相比于直接從X生成Y,Regeneration Learning先從X生成一個(gè)目標(biāo)數(shù)據(jù)的抽象表征Y’,然后再?gòu)腨’生成Y。這樣做有兩點(diǎn)好處:
X→Y’ 相比于X→Y的一對(duì)多映射和虛假映射問(wèn)題會(huì)減輕;
-
Y’→Y的映射可以通過(guò)自監(jiān)督學(xué)習(xí)利用大規(guī)模的無(wú)標(biāo)注數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練。
Regeneration Learning的形式
Regeneration Learning的基本形式/Regeneration Learning的步驟
Regeneration Learning一般需要三步,包括:
將Y轉(zhuǎn)化成抽象表征Y’。轉(zhuǎn)換方法大體上可分為顯式和隱式兩種,如表1中Basic Formulation所示:顯式轉(zhuǎn)換包括數(shù)學(xué)變換(比如傅里葉變換,小波變換),模態(tài)轉(zhuǎn)換(比如語(yǔ)音文本處理中使用的字形到音形的變換),數(shù)據(jù)分析挖掘(比如從音樂(lè)數(shù)據(jù)抽取音樂(lè)特征或者從人臉圖片中抽取3D表征),下采樣(比如將256*256圖片下采樣到64*64圖片)等;隱式轉(zhuǎn)換,比如通過(guò)端到端學(xué)習(xí)抽取中間表征(一些常用的方法包括變分自編碼器VAE,量化自編碼器VQ-VAE和VQ-GAN,基于擴(kuò)散模型的自編碼器Diffusion-AE)。
表1:Y→Y’轉(zhuǎn)換的不同方法
步驟2:從X生成Y’。可以使用任何生成模型或者轉(zhuǎn)換方法,以方便做X→Y’映射。
步驟3:從Y’生成Y。通常采用自監(jiān)督學(xué)習(xí),如果從Y轉(zhuǎn)化為Y’采用的是隱式轉(zhuǎn)換學(xué)習(xí)比如變分自編碼器,那可以使用學(xué)習(xí)到的解碼器來(lái)從Y’生成Y。
如表1中Extended Formulation所示,一些方法可以看成是Regeneration Learning的擴(kuò)展版本,比如自回歸模型AR,擴(kuò)散模型Diffusion,以及迭代式的非自回歸模型等。在自回歸模型中,Y_{<t}可以看成是Y_{<t+1}的簡(jiǎn)化表征,在Diffusion模型中,Y_{t+1}可以看成是Y_{t}的簡(jiǎn)化表征,和基礎(chǔ)版的Regeneration Learning不同的是,它們都需要多步生成而不是兩步生成。
Regeneration Learning和Representation Learning的關(guān)系
圖2:Regeneration Learning和Representation Learning的對(duì)比
如圖2所示,Regeneration Learning可以看成是傳統(tǒng)的Representation Learning在數(shù)據(jù)生成任務(wù)中的對(duì)應(yīng):
Regeneration Learning處理目標(biāo)數(shù)據(jù)Y的抽象表征Y’來(lái)幫助生成,而傳統(tǒng)的Representation Learning處理源數(shù)據(jù)X的抽象表征X’來(lái)幫助理解;
Regeneration Learning中的Y’→Y和Representation Learning中的X→X’ 都可以通過(guò)自監(jiān)督的方式學(xué)習(xí)(比如大規(guī)模預(yù)訓(xùn)練);
-
Regeneration Learning中的X→Y’和Representation Learning中的X’→Y都比原來(lái)的X→Y更加簡(jiǎn)單。
Regeneration Learning的方法研究以及實(shí)際應(yīng)用
Regeneration Learning的研究機(jī)會(huì)
Regeneration Learning作為一種面向數(shù)據(jù)生成的學(xué)習(xí)范式,有比較多的研究問(wèn)題。如表2所示,包括如何從Y獲取Y’以及如何更好地學(xué)習(xí)X→Y’以及Y’→Y等,詳細(xì)信息可參見(jiàn)論文。?
表2:Regeneration Learning的研究問(wèn)題
Regeneration Learning在數(shù)據(jù)生成任務(wù)中的應(yīng)用條件
Regeneration Learning在語(yǔ)音、音頻、音樂(lè)、圖像、視頻、文本等生成中有著廣泛的應(yīng)用,包括文本到語(yǔ)音合成,語(yǔ)音到文本識(shí)別,歌詞/視頻到旋律生成,語(yǔ)音到說(shuō)話人臉生成,圖像/視頻/音頻生成等,如表3所示。
表3:一些利用Regeneration Learning的數(shù)據(jù)生成任務(wù)
總的來(lái)講,只要滿足以下幾點(diǎn)要求,都可以使用Regeneration Learning:
目標(biāo)數(shù)據(jù)太高維復(fù)雜;
X和Y有比較復(fù)雜的映射關(guān)系,比如一對(duì)多映射和虛假映射;
X和Y缺少足夠的配對(duì)數(shù)據(jù)。
最近流行的數(shù)據(jù)生成模型及其在Regeneration Learning范式下的表示
下面簡(jiǎn)單梳理了近年來(lái)在AIGC內(nèi)容生成領(lǐng)域的一些典型的模型方法,比如文本到圖像生成模型DALL-E 1、DALL-E 2和Stable Diffusion,文本到音頻生成模型AudioLM和AudioGen,文本到音樂(lè)生成模型MusicLM,文本生成模型GPT-3/ChatGPT,它們都可以被看作是采用了Regeneration Learning類似的思想,如表4所示。
表4:最近比較受關(guān)注的數(shù)據(jù)生成模型及其在Regeneration Learning范式下的表示
機(jī)器學(xué)習(xí)/深度學(xué)習(xí)依賴于學(xué)習(xí)范式指導(dǎo)處理各種學(xué)習(xí)問(wèn)題,例如傳統(tǒng)的機(jī)器學(xué)習(xí),包括有監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等學(xué)習(xí)范式。在深度學(xué)習(xí)中,有針對(duì)數(shù)據(jù)理解任務(wù)的表征學(xué)習(xí)。微軟研究員們和深度學(xué)習(xí)/表征學(xué)習(xí)先驅(qū)Yoshua Bengio一起面向數(shù)據(jù)生成任務(wù)提出了針對(duì)性的學(xué)習(xí)范式Regeneration Learning,希望能指導(dǎo)解決數(shù)據(jù)生成任務(wù)中的各種問(wèn)題。微軟亞洲研究院機(jī)器學(xué)習(xí)組的研究員們,將Regeneration Learning的思想應(yīng)用到各類生成任務(wù)中,比如文本到語(yǔ)音合成,歌詞到旋律生成,語(yǔ)音到說(shuō)話人臉生成等,詳情請(qǐng)見(jiàn):https://ai-creation.github.io/。
結(jié)語(yǔ)
本篇文章介紹了微軟亞洲研究院機(jī)器學(xué)習(xí)組在AIGC數(shù)據(jù)生成方面的研究范式工作,首先指出了數(shù)據(jù)生成面臨的挑戰(zhàn)以及新的學(xué)習(xí)范式的必要性,然后介紹了Regeneration Learning的具體形式、與Representation Learning的關(guān)系、當(dāng)前流行的數(shù)據(jù)生成模型在該范式下的表示,以及Regeneration Learning潛在的研究機(jī)會(huì)。希望Regeneration Learning能夠很好地指導(dǎo)解決數(shù)據(jù)生成任務(wù)中的各種問(wèn)題。在這一研究方向上,機(jī)器學(xué)習(xí)組還開(kāi)展了模型結(jié)構(gòu)和建模方法以及具體的生成任務(wù)方面的研究,歡迎繼續(xù)關(guān)注我們的其他文章!
作者簡(jiǎn)介
譚旭,微軟亞洲研究院高級(jí)研究員
研究領(lǐng)域?yàn)樯疃葘W(xué)習(xí)及AI內(nèi)容生成。發(fā)表論文100余篇,研究工作如預(yù)訓(xùn)練語(yǔ)言模型MASS、語(yǔ)音合成模型FastSpeech、AI音樂(lè)項(xiàng)目Muzic受到業(yè)界關(guān)注,多項(xiàng)成果應(yīng)用于微軟產(chǎn)品中。研究主頁(yè):https://ai-creation.github.io/文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-406513.html
文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-406513.html
到了這里,關(guān)于微軟提出AIGC新“玩法”,圖靈獎(jiǎng)得主Yoshua Bengio也來(lái)了!的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!