一、說(shuō)明
????????許多尖端的生成式 AI 模型都受到物理學(xué)概念的啟發(fā)。在本指南中,我們將從高層次上了解物理學(xué)如何推動(dòng)人工智能的進(jìn)步。不同的領(lǐng)域經(jīng)常交叉授粉重要概念,這有助于推動(dòng)其進(jìn)步。數(shù)學(xué)概念為物理學(xué)的進(jìn)步奠定了基礎(chǔ);物理學(xué)中的概念經(jīng)常啟發(fā)經(jīng)濟(jì)學(xué)的框架。
????????人工智能 (AI)?也加入了這一行列,從物理學(xué)中汲取靈感,開(kāi)發(fā)最先進(jìn)的模型,并告知它們?cè)诨A(chǔ)層面上是如何工作的。雖然物理學(xué)的思想以前已經(jīng)被整合到人工智能中,但直到最近,這些模型才以如此不屈不撓的方式超越了其他方法,如DALL-E 2和Stable Diffusion等模型。
????????在本文中,我們將從高層次上了解這些最新進(jìn)展,并展示來(lái)自物理學(xué)兩個(gè)不同子領(lǐng)域(靜電學(xué)和熱力學(xué))的概念如何將生成式 AI 模型的性能提升到一個(gè)新的梯隊(duì)。
使用靜電原理生成人臉圖像的生成式 AI 模型(由?PFGM?作者提供)
????????本文面向任何對(duì)這些強(qiáng)大模型如何工作的高級(jí)概念感興趣的人。我們不會(huì)涉及特定的數(shù)學(xué)細(xì)節(jié),因此解釋?xiě)?yīng)該對(duì)人工智能所有經(jīng)驗(yàn)水平的讀者都有幫助。
二、靜電學(xué)和熱力學(xué)的教訓(xùn)
????????我們將要研究的這兩種情況最常應(yīng)用于圖像的生成式 AI。對(duì)于靜電學(xué),將概率密度處理為電荷密度是該方法的核心,其中可以利用根據(jù)物理定律的電子運(yùn)動(dòng)來(lái)生成新穎的圖像。
????????在熱力學(xué)的第二種情況下,將圖像中的像素視為原子是該方法的核心,其中這些原子在時(shí)間上向前和向后的自然運(yùn)動(dòng)同樣可以被利用來(lái)生成圖像。
現(xiàn)在讓我們來(lái)看看第一個(gè)案例。
三、具有靜電的生成式 AI
????????靜電學(xué)可以看作是對(duì)電荷的研究。電荷密度是連續(xù)物體,在不同區(qū)域具有不同的電荷量。與電荷密度低的區(qū)域相比,高電荷密度的地方會(huì)以更大的力排斥(或吸引)電子。
這種帶電的棒在棒上的不同點(diǎn)具有不同的電荷量(電子數(shù))
????????我們可以繪制出該桿的電荷密度 - 對(duì)于桿上的每個(gè)點(diǎn),我們繪制出該點(diǎn)的“多少”電荷。正如我們所看到的,中間有很多電荷,在桿的兩端逐漸減少到較低的電荷。
在桿上的每個(gè)點(diǎn)上,曲線(xiàn)的高度指定了電荷密度
????????另一方面,也有概率密度。這些曲線(xiàn)顯示了某物每個(gè)值的可能性。下面,我們顯示了人類(lèi)男性身高的概率密度曲線(xiàn)。正如我們所看到的,身高為 5 英尺 11 英寸(71 英寸,180 厘米)的男性是相當(dāng)可能的,而比這更高或更矮的身高不太可能。
人類(lèi)男性的身高分布可以用類(lèi)似的方式繪制
????????您可能已經(jīng)注意到,這些曲線(xiàn)看起來(lái)非常相似。一類(lèi)特定的生成式 AI 模型 -?泊松流生成模型?(PFGM) -?也觀察到了這一點(diǎn)。PFGM 的工作原理是將概率密度視為電荷密度。
????????具體來(lái)說(shuō),為了生成數(shù)據(jù),我們需要從該類(lèi)型數(shù)據(jù)的概率分布中抽樣。如果我們想生成一個(gè)逼真的人類(lèi)樣本(只考慮身高和體重),他們不太可能看起來(lái)像這樣:
????????這種不太可能的身高和體重形成更不可能的組合,并且更不可能一起作為三元組樣本
????????特別是,不太可能出現(xiàn)那么高那么瘦,或者那么矮那么寬的人,更不用說(shuō)同時(shí)擁有 3 個(gè)這樣的極端的樣本了。我們需要能夠根據(jù)身高和體重組合的可能性從分布中進(jìn)行采樣,以便生成更真實(shí)的新穎數(shù)據(jù),如下所示:
僅考慮身高和體重,這個(gè)男性樣本比上述樣本要現(xiàn)實(shí)得多
????????通過(guò)生成式 AI,我們嘗試使用一組示例數(shù)據(jù)點(diǎn)來(lái)了解可能有哪些組合來(lái)生成真實(shí)的數(shù)據(jù)。這組示例數(shù)據(jù)點(diǎn)稱(chēng)為訓(xùn)練數(shù)據(jù),它決定了我們將生成哪種類(lèi)型的數(shù)據(jù)。例如,如果我們的訓(xùn)練數(shù)據(jù)是人臉圖像,那么我們將訓(xùn)練模型以生成人臉圖像。
這與靜電有什么關(guān)系?
3.1 作為電荷分布的數(shù)據(jù)分布
通常,學(xué)習(xí)生成類(lèi)似于訓(xùn)練數(shù)據(jù)的樣本可能很困難。PFGM 沒(méi)有嘗試直接做到這一點(diǎn),而是利用靜電的巧妙技巧來(lái)規(guī)避這個(gè)問(wèn)題。
PFGM 不再將數(shù)據(jù)視為概率分布,而是改變視角并將此分布視為電荷分布。更有可能的數(shù)據(jù)點(diǎn)(更高的概率密度)被認(rèn)為具有更多的電荷(更高的電荷密度)。
就其本身而言,這并沒(méi)有多大幫助 - 但PFGM利用了一個(gè)關(guān)鍵事實(shí):當(dāng)被視為電荷分布時(shí),該分布將自我排斥。隨著時(shí)間的流逝,這種排斥力會(huì)“膨脹”,并逐漸將分布轉(zhuǎn)變?yōu)橐粋€(gè)大的均勻半球。我們可以在下面看到這個(gè)過(guò)程的視頻:
當(dāng)被視為電子時(shí),訓(xùn)練數(shù)據(jù)會(huì)隨著時(shí)間的推移自行排斥形成一個(gè)均勻的半球(由?PFGM?作者提供)
我們看到,示例心形分布通過(guò)在每個(gè)點(diǎn)上遵循軌跡(如下面的黑色曲線(xiàn)所示)而演變?yōu)榘肭蚍植肌?/p>
對(duì)于數(shù)據(jù)中隨機(jī)選擇的幾個(gè)點(diǎn)(心形),我們看到將它們映射到半球的軌跡(黑色曲線(xiàn))(來(lái)源)
????????這個(gè)過(guò)程對(duì)我們有什么幫助?我們之前說(shuō)過(guò),很難從數(shù)據(jù)分布中抽樣,這是我們的最終目標(biāo)。從這個(gè)均勻的半球取樣并不困難。由于它是如此均勻和規(guī)則,我們只需隨機(jī)選擇其上的任何點(diǎn)即可從半球采樣。
????????讓我們利用這個(gè)事實(shí):我們不是嘗試直接對(duì)數(shù)據(jù)分布進(jìn)行建模并直接從中采樣,而是在均勻半球上對(duì)一個(gè)點(diǎn)進(jìn)行采樣,然后使用物理場(chǎng)將其映射回?cái)?shù)據(jù)分布。泊松流生成模型的目標(biāo)是學(xué)習(xí)軌跡曲線(xiàn),如上圖所示。這些曲線(xiàn)由物理定律產(chǎn)生,提供了兩個(gè)分布之間的映射。
????????由于正常的正向時(shí)間物理學(xué)將數(shù)據(jù)沿軌跡映射到半球,因此我們使用 PFGM 在時(shí)間上向后映射到另一個(gè)方向。我們沒(méi)有嘗試直接對(duì)數(shù)據(jù)的概率分布進(jìn)行建模,而是對(duì)復(fù)雜概率分布和簡(jiǎn)單半球分布之間的轉(zhuǎn)換進(jìn)行建模,我們可以輕松地從中選擇點(diǎn)。
我們了解物理定律如何在數(shù)據(jù)分布之間映射,以便從易于采樣的數(shù)據(jù)中生成新穎的圖像
????????整個(gè)過(guò)程如上圖所示??偨Y(jié)一下:
- 我們的最終目標(biāo)是新數(shù)據(jù)。我們無(wú)法通過(guò)直接從數(shù)據(jù)分布中采樣來(lái)達(dá)到目的,因?yàn)橹苯硬蓸犹珡?fù)雜了。
- 物理定律將這種復(fù)雜的數(shù)據(jù)分布轉(zhuǎn)化為簡(jiǎn)單的半球分布
- 我們的 PFGM 為我們特定的訓(xùn)練數(shù)據(jù)集學(xué)習(xí)這種轉(zhuǎn)換(即軌跡)。
- 然后我們從半球取樣,這很容易做到
- 一旦我們有了這個(gè)樣本,我們就會(huì)反向運(yùn)行物理,沿著我們剛剛學(xué)到的這些軌跡向后移動(dòng),得出數(shù)據(jù)分布,從而生成新的數(shù)據(jù)。
????????如果這令人困惑,請(qǐng)不要擔(dān)心 - 這是一個(gè)難以理解的概念。重要的部分是,物理學(xué)在我們想要的(新數(shù)據(jù))和我們可以輕松獲得的(半球數(shù)據(jù))之間架起了一座橋梁。
????????想了解更多關(guān)于PFGM的信息嗎?
查看我們的專(zhuān)用指南,其中更深入地解釋了它們的工作原理。
一探究竟我們也可以在其他領(lǐng)域利用這種方法——現(xiàn)在讓我們來(lái)看看我們?nèi)绾卫脽崃W(xué)來(lái)做到這一點(diǎn)。
3.2?具有熱力學(xué)的生成式 AI
????????熱力學(xué)可以看作是對(duì)隨機(jī)性的研究。例如,如果我們隨機(jī)地將一堆硬幣扔在地上,我們可以問(wèn)其中?50% 的單挑著地的概率與?100%?的單挑著地的概率相比如何。
????????讓我們看一下四枚硬幣的情況。其中?100%(四個(gè))單挑著陸的概率小于其中只有?50%(兩個(gè))單挑著陸的概率。這是因?yàn)橹挥袃擅队矌庞?strong>六種方式可以正面朝上,而所有四種硬幣只有一種方式可以正面朝上。
????????只有兩枚硬幣正面朝上有更多方法,因?yàn)樵趦擅?/strong>硬幣正面朝上方面有靈活性,而在四枚硬幣的情況下沒(méi)有這種靈活性——所有硬幣都必須正面朝上
????????在這種情況下,我們看到 50% 的硬幣被單挑的可能性是 100% 的?6 倍。如果我們將同樣的思想實(shí)驗(yàn)擴(kuò)展到十個(gè)硬幣,那么 50%(五個(gè))硬幣單挑落地的可能性是 100%(十個(gè))硬幣單挑落地的可能性的 252 倍。如果我們將其擴(kuò)展到僅 50 個(gè)硬幣,那么這個(gè)因素的可能性就會(huì)增加 126 萬(wàn)億倍。如果我們將這個(gè)概念擴(kuò)展到數(shù)十億個(gè)硬幣呢?
3.3 從硬幣到原子:擴(kuò)散
????????熱力學(xué)將原子鑄造為“硬幣”,并研究上述現(xiàn)象在物理系統(tǒng)中的后果。例如,如果將一滴食用色素放入一杯水中,食用色素會(huì)擴(kuò)散開(kāi)來(lái),最終在玻璃杯中形成均勻的顏色。為什么會(huì)這樣?
隨著時(shí)間的流逝,食用色素會(huì)自然擴(kuò)散,從而在玻璃杯中形成均勻的顏色(來(lái)源)
????????均勻的顏色是食用色素原子隨時(shí)間擴(kuò)散的結(jié)果。數(shù)十億個(gè)原子在不同的地方比所有原子在同一個(gè)地方的方式要多得多,就像50%的硬幣比100%的硬幣有更多的方式。當(dāng)所有原子都集中在一滴中時(shí),它們可以被認(rèn)為是“100%單挑”;當(dāng)原子均勻分布時(shí),它們可以被認(rèn)為是“50%的單挑”。
????????請(qǐng)記住,“50%的單挑”狀態(tài)更有可能發(fā)生,并且只會(huì)隨著硬幣數(shù)量的增加而變得更有可能?- 只有50個(gè)硬幣的可能性要高出126萬(wàn)億倍。當(dāng)我們將原子視為硬幣時(shí),我們必須記住,僅一滴食用色素中就有數(shù)萬(wàn)億個(gè)原子。有了這么多的原子,它們最終擴(kuò)散的可能性就變得比集中的液滴要大得多。因此,只需通過(guò)隨機(jī)運(yùn)動(dòng),當(dāng)液滴接近這種 50% 的均勻顏色狀態(tài)時(shí),液滴就會(huì)隨著時(shí)間的推移而擴(kuò)散開(kāi)來(lái)。
????????這個(gè)過(guò)程被稱(chēng)為擴(kuò)散,它啟發(fā)了 DALL-E 2 和 Stable Diffusion 等模型。
3.4 從原子到像素:生成式人工智能中的擴(kuò)散
????????正如熱力學(xué)將原子視為硬幣一樣,擴(kuò)散模型將圖像的像素視為原子。與食用色素的隨機(jī)運(yùn)動(dòng)總會(huì)導(dǎo)致顏色均勻類(lèi)似,像素的“隨機(jī)運(yùn)動(dòng)”總會(huì)導(dǎo)致“電視靜態(tài)”,即均勻食用色素的圖像等價(jià)物。
????????原子的隨機(jī)運(yùn)動(dòng)總是會(huì)導(dǎo)致均勻的顏色,而像素的隨機(jī)運(yùn)動(dòng)(即稍微改變它們的值)總是會(huì)導(dǎo)致電視靜止
????????重要的是,無(wú)論我們?cè)谀睦锓胖米畛醯氖秤蒙氐危S著時(shí)間的推移,所有可能的起始位置都會(huì)產(chǎn)生相同的均勻顏色的最終狀態(tài)。
隨著時(shí)間的流逝,所有起始掉落都接近相同的最終狀態(tài)
????????特別要注意的是,不可能向后走,找出這種均勻狀態(tài)的初始下降位置,因?yàn)樗谐跏紶顟B(tài)都會(huì)導(dǎo)致它。缺乏注入性使得一般情況下不可能倒退。
????????由于所有可能的下降都會(huì)導(dǎo)致相同的最終狀態(tài),因此在僅查看最終狀態(tài)時(shí)不可能知道初始下降的位置。
????????我們總是知道液滴在正向時(shí)間內(nèi)如何擴(kuò)散,但由于注入性問(wèn)題,我們不知道如何反向擴(kuò)散均勻著色。但是,如果我們將關(guān)注點(diǎn)歸結(jié)為一個(gè)特定的下降點(diǎn),那么我們可以在時(shí)間上向前和向后模擬這個(gè)過(guò)程。
????????如果我們只考慮一個(gè)初始滴點(diǎn)位置,那么我們可以成功地模擬隨時(shí)間向前和向后的擴(kuò)散過(guò)程
????????擴(kuò)散模型在圖像域中使用相同的原理。特別是,擴(kuò)散模型的不同“液滴”對(duì)應(yīng)于不同類(lèi)型的圖像。例如,這些水滴可以對(duì)應(yīng)于狗的圖像、人類(lèi)的圖像和手寫(xiě)數(shù)字的圖像。
每種類(lèi)型的圖像(狗臉、人臉、數(shù)字)都類(lèi)似于液體中不同的初始“滴”
????????通過(guò)只選擇一種類(lèi)型的圖像,比如狗的圖像,擴(kuò)散模型可以學(xué)會(huì)為這種類(lèi)型的圖像及時(shí)倒退,就像我們?nèi)绾瓮ㄟ^(guò)只選擇一滴來(lái)學(xué)習(xí)從統(tǒng)一的顏色中倒退一樣。
通過(guò)只選擇一種類(lèi)型的圖像,在本例中為狗的圖像,我們可以學(xué)會(huì)從電視靜態(tài)到狗的圖像的時(shí)間倒退
3.5 使用擴(kuò)散模型生成圖像
????????可能還不清楚我們?yōu)槭裁匆@樣做——如果我們有一個(gè)狗的圖像數(shù)據(jù)集,我們?yōu)槭裁匆襁@樣前進(jìn)和后退?答案在于,正上方的圖略帶欺騙性——狗的特定圖像與食用色素的滴度不同——它是狗的整個(gè)類(lèi)別的圖像類(lèi)似于食用色素的滴落。
????????狗的特定圖像實(shí)際上類(lèi)似于食用色素滴中的特定原子。從上面回想一下,將我們的關(guān)注點(diǎn)歸結(jié)為最初的一滴,使我們能夠在時(shí)間上向前和向后模擬擴(kuò)散過(guò)程。
????????從上面,我們看到,專(zhuān)注于一個(gè)特定的起始落點(diǎn)可以讓我們對(duì)正向和反向時(shí)間的動(dòng)態(tài)進(jìn)行建模
????????了解擴(kuò)散過(guò)程在逆時(shí)中是如何工作的,使我們能夠?qū)?strong>單個(gè)原子追溯到它們?cè)谝旱沃械钠瘘c(diǎn)。特別是,我們從均勻的食用色素中隨機(jī)挑選一個(gè)原子,然后逆轉(zhuǎn)時(shí)間,看看它從哪里開(kāi)始。
????????選擇一滴可以讓我們?cè)谙喾吹臅r(shí)間內(nèi)模擬擴(kuò)散,這使我們能夠?qū)蝹€(gè)原子追溯到它們的起始位置
????????我們用擴(kuò)散模型來(lái)模擬這個(gè)過(guò)程。類(lèi)似地,我們隨機(jī)選擇一張電視靜態(tài)圖像(“原子”),然后通過(guò)時(shí)間倒流來(lái)找出它在數(shù)據(jù)分布中的起點(diǎn)(“初始下降”)。也就是說(shuō),我們確定哪個(gè)狗的圖像導(dǎo)致了該電視靜態(tài)圖像。
????????圖像就像原子 - 我們使用一組特定類(lèi)型(例如狗)的示例(訓(xùn)練數(shù)據(jù))來(lái)了解擴(kuò)散過(guò)程如何適用于該類(lèi)型的任何特定圖像。然后,我們隨機(jī)選擇一張電視靜態(tài)圖像(不在訓(xùn)練數(shù)據(jù)中),并利用這些知識(shí)生成新穎的圖像。
????????想了解更多關(guān)于擴(kuò)散模型的信息嗎?
????????查看我們的專(zhuān)用指南,其中更深入地解釋了它們的工作原理。
????????這個(gè)過(guò)程與PFGM非常相似。借助 PFGM,我們對(duì)將數(shù)據(jù)分布映射到均勻半球的物理場(chǎng)進(jìn)行了建模。由于半球很容易采樣,我們?cè)谏厦孢x擇一個(gè)點(diǎn),并在逆時(shí)運(yùn)行物理場(chǎng)以生成新圖像。通過(guò)擴(kuò)散模型,我們對(duì)將數(shù)據(jù)分布映射到電視靜態(tài)的物理場(chǎng)進(jìn)行建模。由于電視靜態(tài)很容易生成,因此我們隨機(jī)選擇一張電視靜態(tài)圖像,并在逆時(shí)運(yùn)行物理以生成新圖像。
從數(shù)據(jù)分布中采樣是困難的,但從電視靜態(tài)分布中采樣則不然。注意到物理學(xué)將前者轉(zhuǎn)化為后者,我們使用反時(shí)間物理學(xué)將后者的樣本轉(zhuǎn)換為前者的樣本。
擴(kuò)散模型是生成式人工智能在圖像領(lǐng)域取得很大進(jìn)展的基礎(chǔ)。像 Imagen?和?DALL-E 2?這樣的文本到圖像模型增強(qiáng)了這一過(guò)程,使我們能夠告訴模型我們希望生成的圖像是什么樣子。
四、最后的話(huà)
????????人工智能的許多最新進(jìn)展都受到物理學(xué)思想的啟發(fā)。正如我們所看到的,這些高級(jí)思想是生成式人工智能現(xiàn)代方法的基礎(chǔ),為最新一代的人工智能模型提供動(dòng)力。
????????如果您喜歡這篇文章,請(qǐng)隨時(shí)查看我們的其他一些文章,以了解大型語(yǔ)言模型的涌現(xiàn)能力或?ChatGPT 的實(shí)際工作原理?;蛘?,請(qǐng)隨時(shí)訂閱我們的時(shí)事通訊,以便在我們發(fā)布此類(lèi)新內(nèi)容時(shí)隨時(shí)了解情況。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-795534.html
參考資料:How physics advanced Generative AI文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-795534.html
到了這里,關(guān)于物理學(xué)如何推動(dòng)生成式 AI 的發(fā)展的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!