国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

這篇具有很好參考價(jià)值的文章主要介紹了ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

ICLR’22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

成電研一er本周論文詳細(xì)解讀
全文1w字+,請(qǐng)耐心閱讀,望對(duì)你的研究有所幫助!

Coordination Among Neural Modules Through a Shared Global Workspace基本信息

論文下載鏈接:https://arxiv.org/abs/2103.01197v2
發(fā)布時(shí)間信息:
[v1] Mon, 1 Mar 2021 18:43:48 UTC (2,119 KB)
[v2] Tue, 22 Mar 2022 21:31:37 UTC (2,678 KB)

ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

摘要

深度學(xué)習(xí)已經(jīng)從用單一隱藏狀態(tài)表示示例的方法轉(zhuǎn)向了使用豐富結(jié)構(gòu)化狀態(tài)的方法。例如,Transformer通過位置進(jìn)行分段,面向?qū)ο蟮募軜?gòu)將圖像分解為實(shí)體。在所有這些架構(gòu)中,不同元素之間的交互通過成對(duì)交互進(jìn)行建模:Transformer利用自注意力來將來自其他位置的信息合并,面向?qū)ο蟮募軜?gòu)利用圖神經(jīng)網(wǎng)絡(luò)來建模實(shí)體之間的交互。我們考慮如何通過全局協(xié)調(diào)和一致的綜合表示來改進(jìn)成對(duì)交互,以便用于下游任務(wù)。在認(rèn)知科學(xué)中,提出了一種全局工作空間架構(gòu),其中功能專業(yè)化的組件通過一個(gè)共享的、帶寬有限的通信通道共享信息。我們探討了在深度學(xué)習(xí)中使用這種通信通道來模擬復(fù)雜環(huán)境的結(jié)構(gòu)的方法。所提出的方法包括一個(gè)共享的工作空間,不同的專業(yè)模塊之間通過它進(jìn)行通信,但由于通信帶寬的限制,專業(yè)模塊必須爭(zhēng)奪訪問權(quán)。我們表明,容量限制具有合理的基礎(chǔ),因?yàn)?1)它們鼓勵(lì)專業(yè)化和組合性,(2)它們促進(jìn)了本來獨(dú)立的專家的同步。

1.引言

深度學(xué)習(xí)已經(jīng)朝著更加結(jié)構(gòu)化的模型方向發(fā)展,不同信息被不同組件處理并分離開來。這種引入的結(jié)構(gòu)和知識(shí)分離提高了泛化能力、模型規(guī)模擴(kuò)展以及長(zhǎng)程依賴性(Berner等,2019; Vinyals等,2019; Brown等,2020)。這也引發(fā)了如何在這種架構(gòu)中實(shí)現(xiàn)不同組件之間的協(xié)調(diào)和統(tǒng)一性的問題?;仡櫟缴蟼€(gè)世紀(jì)80年代,AI的關(guān)注點(diǎn)不是在學(xué)習(xí)上而是在構(gòu)建多組件體系結(jié)構(gòu)上,并研究智能是如何從這些簡(jiǎn)單、功能專一的組件相互作用中產(chǎn)生的(Fodor,1983; Braitenberg,1986; Minsky,1988; Brooks,1991)。這些專業(yè)模塊中的每一個(gè)都是計(jì)算機(jī)程序的典型組件,就像一個(gè)子程序,它實(shí)現(xiàn)了從特定的輸入內(nèi)容到特定的輸出內(nèi)容的一個(gè)狹窄的、預(yù)先指定的功能。通過適當(dāng)?shù)耐ㄐ藕蛥f(xié)調(diào),一組專家可以實(shí)現(xiàn)復(fù)雜、動(dòng)態(tài)和靈活的行為模式。

ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
圖1:
步驟1:一組專門模塊執(zhí)行它們自己的默認(rèn)處理; 在特定的計(jì)算階段,專家的子集根據(jù)輸入變得活躍。 步驟2:活躍的專家可以在共享的全局工作區(qū)中寫入信息。 步驟3:向所有專家廣播工作區(qū)的內(nèi)容。

舉個(gè)具體的例子,考慮一下專家駕駛汽車的任務(wù)。一個(gè)專家可能會(huì)根據(jù)道路上的線路監(jiān)控汽車的位置,另一個(gè)專家可能會(huì)根據(jù)感知數(shù)據(jù)調(diào)整駕駛方向。此外,當(dāng)某些事件發(fā)生時(shí),比如響亮的聲音,到達(dá)路線上的關(guān)鍵十字路口,或接近前面的汽車時(shí),可能會(huì)有專家提供警報(bào)。為了正確地執(zhí)行駕駛汽車的任務(wù),所有這些專家需要協(xié)調(diào)地交互,并相互傳播各自的信息。

可以說,現(xiàn)代ML和人工智能尚未開發(fā)出廣泛的體系結(jié)構(gòu)框架,用于學(xué)習(xí)專業(yè)模塊以及它們應(yīng)該如何交互,而經(jīng)典觀點(diǎn)缺乏一個(gè)清晰的故事,說明如何在這些框架中成功地進(jìn)行學(xué)習(xí)。在本文中,我們將利用基于端到端學(xué)習(xí)、可微記憶和注意力機(jī)制的現(xiàn)代機(jī)器學(xué)習(xí)工具,重新審視這一經(jīng)典觀點(diǎn)。受認(rèn)知神經(jīng)科學(xué)中的全局工作空間理論的啟發(fā)(Baars,1993; Dehaene et al.,1998; Shanahan and Baars,2005; Shanahan,2006; 2010; 2012; Dehaene et al.,2017),我們認(rèn)為,如果專家的訓(xùn)練鼓勵(lì)他們通過共享工作空間的瓶頸有效地相互通信,那么專家系統(tǒng)的架構(gòu)將產(chǎn)生更大的靈活性和泛化能力。(如圖1)。

1.1 分布式專家模塊

從計(jì)算的角度來看,由稀疏相互作用的專家模塊組成的復(fù)雜多組件架構(gòu)具有良好的可擴(kuò)展性(例如,可以無(wú)縫添加更多的專家模塊)、更高的魯棒性(系統(tǒng)可以容忍個(gè)別專家模塊的刪除或更改)和更高的效率(信息主要在本地處理,減少了專家模塊之間通信的成本)。但是,模塊化還需要建立跨專家模塊之間的共享兼容表示形式的機(jī)制,這是一種共享的內(nèi)部語(yǔ)言。 雖然任務(wù)的某些部分可能會(huì)由獨(dú)立的專家模塊解決,但當(dāng)專家模塊之間存在統(tǒng)計(jì)、功能或因果依賴關(guān)系時(shí),同步是至關(guān)重要的。

1.2 通過共享的工作空間實(shí)現(xiàn)一致性

共享工作空間的一致性。在認(rèn)知神經(jīng)科學(xué)中,全局工作空間理論(GWT)(Baars,1993;Dehaene等,2017)提出了一種允許專家模塊之間相互作用的架構(gòu)。 GWT的關(guān)鍵觀點(diǎn)是存在一個(gè)共享表示,有時(shí)稱為黑板,有時(shí)稱為工作空間,可以被任何專家模塊修改,并且將被廣播到所有專家模塊,同時(shí)寫入訪問受限以保持一致性。 我們對(duì)寫訪問限制的解釋是,它源于高級(jí)概念之間聯(lián)合分布的一種假設(shè)。在本文中,我們探討了一種類似于GWT提出的通信和協(xié)調(diào)方案,適用于現(xiàn)代神經(jīng)網(wǎng)絡(luò)架構(gòu),如Transformer(Vaswani等,2017;Dehghani等,2018;Parmar等,2018;Radford等,2019;Brown等,2020)和基于注意力的模塊化架構(gòu)(Goyal等,2019;Rahaman等,2020;Mittal等,2020a;Goyal等,2020;Madan等,2021)。

在我們的示例中,工作空間可以用于通過優(yōu)先考慮提供各種警報(bào)的專家模塊(響亮的聲音、街上有孩子的存在)來覆蓋默認(rèn)行為,從而允許響應(yīng)此類警報(bào)的專家模塊接管行為,以取代默認(rèn)的駕駛例程。這種情況意味著在共享工作空間中對(duì)信號(hào)進(jìn)行優(yōu)先級(jí)排序至關(guān)重要。

1.3 共享的通信通道需要通用的表示

要讓眾多的專業(yè)模塊進(jìn)行合作,需要一種共同的語(yǔ)言(Baars, 1997)。例如,在駕駛場(chǎng)景中,警報(bào)可能來自聽覺或視覺處理專家,但無(wú)論來源如何,都必須在工作空間中放置危險(xiǎn)信號(hào),以覆蓋默認(rèn)行為,無(wú)論該行為是由無(wú)線電調(diào)諧專家還是駕駛專家控制的。雖然專業(yè)模塊可以預(yù)先連接到兼容的通信接口上,但我們將對(duì)一個(gè)體系結(jié)構(gòu)進(jìn)行建模,在這個(gè)體系結(jié)構(gòu)中,一組專業(yè)模塊經(jīng)過協(xié)調(diào)訓(xùn)練,這應(yīng)該會(huì)導(dǎo)致一種共享的語(yǔ)言(Colagrosso和Mozer, 2005)。在內(nèi)部,個(gè)別專家可以使用為他們服務(wù)的任何形式的表示,但他們的輸入和輸出需要與其他專家保持一致,以便同步。例如,一個(gè)不尋常的事件,比如車輪下的重?fù)袈?,可能之前沒有經(jīng)歷過,但僅僅是新奇的信號(hào)就可能壓倒違約專家。如果沒有一個(gè)全局溝通渠道,專家們將不得不學(xué)習(xí)通過兩兩互動(dòng)進(jìn)行溝通,這可能會(huì)限制在新情況下的行為協(xié)調(diào):全局溝通確保了知識(shí)的可交換性,以實(shí)現(xiàn)系統(tǒng)的泛化。

圖2:ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
圖2:使用共享工作區(qū)在RIMS、Transformers、TIMS和Universal Transformers (UT)中創(chuàng)建全局一致性。 (上半部分)所有這四個(gè)架構(gòu)都使用成對(duì)通信(使用關(guān)鍵值關(guān)注)來建立各個(gè)專業(yè)模塊之間的一致性。在RIMS(Goyal et al.,2019)和TIMS(Lamb et al.,2021)中,這些專家是相互競(jìng)爭(zhēng)的獨(dú)立模塊,不同的專家模塊在輸入數(shù)據(jù)的基礎(chǔ)上進(jìn)行競(jìng)爭(zhēng),以確定哪個(gè)模塊將控制狀態(tài)更新。在Transformers(Vaswani et al.,2017)和Universal Transformers(Dehghani et al.,2018)的案例中,每個(gè)專家模塊都與不同的位置相關(guān)聯(lián)。激活的專家用藍(lán)色陰影表示,強(qiáng)度取決于激活的程度。 在Universal Transformers的情況下,每個(gè)位置的狀態(tài)更新動(dòng)態(tài)在所有層和所有位置上共享(用黃色三角形表示)。(下半部分)我們用一個(gè)共享的工作空間來代替兩兩交流,從而在不同的專家之間建立全局一致性。使用共享工作區(qū)的通信是一個(gè)兩步過程(如圖中1和2所示)。 在第一步(1)中,專家爭(zhēng)奪對(duì)共享工作區(qū)的寫訪問權(quán),導(dǎo)致其中的一個(gè)子集被激活(藍(lán)色),并且只有被激活的專家在工作區(qū)上執(zhí)行寫操作。 在第二步(2)中,共享工作區(qū)的內(nèi)容被廣播給所有專家。

2.通過共享工作空間同步神經(jīng)模塊

我們研究了一種神經(jīng)結(jié)構(gòu),類似于GW模型,其中多個(gè)稀疏通信的專業(yè)模塊通過共享的工作記憶進(jìn)行交互。特別地,我們通過添加共享工作空間并允許模塊(每個(gè)代表一個(gè)實(shí)體)在每個(gè)計(jì)算階段競(jìng)爭(zhēng)寫入訪問來擴(kuò)展Transformer(Vaswani等人,2017)、注意力和基于插槽的模塊化結(jié)構(gòu)(Goyal等人,2019)。

鍵值注意力是該模型中隱藏狀態(tài)更新的核心。這種注意力廣泛用于自我注意力模型,并在各種任務(wù)中表現(xiàn)出色(Bahdanau等人,2014;Vaswani等人,2017;Santoro等人,2018)。鍵值注意力基于查詢向量與每個(gè)值關(guān)聯(lián)的鍵向量的匹配選擇輸入值。為了允許微分,從而更易于學(xué)習(xí),選擇是軟性的,并計(jì)算所有值的凸組合。這種機(jī)制使得可以動(dòng)態(tài)改變輸入來源和共享工作空間的更新方式。它還使得專業(yè)人員的輸出和記憶元素成為置換不變量:它們應(yīng)該被視為從專業(yè)人員的內(nèi)容中由注意力機(jī)制選擇的一個(gè)無(wú)序元素集合。更確切地說,軟性注意力使用查詢的乘積(表示為維度為 N r × d Nr×d Nr×d的矩陣Q,其中 N r Nr Nr個(gè)查詢, d d d是每個(gè)查詢的維度)與每個(gè)對(duì)象相關(guān)聯(lián)的鍵作為矩陣 K T K^T KT ( N o × d ) (No×d) No×d中的一行。經(jīng)過softmax標(biāo)準(zhǔn)化后,得到的凸權(quán)重用于合并值Vi(矩陣V的第i行):softmax應(yīng)用于其參數(shù)矩陣的每一行,產(chǎn)生一組凸權(quán)重。在我們的實(shí)驗(yàn)中,我們使用多頭點(diǎn)積注意力。

2.1 神經(jīng)模塊的成對(duì)交互

我們的神經(jīng)模塊同步方法非常通用,幾乎不受任務(wù)、領(lǐng)域或特定架構(gòu)的限制,唯一的要求是模型由多個(gè)專業(yè)模塊組成,它們要么獨(dú)立操作,要么具有僅需成對(duì)匹配模塊的稀疏交互。我們的目標(biāo)是探索如何引入共享工作空間可以幫助這些模塊變得更好地同步和協(xié)調(diào)。我們展示了共享工作空間在同步方面的實(shí)用性,包括(a) Transformers(Vaswani等人,2017),在這種情況下,位置之間的所有交互都是通過注意力完成的,以及(b) 類似于RIM(Goyal等人,2019)的基于插槽的架構(gòu),其中所有模塊之間的成對(duì)交互都是通過注意力完成的。在基于插槽的架構(gòu)中,每個(gè)插槽的內(nèi)容與一個(gè)專業(yè)模塊相關(guān)聯(lián),而在Transformers中,與不同位置相關(guān)聯(lián)的不同實(shí)體充當(dāng)專業(yè)模塊(圖2)。

Transformers和RIMs都利用自注意機(jī)制在模塊之間共享信息,通常以成對(duì)的方式實(shí)現(xiàn),即每個(gè)專業(yè)模塊都關(guān)注其他每個(gè)專業(yè)模塊。相反,我們通過一個(gè)容量有限的共享工作空間來促進(jìn)專業(yè)模塊之間的信息共享。在這個(gè)框架中,在每個(gè)計(jì)算階段,不同的專業(yè)模塊競(jìng)爭(zhēng)訪問共同的工作空間。而工作空間的內(nèi)容則同時(shí)廣播到所有專業(yè)模塊。

2.2 符號(hào)表示

輸入經(jīng)過一系列計(jì)算階段進(jìn)行處理,這些階段由 t t t索引,每個(gè)階段都對(duì) n s n_s ns?個(gè)實(shí)體進(jìn)行操作(例如,在基于插槽的體系結(jié)構(gòu)(如RIM)中有 n s n_s ns?個(gè)不同的模塊,在Transformer的情況下有 n s n_s ns?個(gè)不同的位置[即 n s n_s ns?個(gè)token])。這些 n s n_s ns?個(gè)專家模塊中的每一個(gè)都具有不同的內(nèi)部 n h n_h nh?維狀態(tài) h t k h_t^k htk?,其中 k ∈ 1 , . . . , n s k∈{1,...,n_s} k1...,ns?。專家模塊通過共享的工作空間相互通信,該空間被分為 n m n_m nm?個(gè)內(nèi)存插槽,每個(gè)插槽包含一個(gè)包含 n l n_l nl?個(gè)元素的向量,表示為M = [ m 1 m_1 m1?; . . . m j m_j mj?; . . . m ( n m ) m_(n_m) m(?nm?)] 。共享工作空間在不同的計(jì)算階段更新,即在遞歸體系結(jié)構(gòu)中的不同時(shí)間步長(zhǎng)和在Transformer的不同層中。在每個(gè)計(jì)算階段t中,不同的專家模塊競(jìng)爭(zhēng)寫入共享工作空間,但所有專家模塊都可以從當(dāng)前狀態(tài)的工作空間中讀取。對(duì)于自回歸任務(wù),我們可以將信息共享限制在前面的位置,并為每個(gè)位置保留單獨(dú)的工作空間版本。
理解 :對(duì)于transformer而言,每一個(gè)encoder層都會(huì)進(jìn)行一次共享工作空間的更新。
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
n m n_m nm?行, n l n_l nl?列的共享空間
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

2.3 三個(gè)步驟

步驟1:處理輸入以獲取每個(gè)專家的實(shí)體表示

第一步是提議方法之外的內(nèi)容,它涉及處理輸入以形成不同專家的初始表示向量??梢允褂貌煌某R娚疃葘W(xué)習(xí)架構(gòu)來形成不同專家的表示。例如,Transformers從一個(gè)矩陣 n s × n h n_s×n_h ns?×nh?開始,其行被初始化為序列每個(gè)位置的 n h n_h nh?維嵌入。基于插槽的遞歸架構(gòu)(如RIMs)由單層遞歸結(jié)構(gòu)組成,在計(jì)算階段t的隱藏狀態(tài) h t h_t ht?被分解為 n s n_s ns?個(gè)專家的子狀態(tài) h t k ( k = 1 , . . . , n s ) h_t^k(k=1,...,n_s) htk?k=1...,ns?

在提議的方案中,在每個(gè)計(jì)算階段內(nèi),不同專家的隱藏狀態(tài)更新遵循兩個(gè)步驟的過程。首先,專家們競(jìng)爭(zhēng)并寫入共享工作空間。其次,來自工作空間的信息被廣播到所有專家,如下所述。

步驟2:將信息寫入共享工作空間

各個(gè)專家競(jìng)爭(zhēng)將信息寫入共享工作空間,其中共享工作空間的內(nèi)容需要根據(jù)來自不同專家的新信息進(jìn)行更新。這一步確保只有關(guān)鍵信號(hào)才能進(jìn)入共享工作空間,從而防止工作空間混亂。讓矩陣R表示所有專家的組合狀態(tài)(即, h t k ? k ∈ 1 , . . . , n s h_t^k ?k ∈ {1,...,n_s} htk??k1,...,ns?作為R的行)。為了實(shí)現(xiàn)專家之間競(jìng)爭(zhēng)將信息寫入工作空間,我們使用一個(gè)鍵-查詢-值注意機(jī)制。在這種情況下,查詢是當(dāng)前工作空間存儲(chǔ)內(nèi)容狀態(tài)的函數(shù),由矩陣M表示(一行表示一個(gè)記憶存儲(chǔ)槽),即,ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
鍵和值是專家信息的函數(shù),即由R表示的函數(shù)。我們應(yīng)用點(diǎn)積注意力機(jī)制來得到更新的記憶矩陣:
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
使用普通的softmax來寫入M會(huì)導(dǎo)致不同專家之間進(jìn)行標(biāo)準(zhǔn)的軟競(jìng)爭(zhēng)以寫入共享工作空間。我們也可以使用top-k softmax(Ke等人,2018)來選擇允許寫入共享工作空間的固定數(shù)量的專家:基于softmax之前的值,選擇具有最高值的固定數(shù)量k的專家,讓他們可以寫入共享工作空間。使用top-k softmax進(jìn)行選擇是硬選擇和軟選擇的混合方式。我們將所選的專家集合表示為 F t F_t Ft?。值得注意的是,我們可以多次應(yīng)用注意機(jī)制,將不同專家的信息提煉到共享工作空間中。在這里,共享工作空間的內(nèi)容以RMC(Santoro等人,2018)中提出的門控方式進(jìn)行更新。請(qǐng)參閱附錄C節(jié)了解更多細(xì)節(jié)。

步驟3:從共享工作空間中廣播信息

ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace

2.4 共享工作空間促進(jìn)的交互的好處

用共享工作空間促進(jìn)的交互代替神經(jīng)模塊之間的成對(duì)交互,可以實(shí)現(xiàn)以下功能:

1. 神經(jīng)模塊之間的高階交互

共享工作空間中的兩步寫入-讀取過程首先允許每個(gè)內(nèi)存插槽存儲(chǔ)當(dāng)前輸入的“filtered summary”,其中“過濾器”由該插槽的先前狀態(tài)(寫入步驟的“查詢”)確定。然后神經(jīng)模塊總結(jié)這些插槽中包含的信息并更新它們的狀態(tài)。因此,與成對(duì)交互不同,在共享工作空間設(shè)置中神經(jīng)模塊之間傳遞的消息也包括高階交互項(xiàng),即同時(shí)包含多個(gè)模塊的交互項(xiàng)。自然而然地,高階交互需要在神經(jīng)模塊之間傳遞的消息處于同一表示空間中,這正是我們通過僅允許通過單一全局通道進(jìn)行消息傳遞所要實(shí)現(xiàn)的。

2. 基于內(nèi)存持久性的動(dòng)態(tài)過濾

在共享工作空間SW中,記憶槽的內(nèi)容在某個(gè)時(shí)間步中在過濾和總結(jié)當(dāng)前輸入信息方面起著關(guān)鍵作用。內(nèi)存的持久性貫穿整個(gè)情節(jié),1)使內(nèi)存層能夠根據(jù)其到目前為止看到的內(nèi)容對(duì)信息進(jìn)行總結(jié)和過濾,2)理想情況下應(yīng)該能夠?qū)崿F(xiàn)更好的泛化性能,因?yàn)槟P湍軌驗(yàn)樘囟ǖ妮斎雱?dòng)態(tài)修改其過濾機(jī)制。相比之下,Set Transformers(Lee等,2019)中的“誘導(dǎo)點(diǎn)”在訓(xùn)練后是固定的,因此瓶頸無(wú)法針對(duì)任何新的輸入進(jìn)行實(shí)時(shí)調(diào)整。我們?cè)诘?節(jié)中展示了幾項(xiàng)任務(wù)的比較。通過將共享工作空間的性能與a)2×Self-Attention(以模擬無(wú)全局通信的高階交互)和b)沒有內(nèi)存持久性的版本進(jìn)行比較,我們展示了這兩個(gè)屬性的重要性(in Appendix D)。

共享工作空間用于同步不同專家的計(jì)算復(fù)雜度。為了鼓勵(lì)全局協(xié)調(diào),Transformer和基于插槽的循環(huán)架構(gòu)依賴于通過注意機(jī)制捕獲的成對(duì)交互(傳統(tǒng)方法)。不幸的是,這種注意機(jī)制的計(jì)算復(fù)雜度隨著專家數(shù)量的增加呈二次增長(zhǎng)。在這里,我們提出了一種方法,使用共享工作空間創(chuàng)建不同專家之間的全局一致性,并在此過程中替換傳統(tǒng)點(diǎn)積注意力的成對(duì)交互。因此,所提出方法的計(jì)算復(fù)雜度與專家數(shù)量成線性關(guān)系(本文方法)。在我們的實(shí)驗(yàn)中,記憶槽的數(shù)量基本上是恒定的,這表明這種方法具有非常良好的可擴(kuò)展性,而且明顯比二次復(fù)雜度更低。作為一個(gè)參考點(diǎn),人類工作記憶槽的數(shù)量(Baars,1993)實(shí)際上非常?。ú坏?0個(gè)槽)。

3. 相關(guān)工作

這項(xiàng)工作借鑒了歷史上一些學(xué)者的思路,例如 Minsky (1988)、Braitenberg (1986) 和 Fodor (1983),他們認(rèn)為,為了能夠應(yīng)對(duì)各種條件和任務(wù),一個(gè)智能系統(tǒng)應(yīng)該由許多相互作用的專業(yè)模塊或程序組成,而不是一個(gè)單一的“一刀切”的實(shí)體。盡管模塊化架構(gòu)已經(jīng)是許多研究方向的研究對(duì)象,如 Jacobs 等人 (1991)、Bottou 和 Gallinari (1991)、Ronco 等人 (1997)、Reed 和 De Freitas (2015)、Andreas 等人 (2016)、Rosenbaum 等人 (2017)、Fernando 等人 (2017)、Shazeer 等人 (2017)、Rosenbaum 等人 (2019) 和 Goyal 和 Bengio (2020),但我們?cè)谶@里專注于通過在所有專家之間共享全局工作空間來實(shí)現(xiàn)專家模塊之間的協(xié)調(diào)和同步的機(jī)制。

此前已有研究探討了在循環(huán)神經(jīng)網(wǎng)絡(luò)(Graves等人,2014;2016;Santoro等人,2018)中引入基于插槽的記憶的方法。在transformers,中,Burtsev和Sapunov(2020)引入了存儲(chǔ)記憶令牌并將其與序列令牌一起處理的方法,而Dai等人(2019)(Transformer-XL)則提出將長(zhǎng)序列分為較小的段,并在處理當(dāng)前段時(shí)使用先前段的激活狀態(tài)進(jìn)行記憶。在此基礎(chǔ)上,Rae等人(2019)提出了將先前段的激活狀態(tài)存儲(chǔ)在壓縮記憶中的方法。然而,這些方法并沒有限制記憶寫入的稀疏性和競(jìng)爭(zhēng)性。最近在這個(gè)方向上的一些研究包括全局神經(jīng)工作空間(GNW)模型(Dehaene和Changeux,2011),該模型將全局工作空間確定為由具有長(zhǎng)程軸突過程的興奮性金字塔形神經(jīng)元網(wǎng)絡(luò)連接額葉和頂葉皮層。

此外,使用共享工作空間以建立不同專家之間的協(xié)調(diào)性而不是使用all-pair communication具有額外的好處,因?yàn)樗试S我們解決自我注意力的 O ( n 2 ) O(n^2) O(n2)復(fù)雜度問題。這使得我們的工作與Transformer中降低點(diǎn)積注意力計(jì)算復(fù)雜度的先前工作有關(guān)。Lee等人(2019)引入了ISAB模塊,該模塊在集合之間進(jìn)行映射并包含兩個(gè)點(diǎn)積注意力層。在第一層中,使用一組可訓(xùn)練參數(shù)作為查詢,將輸入集合的元素作為鍵;在第二層中,將第一層的輸出作為鍵,并將輸入集合作為查詢。然而,與本文不同的是,中間狀態(tài)(對(duì)應(yīng)于第一層的輸出)在不同層之間不保持。

與我們的工作同時(shí)進(jìn)行的(Jaegle等人,2021)還介紹了使用潛在瓶頸來解決二次復(fù)雜度的想法,但存在重要的差異。例如,在Perceiver中,潛在瓶頸迭代地查詢有關(guān)不同位置的信息,并且不維護(hù)不同專家的表示。更具體地說,在我們提出的方法中,不同的專家將信息寫入工作空間,然后從共享工作空間中讀取信息。在Perceiver中,潛在瓶頸迭代地從一組位置讀取信息。我們還展示了所提出的想法在基于插槽的模型和變換器中的適用性。
理解與的不同點(diǎn):在Perceiver中,潛在瓶頸是一種將輸入向量映射為較小向量的函數(shù),通過多次迭代來獲取輸入的全局信息。在這個(gè)過程中,潛在瓶頸會(huì)查詢不同位置的信息,但不會(huì)維護(hù)不同專家的表示。因此,在Perceiver中,不同的專家不能寫入信息。

所提出的模型可以看作是將模塊化結(jié)構(gòu)(Andreas等人,2016;Goyal等人,2019)、記憶網(wǎng)絡(luò)(Graves等人,2014;Santoro等人,2018)和專家混合模型(Jacobs等人,1991)等不同的思想進(jìn)行了整合,從而在一個(gè)統(tǒng)一的架構(gòu)中結(jié)合了它們的優(yōu)點(diǎn)。該模型被分解為一組專家(融合了模塊化的特點(diǎn))。通過使用共享工作空間,該模型在不同的專家之間實(shí)現(xiàn)了協(xié)調(diào)(在神經(jīng)圖靈機(jī)中,只有一個(gè)單獨(dú)的專家,即沒有任何模塊化)。多個(gè)專家可以同時(shí)活躍(通常在專家混合模型中不是這種情況)。

4.實(shí)驗(yàn)

在這里,我們簡(jiǎn)要概述了應(yīng)用共享工作空間思想的任務(wù),并引導(dǎo)讀者參考附錄獲取更多實(shí)驗(yàn) (附錄G),包括每個(gè)任務(wù)的詳細(xì)說明和模型的超參數(shù)設(shè)置。這些實(shí)驗(yàn)旨在:(a)展示共享工作空間的應(yīng)用可以在多種具有挑戰(zhàn)性的基準(zhǔn)任務(wù)中提高模型的結(jié)果,以此證明該技術(shù)的實(shí)用性和廣泛性;(b)展示共享工作空間可以通過提高模型性能而不需要全部成對(duì)交互,解決不同專家之間的協(xié)調(diào)問題。最后,為了展示我們模型的廣泛適用性,我們將共享工作空間整合到TIMs (Lamb等,2021)、SCOFF (Goyal等,2020)和BRIMs (Mittal等,2020)中,并展示了在每個(gè)模型的默認(rèn)通信方法上的改進(jìn)。

4.1 通過使用共享工作空間來理解視覺輸入

使用共享工作空間在不同專家之間共享信息時(shí)引入了瓶頸。由于工作空間的大小通常比專家數(shù)量小得多,因此可以交換的信息量是有限的。我們假設(shè)通過有限容量的工作空間進(jìn)行通信應(yīng)該會(huì)鼓勵(lì)模型關(guān)注下游目標(biāo)所必需的相關(guān)信息。我們?cè)谝唤M具有視覺挑戰(zhàn)性的基準(zhǔn)測(cè)試上測(cè)試了這個(gè)假設(shè)。在我們的實(shí)驗(yàn)中,我們使用Transformers或RIMs作為骨干網(wǎng)絡(luò)。我們考慮基于不同重要屬性的Transformers變體。

  1. Transformers [TR]:基于自注意力的多層架構(gòu)(Vaswani等,2017),層之間共享參數(shù)。
  2. Set transformer [ISAB]:將自注意力替換為ISAB模塊(Lee et al.,2019)的Transformer變體。
  3. Sparse Transformers [STR]:使用注意力矩陣的稀疏因式分解(Child et al.,2019)的Transformer變體。
  4. High Capacity Transformers [TR+HC]:與TR相同,但在不同層使用不同的參數(shù)。
  5. 帶有軟競(jìng)爭(zhēng)機(jī)制的共享工作區(qū)Transformer [TR+SSW]:使用軟競(jìng)爭(zhēng)機(jī)制,不同位置的Transformer之間相互競(jìng)爭(zhēng)寫入共享工作區(qū)。
  6. 帶有top-k競(jìng)爭(zhēng)機(jī)制的共享工作區(qū)Transformer [TR+HSW]:使用top-k競(jìng)爭(zhēng)機(jī)制,不同位置的Transformer之間相互競(jìng)爭(zhēng)寫入共享工作區(qū)。

有關(guān)所有下面描述的任務(wù)的更詳細(xì)說明,請(qǐng)參閱附錄部分E。

4.2 檢測(cè)等邊三角形

我們首先使用一個(gè)簡(jiǎn)單的玩具任務(wù)來測(cè)試我們的假設(shè),即模型應(yīng)該在圖像中檢測(cè)出等邊三角形(Ahmad and Omohundro, 2009)。每個(gè)圖像的大小為64×64,包含3個(gè)隨機(jī)放置的點(diǎn)簇。對(duì)于等邊三角形,這些點(diǎn)簇的中點(diǎn)彼此等距。這是一個(gè)二元分類任務(wù),模型必須預(yù)測(cè)三個(gè)給定的點(diǎn)簇是否形成等邊三角形。為了將圖像饋送到Transformer中,我們遵循視覺Transformer(Dosovitskiy et al., 2020)中使用的相同方法。我們首先將圖像分成相等大小的4×4塊,將每個(gè)塊視為Transformer的不同輸入位置。為了正確解決這個(gè)任務(wù),模型只需要關(guān)注相關(guān)信息,即包含點(diǎn)簇的塊。因此,在這里使用有限容量的共享工作空間應(yīng)該是有用的。我們的結(jié)果(在圖3中展示)證實(shí)了這個(gè)假設(shè)。我們可以看到,共享工作空間的Transformer的注意力收斂速度更快,達(dá)到了比基線Transformer更高的準(zhǔn)確性。我們的方法也明顯優(yōu)于Set Transformer。
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
圖3:檢測(cè)等邊三角形
在這里,我們將具有共享工作空間的Transformer的性能與其他Transformer基線進(jìn)行比較,并繪制了每個(gè)模型的測(cè)試精度。

4.3 關(guān)系推理:Sort-of-CLEVR

關(guān)系推理中,模型的任務(wù)是回答有關(guān)各種物體及其與其他物體之間關(guān)系的某些屬性的問題。模型將呈現(xiàn)一張圖像和一個(gè)與該圖像相關(guān)的問題。這個(gè)任務(wù)具有明顯的稀疏結(jié)構(gòu),因?yàn)闉榱苏_回答問題,它只需要考慮問題提及的特定物體子集。對(duì)于這個(gè)任務(wù),我們使用Sort-of-CLEVR數(shù)據(jù)集(Santoro等人,2017)。Sort-of-CLEVR中的每個(gè)圖像大小為75×75,包含6個(gè)隨機(jī)放置的具有6種可能顏色和2種可能形狀的幾何形狀。每個(gè)圖像都有10個(gè)關(guān)系問題和10個(gè)非關(guān)系問題。非關(guān)系問題只考慮單個(gè)對(duì)象的屬性。另一方面,關(guān)系問題考慮多個(gè)對(duì)象之間的關(guān)系。關(guān)于問題的更多細(xì)節(jié)請(qǐng)參見附錄圖8。模型的輸入由圖像和相應(yīng)的問題表示組成。我們首先像視覺Transformer(Dosovitskiy等人,2020)一樣獲得一個(gè)大小相同的補(bǔ)丁序列的表示。我們將生成的補(bǔ)丁序列與問題的表示連接起來,并將組合后的序列傳遞給Transformer。Sort-of-CLEVR有一個(gè)有限的可能答案,因此這個(gè)任務(wù)被設(shè)置為分類任務(wù)。
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
我們?cè)趫D4中呈現(xiàn)了這個(gè)任務(wù)的結(jié)果。我們觀察到使用共享工作空間的Transformer收斂速度更快,并在關(guān)系問題和非關(guān)系問題方面優(yōu)于基線。共享內(nèi)存的卓越性能
可以歸因于這個(gè)任務(wù)的固有稀疏性
。例如,在非關(guān)系問題中,模型只需要注意到問題中提到的一個(gè)對(duì)象即可正確回答它,而關(guān)系問題只考慮圖像中的一小部分對(duì)象,因此稀疏性對(duì)這兩種類型的問題都有幫助。因此,共享工作空間的有限容量迫使模型只注意相關(guān)信息。
ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace
圖4:Sort-of-CLEVR關(guān)系推理的比較
在Sort-of-CLEVR數(shù)據(jù)集中,關(guān)系問題和非關(guān)系問題的收斂速度比較。我們可以看到,所提出的模型在兩種情況下都比基線模型收斂得快。

今天就先寫這么多啦,友友們?nèi)绻信d趣,可以留言噢!
后面再把論文寫完整,并附上自己認(rèn)為可以創(chuàng)新的地方?。?!
都看到這啦,點(diǎn)個(gè)贊叭叭文章來源地址http://www.zghlxwxcb.cn/news/detail-443242.html

到了這里,關(guān)于ICLR‘22論文解讀 Coordination Among Neural Modules Through a Shared Global Workspace的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包