編者按:如今,機器學(xué)習(xí)已成為人類未來發(fā)展的焦點領(lǐng)域,如何進(jìn)一步拓展機器學(xué)習(xí)技術(shù)和理論的邊界,是一個極富挑戰(zhàn)性的重要話題。7月23日至29日,第四十屆國際機器學(xué)習(xí)大會 ICML 2023 在美國夏威夷舉行。該大會是由國際機器學(xué)習(xí)學(xué)會(IMLS)主辦的年度機器學(xué)習(xí)國際頂級學(xué)術(shù)會議,旨在推動機器學(xué)習(xí)領(lǐng)域的學(xué)術(shù)進(jìn)步。在 ICML 2023 上,微軟亞洲研究院的研究員們有多篇論文入選,今天我們將為大家簡要介紹其中的5篇。
回路神經(jīng)網(wǎng)絡(luò):一種實現(xiàn)多種神經(jīng)回路模式的通用神經(jīng)網(wǎng)絡(luò)
論文鏈接:https://openreview.net/pdf?id=Fl9q5z40e3
近年來,人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)在多個領(lǐng)域取得了巨大的成功,這在一定程度上歸功于其對人腦結(jié)構(gòu)的模仿。然而,最近的神經(jīng)科學(xué)進(jìn)展揭示,神經(jīng)元之間實際上是通過多種多樣的連接模式相互交互來處理信息的,這些連接模式有時也被稱作回路模式(Circuit Motifs)。但許多現(xiàn)有的人工神經(jīng)網(wǎng)絡(luò)只能在其架構(gòu)中模擬一種或兩種回路模式。例如,前饋神經(jīng)網(wǎng)絡(luò)很好地模擬了前饋回路模式,循環(huán)神經(jīng)網(wǎng)絡(luò)模擬了神經(jīng)元相互連接成環(huán)的模式。這種對于不同結(jié)構(gòu)的模擬差異導(dǎo)致了它們在不同類型的機器學(xué)習(xí)任務(wù)中會存在性能差異。
圖1:神經(jīng)元之間的不同回路模式,綠色的神經(jīng)元通過黃色神經(jīng)元傳入的信號更新自身的狀態(tài)。從左往右,四種模式分別是前饋模式,環(huán)路模式,反饋模式和橫向模式
在這篇論文中,研究員們提出了一種新型的神經(jīng)網(wǎng)絡(luò)——回路神經(jīng)網(wǎng)絡(luò)(CircuitNet),其靈感來源于對大腦神經(jīng)回路結(jié)構(gòu)的模擬。在 CircuitNet 中,一組密集連接的神經(jīng)元——回路模式單元(CMU),形成了網(wǎng)絡(luò)的基本單元。研究員們在 CMU 中引入神經(jīng)元之間的注意力機制或者高次次項,再調(diào)整 CMU 內(nèi)部的權(quán)重,這些基礎(chǔ)單元就能夠模擬更加通用的回路模式。與傳統(tǒng)的前饋網(wǎng)絡(luò)相比,CircuitNet 具有模擬更多類型神經(jīng)元連接的能力,如反饋和橫向模式。
圖2:CircuitNet 的模型結(jié)構(gòu)。作為一個通用的神經(jīng)網(wǎng)絡(luò),CircuitNet 可以根據(jù)輸入的形式用在各種各樣的下游任務(wù)中(左)。CircuitNet 由一些 CMU 通過相互間的稀疏連接構(gòu)成 (中)。在單個 CMU 中,神經(jīng)元間以復(fù)雜的形式稠密連接在一起從而建模通用的回路模式,例如,綠色的線連接了兩個神經(jīng)元,可以用來表示線性變換,而紅線可以表示更高級的涉及三個神經(jīng)元的變換,如神經(jīng)元間的注意力機制(右)
另外,受到人腦局部密集和全局稀疏結(jié)構(gòu)的啟發(fā),不同 CMU 之間通過輸入端口和輸出端口的稀疏連接實現(xiàn)了多次信號傳遞。
實驗證明,CircuitNet 在函數(shù)逼近、強化學(xué)習(xí)、圖像分類和時間序列預(yù)測等任務(wù)中均優(yōu)于流行的神經(jīng)網(wǎng)絡(luò)架構(gòu)。CircuitNet 不僅提供了更好的性能和靈活性,還為解決復(fù)雜的機器學(xué)習(xí)任務(wù)和認(rèn)知模型奠定了堅實的基礎(chǔ)。
帶概率激發(fā)臂的上下文組合多臂老虎機問題
論文鏈接:https://arxiv.org/abs/2303.17110
將傳統(tǒng)的組合優(yōu)化和在線學(xué)習(xí)相結(jié)合的組合多臂老虎機(combinatorial multi-armed bandit)是通過在線反饋機制來不斷改進(jìn)模型優(yōu)化效果的。本文提出了一種新的上下文組合多臂老虎機模型 C^2MAB-T,它結(jié)合了上下文信息和概率激活模型,并基于簡單而有效的線性結(jié)構(gòu)假設(shè),實現(xiàn)了更好的可擴展性。該模型適用于大規(guī)模推薦系統(tǒng)、在線廣告、社交網(wǎng)絡(luò)、無線網(wǎng)絡(luò)等多個領(lǐng)域。
針對 C^2MAB-T,研究員們在多種光滑條件下設(shè)計了相應(yīng)的算法并進(jìn)行了理論分析。在概率激活調(diào)節(jié)(TPM)條件下,研究員們提出了 C^2-UCB-T 算法,消除了潛在的指數(shù)級大因子 1/p 對算法性能的影響,其中p表示的是任何臂被觸發(fā)的最小正概率。在概率激活方差調(diào)節(jié)(TPVM)條件下,研究員們進(jìn)一步提出了 VAC^2-UCB 算法,實現(xiàn)了每個時刻激活的臂數(shù)K對算法性能影響的更好控制,使其從 O(K) 降低為 O(log K)。需要注意的是,文中的分析技術(shù)和方差自適應(yīng)算法也同樣適用于 CMAB-T 和 C^2MAB,并且改進(jìn)了現(xiàn)有算法的結(jié)果。
C^2MAB-T 模型通過仿真實驗在推薦系統(tǒng)場景中驗證了算法的性能。相較于兩組現(xiàn)有算法,C^2MAB-T 的算法分別獲得了25%和45%的性能提升。
圖3:基于 MovieLens-1M 數(shù)據(jù)集的實驗表明,VAC^2-UCB(藍(lán)色)在性能上超過了 C^3-UCB [Li et al., ICML'16](紅色)和另一個方差感知算法 CascadeWOFUL [Vial et al., NeurIPS'22(綠色)],分別減少了45%和25%算法損失(regret)。
Magneto:一種基礎(chǔ)的Transformer模型架構(gòu)
論文鏈接:https://openreview.net/pdf?id=oeAhgeKFEw
近年來,人們陸續(xù)見證了語言、視覺、語音以及多模態(tài)等領(lǐng)域中模型架構(gòu)的大融合。從自然語言處理開始,Transformers 已經(jīng)廣泛作為視覺、語音以及多模態(tài)在內(nèi)的各領(lǐng)域骨干網(wǎng)絡(luò)。然而,盡管都使用同樣的名字“Transformers”,但它們的實現(xiàn)在不同任務(wù)中存在著顯著差異。在多模態(tài)模型的預(yù)訓(xùn)練中,對于不同的輸入模態(tài),最優(yōu)的 Transformer 變體通常是不同的。圖4總結(jié)了在各任務(wù)上廣泛使用的先進(jìn)模型的架構(gòu)。視覺預(yù)訓(xùn)練往往使用 Pre-LayerNorm 的 Transformers,而掩碼語言建模和機器翻譯則使用 Post-LayerNorm 以取得更好的性能。以視覺-語言預(yù)訓(xùn)練為例,對于視覺編碼來說,使用 Post-LayerNorm 是次優(yōu)的,而對于語言任務(wù)來說,使用 Pre-LayerNorm 則是次優(yōu)的。真正的多模態(tài)預(yù)訓(xùn)練需要一個在各種任務(wù)和模態(tài)下都能表現(xiàn)良好的統(tǒng)一架構(gòu)。另外,大規(guī)模 Transformer 模型訓(xùn)練難、易崩潰,需要付出巨大的成本來調(diào)整超參數(shù)或監(jiān)督模型的訓(xùn)練過程。
圖4:微軟亞洲研究院的研究員們提出的 Magneto 在語言、語音、視覺和多模態(tài)任務(wù)上比之前最先進(jìn)的骨干網(wǎng)表現(xiàn)更好。
由此,微軟亞洲研究院的研究員們呼吁發(fā)展“Foundation Transformers”以實現(xiàn)真正的通用建模,進(jìn)而提出了 Magneto。圖5展示了 Magneto 的偽代碼和不同架構(gòu)下的示意圖??梢钥吹?,Magneto 引入了 Sub-LayerNorm,并在每個子層中增加了一個額外的層歸一化來減緩預(yù)訓(xùn)練中遭遇的激活爆炸。此外,研究員們還拓展了 DeepNet 對于訓(xùn)練穩(wěn)定性的分析框架,為 Magneto 提出了一種新的初始化方法,從理論上保證深層模型訓(xùn)練的穩(wěn)定,使得 Magneto 可以無痛地進(jìn)行擴展。
圖5:左上:Sub-LN 的偽代碼。這里以 Xavier 初始化為例,可以用其他標(biāo)準(zhǔn)初始化方法替代。γ 是一個常數(shù)。右上:不同架構(gòu)(N 層編碼器,M 層解碼器)的 γ 值。底部:不同架構(gòu)下的 Sub-LN。
研究員們在廣泛的任務(wù)和模態(tài)上評估了 Magneto 的性能,包括掩碼語言建模(BERT)、因果語言建模(GPT)、機器翻譯、掩碼圖像建模(BEiT)、語音識別和視覺-語言預(yù)訓(xùn)練(BEiT-3)。圖4展示了 Magneto 在各種下游任務(wù)上顯著優(yōu)于現(xiàn)有分別設(shè)計的 Transformer 變體。而且,Magneto 在優(yōu)化方面更穩(wěn)定,這就使得以更高的學(xué)習(xí)率來提升下游任務(wù)性能的表現(xiàn)成為可能,同時不會導(dǎo)致訓(xùn)練崩潰。
環(huán)境干擾下的魯棒情境強化學(xué)習(xí)
論文鏈接:https://openreview.net/pdf?id=hGJLN2Ys4c
在很多實際的任務(wù)中,動態(tài)變化且不可控制的環(huán)境因子對決策過程起著重要作用,比如庫存管理中的顧客需求量和自動駕駛中的前車速度,這類環(huán)境因子被為上下文(context)。強化學(xué)習(xí)在這類應(yīng)用中的主要挑戰(zhàn)之一在于,真實的上下文轉(zhuǎn)移分布會暴露于某些因素的干擾下,導(dǎo)致上下文的轉(zhuǎn)移分布發(fā)生偏移,極大地影響強化學(xué)習(xí)算法的性能。例如,在自動駕駛的跟車任務(wù)中,智能體在訓(xùn)練中遇到前車速度一直是正常的,但在測試的時候前車突然急剎車,導(dǎo)致智能體控制的車撞了上去。
為了處理這類問題,研究員們提出利用胡伯爾污染模型(Huber’s contamination model)對上下文轉(zhuǎn)移分布的偏差和不確定性進(jìn)行建模,并稱這個框架為對形勢變化魯棒的馬爾可夫決策過程?;谶@個模型,研究員們把現(xiàn)有的強化學(xué)習(xí)算法擴展成能對上下文轉(zhuǎn)移分布的擾動達(dá)到比較好魯棒效果的算法,從而得到對形勢變化魯棒的決策。在跟車類型的機器人運動控制和庫存管理的實驗里,相比基礎(chǔ)的強化學(xué)習(xí)算法和魯棒強化學(xué)習(xí)算法,該算法達(dá)到了對于上下文擾動更好的魯棒性能。
圖6:胡伯爾污染模型框架
Synthetic Prompting: 為大語言模型合成有效的思維鏈?zhǔn)纠?/h3>
論文鏈接:https://openreview.net/pdf?id=RYD1UMgTdk
大語言模型可以通過鏈?zhǔn)剿伎迹╟hain-of-thought prompting)來完成各種推理任務(wù),即利用指令和任務(wù)示例引導(dǎo)模型生成逐步的推理過程來解決問題。在少樣本的情況下,語言模型的表現(xiàn)很大程度上取決于任務(wù)示例的質(zhì)量,尤其是在推理過程復(fù)雜且模式多樣的任務(wù)上。理想情況下,科研人員們希望能獲取大量且多樣的示例,從中選取對模型幫助最大的示例構(gòu)成任務(wù)提示詞。然而,人工構(gòu)建大量的示例既費時又繁瑣,而僅依賴少量的人工示例則可能不利于模型泛化到更多樣的測試場景當(dāng)中去。
為解決上述問題,研究員們提出了 Synthetic Prompting,利用大語言模型自身的知識和生成能力,基于有限的人工示例合成更多更有效的示例,并通過合成示例觸發(fā)更好的推理表現(xiàn)。具體而言,給定一些種子示例,每個示例由一個問題和一系列推理步驟組成,通過交替進(jìn)行后向-前向過程來引導(dǎo)語言模型生成更多示例:(1)后向過程,語言模型根據(jù)自我采樣的推理鏈合成一個問題,以確保問題可回答且邏輯清晰;(2)前向過程,語言模型基于合成的問題生成一個推理鏈,確保推理鏈的精確性。這個過程需一直重復(fù)直到獲得足夠的合成示例。
為了從合成的示例集中選擇最有效的示例,研究員們提出了一種基于 in-cluster complexity 的選擇方案:通過對示例進(jìn)行聚類并選擇每個聚類中最復(fù)雜的示例(推理鏈最長的示例)來最大程度地增加所選示例的多樣性和信息量。最后,用所選定的示例構(gòu)成提示詞來進(jìn)行推理測試。
圖7:示例合成階段的后向過程(左圖)和前向過程(右圖)。在后向過程中,研究人員將主題詞、所期望的推理復(fù)雜度、以及模型采樣生成的推理過程(藍(lán)色部分)作為問題合成(綠色部分)的生成條件,以分別提高所合成樣本的多樣性、信息量、和邏輯性。在前向過程中,語言模型為后向過程中所生成的問題合成一個更精確的推理鏈(紫色部分)。后向過程中生成的問題和前向過程中生成的推理過程構(gòu)成一個合成示例。文章來源:http://www.zghlxwxcb.cn/news/detail-614433.html
Synthetic Prompting 讓大語言模型同時充當(dāng)任務(wù)示例的“消費者”和“生產(chǎn)者”,一定程度上實現(xiàn)推理效果的自我提升。在數(shù)值推理、算法推理和符號推理任務(wù)上的實驗表明,相比于此前方法,如 chain-of-thought prompting 和 PAL prompting,Synthetic Prompting 可以實現(xiàn)高達(dá)15.6%的提升。文章來源地址http://www.zghlxwxcb.cn/news/detail-614433.html
到了這里,關(guān)于ICML 2023 | 拓展機器學(xué)習(xí)的邊界的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!