Chapter1
Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.
本文是MAMBA作者的博士畢業(yè)論文,為了理清楚MAMBA專門花時間拜讀這篇長達(dá)330頁的博士論文,由于知識水平有限,只能盡自己所能概述記錄,并適當(dāng)補(bǔ)充一些相關(guān)數(shù)學(xué)背景,歡迎探討與批評指正。內(nèi)容多,分章節(jié)更新以免凌亂,等更新完畢補(bǔ)充目錄跳轉(zhuǎn)鏈接。
Abstract
這篇文檔的摘要介紹了在機(jī)器學(xué)習(xí)領(lǐng)域的顯著進(jìn)步,特別是在序列模型方面,這些模型對深度學(xué)習(xí)在各種科學(xué)應(yīng)用中的成功至關(guān)重要。盡管目前的方法取得了成功,但它們在處理復(fù)雜的序列數(shù)據(jù)(如涉及長期依賴性的數(shù)據(jù))時存在限制,例如需要大量的特定任務(wù)專業(yè)化、計(jì)算效率低下等問題。為了解決這些問題,論文介紹了一種使用狀態(tài)空間模型的新方法。這些模型靈活、理論基礎(chǔ)扎實(shí)、計(jì)算效率高,并且在多種數(shù)據(jù)類型和應(yīng)用中表現(xiàn)出色。它們擴(kuò)展了標(biāo)準(zhǔn)深度序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò))的功能。論文還開發(fā)了適用于現(xiàn)代硬件的新型結(jié)構(gòu)化狀態(tài)空間,適合長序列處理和其他場景,如自回歸推理。此外,它還提出了一種用于逐步建模連續(xù)信號的新數(shù)學(xué)框架,通過這種框架,可以為狀態(tài)空間模型提供原理上的狀態(tài)表示,并改善其處理長期依賴性的能力。這種新方法為機(jī)器學(xué)習(xí)提供了有效且多功能的工具,特別是在處理大規(guī)模的一般序列數(shù)據(jù)方面。
1.Introduction
1.1 Deep Sequence Models
首先定義了序列模型,一張圖就把CNN 、RNN、Transformer以及本文的模型概括進(jìn)去。
在本文中,將序列模型定義為參數(shù)化序列到序列的轉(zhuǎn)換,用作深度學(xué)習(xí)模型的組件。 (上)序列模型通常圍繞簡單的參數(shù)化轉(zhuǎn)換構(gòu)建。定義的狀態(tài)空間序列模型是一維序列上的簡單線性映射。 (右)深度序列模型是一種圍繞核心序列變換(例如卷積、注意力或 S4)構(gòu)建的神經(jīng)網(wǎng)絡(luò)架構(gòu),并包含附加的位置神經(jīng)網(wǎng)絡(luò)組件,例如歸一化層、線性層和殘差連接。盒裝架構(gòu)塊通常被重復(fù)組成深度神經(jīng)網(wǎng)絡(luò)。輸入通常具有額外的通道或特征維度,并且是批量處理的。
深度學(xué)習(xí)模型用于序列數(shù)據(jù)的處理被描述為基于簡單機(jī)制(如遞歸、卷積或注意力機(jī)制)的序列到序列的轉(zhuǎn)換。這些基本元素被整合進(jìn)標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),形成了主要的深度序列模型家族:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和Transformers。這些模型通過標(biāo)準(zhǔn)深度學(xué)習(xí)技術(shù)(如梯度下降的反向傳播)實(shí)現(xiàn)了強(qiáng)大的參數(shù)化轉(zhuǎn)換。
每種模型家族都在機(jī)器學(xué)習(xí)領(lǐng)域取得了巨大成功,例如RNNs在機(jī)器翻譯中的應(yīng)用、CNNs成為首個神經(jīng)音頻生成模型,以及Transformers在自然語言處理領(lǐng)域的革命性影響。然而,這些模型也有其固有的權(quán)衡。例如,
- RNNs是一種自然的、狀態(tài)驅(qū)動的序列數(shù)據(jù)模型,它們在訓(xùn)練過程中較慢,并且存在優(yōu)化困難(如“梯度消失問題”),限制了它們處理長序列的能力。
- CNNs擅長處理本地上下文和編碼屬性(如平移等變性),訓(xùn)練速度快,但在序列推理上成本較高,且存在上下文長度的固有限制。
- Transformers憑借處理長程依賴性和并行化的能力取得了巨大成功,但它們在序列長度上的處理呈二次方規(guī)模增長。
- 神經(jīng)微分方程(NDEs),這是一種原理性的數(shù)學(xué)模型,理論上可以處理連續(xù)時間問題和長期依賴關(guān)系,但效率非常低。
這些權(quán)衡指出了深度序列模型面臨的三個廣泛挑戰(zhàn):
- 通用性能力:深度學(xué)習(xí)的一個廣泛目標(biāo)是開發(fā)可以廣泛應(yīng)用于各種問題的通用構(gòu)建模塊。序列模型為解決許多問題提供了一個通用框架,減少了專門化的需求,因?yàn)樗鼈兛梢詰?yīng)用于任何可以被視為序列的設(shè)置。
- 計(jì)算效率:實(shí)際應(yīng)用深度序列模型需要計(jì)算它們定義的函數(shù)(即參數(shù)化的序列到序列的映射),這可能在訓(xùn)練和推理時面臨挑戰(zhàn)。
- 長程依賴性:實(shí)際世界的序列數(shù)據(jù)可能需要對成千上萬的時間步進(jìn)行推理。除了處理長輸入所需的計(jì)算問題外,還需要能夠模擬這種長程依賴性中的復(fù)雜交互。
盡管為長程依賴性設(shè)計(jì)的解決方案,但在像Long Range Arena這樣的挑戰(zhàn)性基準(zhǔn)測試中,這些解決方案仍然表現(xiàn)不佳。
1.2 State Space Sequence Models
本文介紹了一系列基于線性狀態(tài)空間模型(SSM)的新的深度序列模型。將這個 SSM 定義為一個簡單的序列模型,它通過隱式潛在狀態(tài) x ( t ) ∈ R N x(t) \in \mathbb{R}^{N} x(t)∈RN映射一維函數(shù)或序列 u ( t ) ∈ R ? y ( t ) ∈ R u(t) \in \mathbb{R} \mapsto y(t) \in \mathbb{R} u(t)∈R?y(t)∈R
x ′ ( t ) = A x ( t ) + B u ( t ) y ( t ) = C x ( t ) + D u ( t ) \begin{aligned} x^{\prime}(t) & =\boldsymbol{A} x(t)+\boldsymbol{B} u(t) \\ y(t) & =\boldsymbol{C} x(t)+\boldsymbol{D} u(t) \end{aligned} x′(t)y(t)?=Ax(t)+Bu(t)=Cx(t)+Du(t)?
這些模型將一維函數(shù)或序列通過隱含的潛在狀態(tài)映射到另一個序列,形成了一種簡單的序列模型。SSMs在控制理論、計(jì)算神經(jīng)科學(xué)、信號處理等領(lǐng)域都是基礎(chǔ)性的科學(xué)模型,它們模擬了潛變量在狀態(tài)空間中的演變,并且通常定義了這些動態(tài)的概率模型。
狀態(tài)空間模型與如NDEs、RNNs和CNNs等其他模型家族有緊密關(guān)聯(lián),可以以多種形式表達(dá),以獲得通常需要專門模型的不同能力。SSMs具有以下特性:
- SSMs是連續(xù)的:它們本身是微分方程,可以模擬連續(xù)時間模型的獨(dú)特應(yīng)用,如模擬連續(xù)過程、處理缺失數(shù)據(jù)和適應(yīng)不同的采樣率。
- SSMs是遞歸的:它們可以被離散化成線性遞歸,用標(biāo)準(zhǔn)技術(shù)模擬推理時的狀態(tài)驅(qū)動遞歸模型,每個時間步驟具有恒定的內(nèi)存和計(jì)算量。
- SSMs是卷積的:它們是線性時不變系統(tǒng),已知可以顯式表示為連續(xù)卷積。此外,離散時間版本可以在訓(xùn)練期間使用離散卷積進(jìn)行并行化,從而提高訓(xùn)練效率。
然而,SSMs的通用性也帶來了一些權(quán)衡。簡單的SSMs仍然面臨其他挑戰(zhàn),如速度遠(yuǎn)慢于同等大小的RNNs和CNNs,以及難以記住長期依賴性,例如繼承了RNNs的梯度消失問題。
為了解決這些挑戰(zhàn),引入了具有結(jié)構(gòu)化狀態(tài)空間(S4)的新算法和理論。這些算法通過在狀態(tài)矩陣A上施加結(jié)構(gòu),以適應(yīng)高效的算法。S4模型的第一個結(jié)構(gòu)使用狀態(tài)矩陣的對角線參數(shù)化,非常簡單且足以表示幾乎所有SSMs。然后,通過允許低秩修正項(xiàng),可以表示一類特殊的SSMs。綜合了多種技術(shù)思想,如生成函數(shù)、線性代數(shù)變換和結(jié)構(gòu)化矩陣乘法的結(jié)果,開發(fā)了這些結(jié)構(gòu)的算法,時間復(fù)雜度和空間復(fù)雜度均為O?(N + L),這對于序列模型來說是非常緊湊的。文章來源:http://www.zghlxwxcb.cn/news/detail-806000.html
此外,SSMs在處理長期依賴性方面表現(xiàn)不佳,這是由于線性一階常微分方程解決為指數(shù)函數(shù),可能導(dǎo)致序列長度中梯度指數(shù)級縮放。為了解決這個問題,開發(fā)了一個稱為HIPPO的數(shù)學(xué)框架,用于在線函數(shù)逼近(或記憶)。HIPPO產(chǎn)生的方法旨在通過維護(hù)其歷史的壓縮來增量記憶連續(xù)函數(shù)。這些方法實(shí)際上是SSMs的特定形式,盡管它們是完全獨(dú)立地激發(fā)出來的。文章來源地址http://www.zghlxwxcb.cn/news/detail-806000.html
到了這里,關(guān)于【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!