国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1

這篇具有很好參考價值的文章主要介紹了【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

Chapter1

Gu A. Modeling Sequences with Structured State Spaces[D]. Stanford University, 2023.

本文是MAMBA作者的博士畢業(yè)論文,為了理清楚MAMBA專門花時間拜讀這篇長達(dá)330頁的博士論文,由于知識水平有限,只能盡自己所能概述記錄,并適當(dāng)補(bǔ)充一些相關(guān)數(shù)學(xué)背景,歡迎探討與批評指正。內(nèi)容多,分章節(jié)更新以免凌亂,等更新完畢補(bǔ)充目錄跳轉(zhuǎn)鏈接。

Abstract

這篇文檔的摘要介紹了在機(jī)器學(xué)習(xí)領(lǐng)域的顯著進(jìn)步,特別是在序列模型方面,這些模型對深度學(xué)習(xí)在各種科學(xué)應(yīng)用中的成功至關(guān)重要。盡管目前的方法取得了成功,但它們在處理復(fù)雜的序列數(shù)據(jù)(如涉及長期依賴性的數(shù)據(jù))時存在限制,例如需要大量的特定任務(wù)專業(yè)化、計(jì)算效率低下等問題。為了解決這些問題,論文介紹了一種使用狀態(tài)空間模型的新方法。這些模型靈活、理論基礎(chǔ)扎實(shí)、計(jì)算效率高,并且在多種數(shù)據(jù)類型和應(yīng)用中表現(xiàn)出色。它們擴(kuò)展了標(biāo)準(zhǔn)深度序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò))的功能。論文還開發(fā)了適用于現(xiàn)代硬件的新型結(jié)構(gòu)化狀態(tài)空間,適合長序列處理和其他場景,如自回歸推理。此外,它還提出了一種用于逐步建模連續(xù)信號的新數(shù)學(xué)框架,通過這種框架,可以為狀態(tài)空間模型提供原理上的狀態(tài)表示,并改善其處理長期依賴性的能力。這種新方法為機(jī)器學(xué)習(xí)提供了有效且多功能的工具,特別是在處理大規(guī)模的一般序列數(shù)據(jù)方面。

1.Introduction

1.1 Deep Sequence Models

首先定義了序列模型,一張圖就把CNN 、RNN、Transformer以及本文的模型概括進(jìn)去。

【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1,Mamba,論文閱讀

在本文中,將序列模型定義為參數(shù)化序列到序列的轉(zhuǎn)換,用作深度學(xué)習(xí)模型的組件。 (上)序列模型通常圍繞簡單的參數(shù)化轉(zhuǎn)換構(gòu)建。定義的狀態(tài)空間序列模型是一維序列上的簡單線性映射。 (右)深度序列模型是一種圍繞核心序列變換(例如卷積、注意力或 S4)構(gòu)建的神經(jīng)網(wǎng)絡(luò)架構(gòu),并包含附加的位置神經(jīng)網(wǎng)絡(luò)組件,例如歸一化層、線性層和殘差連接。盒裝架構(gòu)塊通常被重復(fù)組成深度神經(jīng)網(wǎng)絡(luò)。輸入通常具有額外的通道或特征維度,并且是批量處理的。

深度學(xué)習(xí)模型用于序列數(shù)據(jù)的處理被描述為基于簡單機(jī)制(如遞歸、卷積或注意力機(jī)制)的序列到序列的轉(zhuǎn)換。這些基本元素被整合進(jìn)標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)架構(gòu),形成了主要的深度序列模型家族:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNNs)、卷積神經(jīng)網(wǎng)絡(luò)(CNNs)和Transformers。這些模型通過標(biāo)準(zhǔn)深度學(xué)習(xí)技術(shù)(如梯度下降的反向傳播)實(shí)現(xiàn)了強(qiáng)大的參數(shù)化轉(zhuǎn)換。

每種模型家族都在機(jī)器學(xué)習(xí)領(lǐng)域取得了巨大成功,例如RNNs在機(jī)器翻譯中的應(yīng)用、CNNs成為首個神經(jīng)音頻生成模型,以及Transformers在自然語言處理領(lǐng)域的革命性影響。然而,這些模型也有其固有的權(quán)衡。例如,

  • RNNs是一種自然的、狀態(tài)驅(qū)動的序列數(shù)據(jù)模型,它們在訓(xùn)練過程中較慢,并且存在優(yōu)化困難(如“梯度消失問題”),限制了它們處理長序列的能力。
  • CNNs擅長處理本地上下文和編碼屬性(如平移等變性),訓(xùn)練速度快,但在序列推理上成本較高,且存在上下文長度的固有限制。
  • Transformers憑借處理長程依賴性和并行化的能力取得了巨大成功,但它們在序列長度上的處理呈二次方規(guī)模增長。
  • 神經(jīng)微分方程(NDEs),這是一種原理性的數(shù)學(xué)模型,理論上可以處理連續(xù)時間問題和長期依賴關(guān)系,但效率非常低。

這些權(quán)衡指出了深度序列模型面臨的三個廣泛挑戰(zhàn):

  1. 通用性能力:深度學(xué)習(xí)的一個廣泛目標(biāo)是開發(fā)可以廣泛應(yīng)用于各種問題的通用構(gòu)建模塊。序列模型為解決許多問題提供了一個通用框架,減少了專門化的需求,因?yàn)樗鼈兛梢詰?yīng)用于任何可以被視為序列的設(shè)置。
  2. 計(jì)算效率:實(shí)際應(yīng)用深度序列模型需要計(jì)算它們定義的函數(shù)(即參數(shù)化的序列到序列的映射),這可能在訓(xùn)練和推理時面臨挑戰(zhàn)。
  3. 長程依賴性:實(shí)際世界的序列數(shù)據(jù)可能需要對成千上萬的時間步進(jìn)行推理。除了處理長輸入所需的計(jì)算問題外,還需要能夠模擬這種長程依賴性中的復(fù)雜交互。

盡管為長程依賴性設(shè)計(jì)的解決方案,但在像Long Range Arena這樣的挑戰(zhàn)性基準(zhǔn)測試中,這些解決方案仍然表現(xiàn)不佳。

1.2 State Space Sequence Models

本文介紹了一系列基于線性狀態(tài)空間模型(SSM)的新的深度序列模型。將這個 SSM 定義為一個簡單的序列模型,它通過隱式潛在狀態(tài) x ( t ) ∈ R N x(t) \in \mathbb{R}^{N} x(t)RN映射一維函數(shù)或序列 u ( t ) ∈ R ? y ( t ) ∈ R u(t) \in \mathbb{R} \mapsto y(t) \in \mathbb{R} u(t)R?y(t)R

x ′ ( t ) = A x ( t ) + B u ( t ) y ( t ) = C x ( t ) + D u ( t ) \begin{aligned} x^{\prime}(t) & =\boldsymbol{A} x(t)+\boldsymbol{B} u(t) \\ y(t) & =\boldsymbol{C} x(t)+\boldsymbol{D} u(t) \end{aligned} x(t)y(t)?=Ax(t)+Bu(t)=Cx(t)+Du(t)?

這些模型將一維函數(shù)或序列通過隱含的潛在狀態(tài)映射到另一個序列,形成了一種簡單的序列模型。SSMs在控制理論、計(jì)算神經(jīng)科學(xué)、信號處理等領(lǐng)域都是基礎(chǔ)性的科學(xué)模型,它們模擬了潛變量在狀態(tài)空間中的演變,并且通常定義了這些動態(tài)的概率模型。

狀態(tài)空間模型與如NDEs、RNNs和CNNs等其他模型家族有緊密關(guān)聯(lián),可以以多種形式表達(dá),以獲得通常需要專門模型的不同能力。SSMs具有以下特性:

  1. SSMs是連續(xù)的:它們本身是微分方程,可以模擬連續(xù)時間模型的獨(dú)特應(yīng)用,如模擬連續(xù)過程、處理缺失數(shù)據(jù)和適應(yīng)不同的采樣率。
  2. SSMs是遞歸的:它們可以被離散化成線性遞歸,用標(biāo)準(zhǔn)技術(shù)模擬推理時的狀態(tài)驅(qū)動遞歸模型,每個時間步驟具有恒定的內(nèi)存和計(jì)算量。
  3. SSMs是卷積的:它們是線性時不變系統(tǒng),已知可以顯式表示為連續(xù)卷積。此外,離散時間版本可以在訓(xùn)練期間使用離散卷積進(jìn)行并行化,從而提高訓(xùn)練效率。

然而,SSMs的通用性也帶來了一些權(quán)衡。簡單的SSMs仍然面臨其他挑戰(zhàn),如速度遠(yuǎn)慢于同等大小的RNNs和CNNs,以及難以記住長期依賴性,例如繼承了RNNs的梯度消失問題。

為了解決這些挑戰(zhàn),引入了具有結(jié)構(gòu)化狀態(tài)空間(S4)的新算法和理論。這些算法通過在狀態(tài)矩陣A上施加結(jié)構(gòu),以適應(yīng)高效的算法。S4模型的第一個結(jié)構(gòu)使用狀態(tài)矩陣的對角線參數(shù)化,非常簡單且足以表示幾乎所有SSMs。然后,通過允許低秩修正項(xiàng),可以表示一類特殊的SSMs。綜合了多種技術(shù)思想,如生成函數(shù)、線性代數(shù)變換和結(jié)構(gòu)化矩陣乘法的結(jié)果,開發(fā)了這些結(jié)構(gòu)的算法,時間復(fù)雜度和空間復(fù)雜度均為O?(N + L),這對于序列模型來說是非常緊湊的。

此外,SSMs在處理長期依賴性方面表現(xiàn)不佳,這是由于線性一階常微分方程解決為指數(shù)函數(shù),可能導(dǎo)致序列長度中梯度指數(shù)級縮放。為了解決這個問題,開發(fā)了一個稱為HIPPO的數(shù)學(xué)框架,用于在線函數(shù)逼近(或記憶)。HIPPO產(chǎn)生的方法旨在通過維護(hù)其歷史的壓縮來增量記憶連續(xù)函數(shù)。這些方法實(shí)際上是SSMs的特定形式,盡管它們是完全獨(dú)立地激發(fā)出來的。文章來源地址http://www.zghlxwxcb.cn/news/detail-806000.html

到了這里,關(guān)于【長文閱讀】MAMBA作者博士論文<MODELING SEQUENCES WITH STRUCTURED STATE SPACES>-Chapter1的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】Mamba:具有選擇狀態(tài)空間的線性時間序列建模

    【論文閱讀】Mamba:具有選擇狀態(tài)空間的線性時間序列建模

    Mamba:基于選擇狀態(tài)空間的線性時間序列建模 論文兩位作者Albert Gu和Tri Dao,博士都畢業(yè)于斯坦福大學(xué),導(dǎo)師為Christopher Ré。 Albert Gu現(xiàn)在是CMU助理教授,多年來一直推動SSM架構(gòu)發(fā)展。他曾在DeepMind 工作,目前是Cartesia AI的聯(lián)合創(chuàng)始人及首席科學(xué)家。 Tri Dao,以FlashAttention、Flas

    2024年03月21日
    瀏覽(23)
  • 論文閱讀《Rethinking Efficient Lane Detection via Curve Modeling》

    論文閱讀《Rethinking Efficient Lane Detection via Curve Modeling》

    目錄 Abstract 1. Introduction 2. Related Work 3. B′ezierLaneNet 3.1. Overview 3.2. Feature Flip Fusion 3.3. End-to-end Fit of a B′ezier Curve 4. Experiments 4.1. Datasets 4.2. Evalutaion Metics 4.3. Implementation Details 4.4. Comparisons 4.5. Analysis 4.6. Limitations and Discussions 5. Conclusions 圖和表 圖 ?表 附錄 A. FPS Test Protocol B. Spec

    2024年02月03日
    瀏覽(37)
  • 【論文閱讀】Vision Mamba:雙向狀態(tài)空間模型的的高效視覺表示學(xué)習(xí)

    【論文閱讀】Vision Mamba:雙向狀態(tài)空間模型的的高效視覺表示學(xué)習(xí)

    論文地址: Vision Mamba 在這篇文章,我們展示對于視覺表示學(xué)習(xí),不再依賴自注意力,提出一個新的泛用的視覺backbone基于雙向Mamba塊,通過位置嵌入來標(biāo)示圖片序列,通過雙向狀態(tài)空間模型壓縮視覺表示。結(jié)果表示,Vim有能力解決在高分辨率圖片上應(yīng)用tranformer類型所導(dǎo)致計(jì)算

    2024年03月21日
    瀏覽(28)
  • 論文閱讀-A General Language for Modeling Social Media Account Behavior

    論文閱讀-A General Language for Modeling Social Media Account Behavior

    ? 論文鏈接:https://arxiv.org/pdf/2211.00639v1.pdf 目錄 摘要 1 Introduction 2 Related work 2.1 Automation 2.2 Coordination 3 Behavioral Language for Online Classification ?3.1 BLOC alphabets 3.1.1 Action alphabet 3.1.2 Content alphabets 3.2 BLOC models 3.2.1語言模式 3.2.2 Vector models 4 Discriminative power of BLOC 4.1 Characterizing individu

    2024年02月09日
    瀏覽(25)
  • 【論文閱讀】ControlNet、文章作者 github 上的 discussions

    【論文閱讀】ControlNet、文章作者 github 上的 discussions

    提出 ControlNet ,通過引入該結(jié)構(gòu)微調(diào)預(yù)訓(xùn)練文生圖擴(kuò)散模型,可以給模型增加空間定位條件. 在 Stable Diffusion 上使用 ControlNet 微調(diào),使模型能接受 Canny edges, Hough lines, user scribbles, human key points, segmentation maps, shape normals, depths, cartoon line drawings 圖像作為輸入條件. 消融實(shí)驗(yàn)、定量

    2024年01月20日
    瀏覽(90)
  • 論文閱讀《MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction》

    論文閱讀《MapTR: Structured Modeling and Learning for Online Vectorized HD Map Construction》

    高精地圖提供了豐富而精確的駕駛場景環(huán)境信息,是自動駕駛系統(tǒng)規(guī)劃中必不可少的基礎(chǔ)組成部分。我們提出了MapTR,一個結(jié)構(gòu)化的端到端Transformer,用于高效的在線矢量化高精地圖構(gòu)建。我們提出了一種統(tǒng)一的等效排列建模方法,即將地圖元素建模為具有一組等效排列的點(diǎn)集

    2024年02月22日
    瀏覽(21)
  • 《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》論文閱讀及代碼復(fù)現(xiàn)

    《VM-UNet: Vision Mamba UNet for Medical Image Segmentation》論文閱讀及代碼復(fù)現(xiàn)

    論文地址:[2402.02491] VM-UNet: Vision Mamba UNet for Medical Image Segmentation (arxiv.org) 代碼地址:JCruan519/VM-UNet: (ARXIV24) This is the official code repository for \\\"VM-UNet: Vision Mamba UNet for Medical Image Segmentation\\\". (github.com) 摘要 : 在醫(yī)學(xué)圖像分割領(lǐng)域,基于細(xì)胞神經(jīng)網(wǎng)絡(luò)和基于變換器的模型都得到了廣

    2024年03月24日
    瀏覽(23)
  • 自監(jiān)督論文閱讀筆記 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

    自監(jiān)督論文閱讀筆記 RingMo: A Remote Sensing Foundation Model with Masked Image Modeling

    ????????深度學(xué)習(xí)方法促進(jìn)了遙感 (RS) 圖像解釋的快速發(fā)展。最廣泛使用的訓(xùn)練范式是利用 ImageNet 預(yù)訓(xùn)練模型來處理指定任務(wù)的 RS 數(shù)據(jù)。然而,存在? 自然場景與RS場景之間的領(lǐng)域差距 ,以及 RS模型泛化能力差 等問題。開發(fā) 具有通用 RS 特征表示的基礎(chǔ)模型 是有意義的。

    2024年02月16日
    瀏覽(26)
  • 論文閱讀:GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction

    論文閱讀:GameFormer: Game-theoretic Modeling and Learning of Transformer-based Interactive Prediction

    論文鏈接: https://arxiv.org/pdf/2303.05760.pdf 在復(fù)雜的現(xiàn)實(shí)環(huán)境中運(yùn)行的自動駕駛車輛需要準(zhǔn)確預(yù)測交通參與者之間的交互行為。本文通過用層次博弈論來表述交互預(yù)測問題并提出 GameFormer 模型來解決它的實(shí)現(xiàn)。該模型結(jié)合了一個 Transformer 編碼器,可以有效地模擬場景元素之間的

    2024年02月20日
    瀏覽(24)
  • AI Infra論文閱讀之LIGHTSEQ(LLM長文本訓(xùn)練的Infra工作)

    AI Infra論文閱讀之LIGHTSEQ(LLM長文本訓(xùn)練的Infra工作)

    感覺這篇paper有幾個亮點(diǎn),首先把Megatron-LM的Self-Attention模塊的模型并行方式變成序列并行,優(yōu)化了通信量,同時通過計(jì)算和通信重疊近一步壓縮了訓(xùn)練迭代時間。另外,在使用重計(jì)算的時候發(fā)現(xiàn)當(dāng)前Huggingface/Megatron-LM的重計(jì)算策略和FlashAttentionV2同時工作的話會導(dǎo)致Transformer

    2024年02月20日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包