国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention

這篇具有很好參考價(jià)值的文章主要介紹了【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila & T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html

Perceiver:迭代關(guān)注的通用感知

摘要
這篇論文介紹了Perceiver,這是一種建立在Transformer基礎(chǔ)上的模型。它在處理來自視覺、聽覺、觸覺、本體感覺等多種形式的高維輸入時(shí),不像深度學(xué)習(xí)中的感知模型那樣被設(shè)計(jì)為針對(duì)單一模態(tài)。相反,傳統(tǒng)的感知模型通常依賴于特定于領(lǐng)域的假設(shè),例如幾乎所有現(xiàn)有視覺模型都利用的局部網(wǎng)格結(jié)構(gòu)。這些先驗(yàn)引入了有用的歸納偏見,但也使模型被鎖定到單個(gè)模態(tài)。

Perceiver模型利用不對(duì)稱的注意力機(jī)制,將輸入迭代地提煉為一個(gè)緊湊的潛在瓶頸,使其能夠擴(kuò)展以處理非常大的輸入。論文展示了這種架構(gòu)在各種模態(tài)的分類任務(wù)上與或優(yōu)于強(qiáng)大的專門模型:圖像、點(diǎn)云、音頻、視頻和視頻+音頻。Perceiver在ImageNet上通過直接關(guān)注50,000像素而獲得了與ResNet-50和ViT相媲美的性能,而不需要2D卷積。在AudioSet中,它在所有模態(tài)中都表現(xiàn)出競(jìng)爭(zhēng)力。

【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention,論文閱讀
圖1:Perceiver是一種基于關(guān)注機(jī)制原理的架構(gòu),能夠處理高維輸入,如圖像、視頻、音頻、點(diǎn)云和多模態(tài)組合,而不做特定于領(lǐng)域的假設(shè)。Perceiver使用交叉注意力模塊,將高維輸入字節(jié)數(shù)組投影到一個(gè)固定維度的潛在瓶頸(輸入索引數(shù)M遠(yuǎn)遠(yuǎn)大于潛在索引數(shù)N),然后使用潛在空間中的一堆Transformer風(fēng)格的自注意力塊進(jìn)行處理。Perceiver通過交替使用交叉注意力和潛在自注意力塊,對(duì)輸入字節(jié)數(shù)組進(jìn)行迭代式關(guān)注。

【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention,論文閱讀
圖2:我們?cè)趤碜訧mageNet(Deng等人,2009)的圖像(左側(cè)),AudioSet(Gemmeke等人,2017)的視頻和音頻(既考慮多模態(tài)也考慮單模態(tài))(中間),以及ModelNet40(Wu等人,2015)的3D點(diǎn)云(右側(cè))上對(duì)Perceiver架構(gòu)進(jìn)行訓(xùn)練。基本上不需要進(jìn)行架構(gòu)上的更改,就可以在各種不同的輸入數(shù)據(jù)上使用該模型。

【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention,論文閱讀
表1:在ImageNet上的Top-1驗(yàn)證準(zhǔn)確率(以%表示)。使用2D卷積的模型在架構(gòu)上利用了特定領(lǐng)域的網(wǎng)格結(jié)構(gòu),而僅使用全局注意力的模型則沒有這樣的假設(shè)。第一個(gè)模塊報(bào)告了從像素獲得的標(biāo)準(zhǔn)性能 - 這些數(shù)字來自文獻(xiàn)。第二個(gè)模塊顯示了當(dāng)輸入是RGB值與2D傅里葉特征(FF)串聯(lián)在一起時(shí)的性能 - 這與Perceiver接收的輸入相同。這個(gè)模塊使用我們對(duì)基線的實(shí)現(xiàn)。Perceiver在ImageNet上與標(biāo)準(zhǔn)基線競(jìng)爭(zhēng),而不依賴于特定領(lǐng)域的架構(gòu)假設(shè)。

【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention,論文閱讀
圖3:來自我們?cè)贗mageNet上表現(xiàn)最佳模型的第一、第二和第八(最后)個(gè)交叉關(guān)注層的注意力圖(參見表1)。在該模型中,交叉關(guān)注模塊2-8共享權(quán)重。第1行:原始圖像和來自每個(gè)這些層的一個(gè)注意力圖的局部放大圖。第2-4行:交叉關(guān)注模塊的注意力圖概覽。注意力圖似乎以一系列空間頻率的格子狀圖案掃描輸入圖像??梢暬淖⒁饬D沒有疊加在輸入圖像上:任何明顯的圖像結(jié)構(gòu)都存在于注意力圖本身中(狗在第一個(gè)模塊的注意力圖中清晰可見)。文章來源地址http://www.zghlxwxcb.cn/news/detail-828779.html

到了這里,關(guān)于【PMLR21‘論文閱讀】Perceiver: General Perception with Iterative Attention的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 《論文閱讀》SetGNER:General Named Entity Recognition as Entity Set Generation

    《論文閱讀》SetGNER:General Named Entity Recognition as Entity Set Generation

    不知道是不是大模型的流行還是什么其他原因,導(dǎo)致現(xiàn)在網(wǎng)上都沒有人來分享NER模型的相關(guān)論文了~ 本文方法簡(jiǎn)單,代碼應(yīng)該也比較簡(jiǎn)單(但是沒見作者放出來)。 推薦指數(shù):★★☆☆☆ 處理三種不同場(chǎng)景的NER 與 sequence-to-sequence NER 方法不同,本模型不需要強(qiáng)制實(shí)體按照順序

    2023年04月21日
    瀏覽(28)
  • 論文閱讀-A General Language for Modeling Social Media Account Behavior

    論文閱讀-A General Language for Modeling Social Media Account Behavior

    ? 論文鏈接:https://arxiv.org/pdf/2211.00639v1.pdf 目錄 摘要 1 Introduction 2 Related work 2.1 Automation 2.2 Coordination 3 Behavioral Language for Online Classification ?3.1 BLOC alphabets 3.1.1 Action alphabet 3.1.2 Content alphabets 3.2 BLOC models 3.2.1語言模式 3.2.2 Vector models 4 Discriminative power of BLOC 4.1 Characterizing individu

    2024年02月09日
    瀏覽(25)
  • 論文閱讀 - Coordinated Behavior on Social Media in 2019 UK General Election

    論文閱讀 - Coordinated Behavior on Social Media in 2019 UK General Election

    論文鏈接: https://arxiv.org/abs/2008.08370 目錄 摘要: Introduction Contributions Related Work Dataset Method Overview Surfacing Coordination in 2019 UK GE Analysis of Coordinated Behaviors ????????協(xié)調(diào)的在線行為是信息和影響力行動(dòng)的重要組成部分,因?yàn)樗鼈兛梢愿行У貍鞑ヌ摷傩畔ⅰ?大多數(shù)關(guān)于協(xié)同

    2024年02月07日
    瀏覽(22)
  • 【論文閱讀】Uformer:A General U-Shaped Transformer for Image Restoration

    ??博客主頁(yè):??睡晚不猿序程?? ?首發(fā)時(shí)間:2023.6.8 ?最近更新時(shí)間:2023.6.8 ??本文由 睡晚不猿序程 原創(chuàng) ??作者是蒻蒟本蒟,如果文章里有任何錯(cuò)誤或者表述不清,請(qǐng) tt 我,萬分感謝!orz 目錄 ??前言 1. 內(nèi)容簡(jiǎn)介 2. 論文瀏覽 3. 圖片、表格瀏覽 4. 引言瀏覽 5. 方法 5.

    2024年02月08日
    瀏覽(27)
  • 論文閱讀綜述:自動(dòng)駕駛感知的多模態(tài)傳感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    論文閱讀綜述:自動(dòng)駕駛感知的多模態(tài)傳感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    題目 :Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自動(dòng)駕駛感知的多模態(tài)傳感器融合:綜述 鏈接 :https://arxiv.org/abs/2202.02703 只翻譯了個(gè)人認(rèn)為比較重要的東西,有些官方話就省了。這篇文章通俗易懂,不過綜述都是標(biāo)記文獻(xiàn)[xx]干了啥,其實(shí)咱也不知道他具體是咋

    2023年04月08日
    瀏覽(30)
  • 圖像融合論文閱讀:IFCNN: A general image fusion framework based on convolutional neural network

    圖像融合論文閱讀:IFCNN: A general image fusion framework based on convolutional neural network

    @article{zhang2020ifcnn, title={IFCNN: A general image fusion framework based on convolutional neural network}, author={Zhang, Yu and Liu, Yu and Sun, Peng and Yan, Han and Zhao, Xiaolin and Zhang, Li}, journal={Information Fusion}, volume={54}, pages={99–118}, year={2020}, publisher={Elsevier} } 論文級(jí)別:SCI A1 影響因子:18.6 ?? 該論文是【

    2024年02月03日
    瀏覽(22)
  • XLINK (SIGCOMM ‘21) MPQUIC多路徑傳輸論文閱讀筆記

    XLINK (SIGCOMM ‘21) MPQUIC多路徑傳輸論文閱讀筆記

    論文及視頻:XLINK: QoE-driven multi-path QUIC transport in large-scale video services XLINK設(shè)計(jì)思想: 結(jié)合MPQUIC與短視頻應(yīng)用——傳輸層應(yīng)用層協(xié)同 通過重注入來解決HoL阻塞以最大化QoE,同時(shí)最小化重注入成本 XLINK的核心貢獻(xiàn): MPQUIC+短視頻大規(guī)模部署經(jīng)驗(yàn) 基于播放器buffer的重注入調(diào)節(jié)策略

    2024年02月10日
    瀏覽(41)
  • 《論文閱讀21》Equivariant Multi-View Networks

    《論文閱讀21》Equivariant Multi-View Networks

    研究領(lǐng)域:計(jì)算機(jī)視覺 | 多視角數(shù)據(jù)處理中實(shí)現(xiàn) 等變性 論文:Equivariant Multi-View Networks ICCV 2019 論文鏈接 視頻鏈接 在計(jì)算機(jī)視覺中,模型在不同視角下對(duì)數(shù)據(jù)(例如,點(diǎn)云、圖像等)對(duì)數(shù)據(jù)的變化具有一定的響應(yīng)性。為了使模型能夠更好地適應(yīng)這種變化,不是僅僅對(duì)某個(gè)特定

    2024年02月10日
    瀏覽(17)
  • 《論文閱讀:Dataset Condensation with Distribution Matching》

    《論文閱讀:Dataset Condensation with Distribution Matching》

    點(diǎn)進(jìn)去這篇文章的開源地址,才發(fā)現(xiàn)這篇文章和DC DSA居然是一個(gè)作者,數(shù)據(jù)濃縮寫了三篇論文,第一篇梯度匹配,第二篇數(shù)據(jù)增強(qiáng)后梯度匹配,第三篇匹配數(shù)據(jù)分布。DC是匹配濃縮數(shù)據(jù)和原始數(shù)據(jù)訓(xùn)練一次后的梯度差,DSA是在DC前加入了一層數(shù)據(jù)增強(qiáng),DM直接就匹配濃縮數(shù)據(jù)和

    2024年02月08日
    瀏覽(22)
  • 【論文閱讀筆記】Contrastive Learning with Stronger Augmentations

    基于提供的摘要,該論文的核心焦點(diǎn)是在對(duì)比學(xué)習(xí)領(lǐng)域提出的一個(gè)新框架——利用強(qiáng)數(shù)據(jù)增強(qiáng)的對(duì)比學(xué)習(xí)(Contrastive Learning with Stronger Augmentations,簡(jiǎn)稱CLSA)。以下是對(duì)摘要的解析: 問題陳述: 表征學(xué)習(xí)(representation learning)已在對(duì)比學(xué)習(xí)方法的推動(dòng)下得到了顯著發(fā)展。 當(dāng)前

    2024年02月19日
    瀏覽(25)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包