国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

大模型時(shí)代下做科研的四個(gè)思路

這篇具有很好參考價(jià)值的文章主要介紹了大模型時(shí)代下做科研的四個(gè)思路。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

背景

在模型越來越大的時(shí)代背景下,如何利用有限的資源做出一些科研工作。

四個(gè)方向

1、Efficient(PEFT)

提升訓(xùn)練效率,這里以PEFT(parameter efficient fine tuning)為例

2、Existing stuff(pretrained model)、New directions

使用別人的預(yù)訓(xùn)練模型,新的研究方向

3、plug-and-play

做一些即插即用的模塊,例如模型的模塊、目標(biāo)函數(shù)、新?lián)p失函數(shù)、數(shù)據(jù)增強(qiáng)方法等等。

4、Dataset,evaluation and survey

構(gòu)建數(shù)據(jù)集、發(fā)表分析為主的文章或者綜述論文

一、Efficient(PEFT)-第一個(gè)方向

通過論文AIM為例講述如何進(jìn)行PEFT,即在硬件資源有限時(shí)對(duì)大模型進(jìn)行高效微調(diào)

  • 論文地址:https://arxiv.org/abs/2302.03024
  • 論文標(biāo)題:AIM: Adapting Image Models for Efficient Video Action Recognition
  • 標(biāo)題翻譯:調(diào)整圖像模型以實(shí)現(xiàn)高效的視頻動(dòng)作識(shí)別

思考:已經(jīng)訓(xùn)練好的圖像模型是否需要繼續(xù)微調(diào)?

1、clip已經(jīng)證明了即使ZeroShot(模型不變,直接在各個(gè)數(shù)據(jù)集上進(jìn)行推理),它的效果也很好。即一個(gè)訓(xùn)練很好的圖片模型從中提取視覺特征是有泛化性、有效的。

2、繼續(xù)微調(diào)會(huì)導(dǎo)致災(zāi)難性遺忘。如果使用少量數(shù)據(jù)在大模型上微調(diào),可能會(huì)直接過擬合,或者大模型的很多特征丟失。

結(jié)論:預(yù)訓(xùn)練的圖像模型不需要繼續(xù)微調(diào)

傳統(tǒng)模型和論文改進(jìn)的微調(diào)方法對(duì)比圖:

大模型時(shí)代下做科研的四個(gè)思路

因此,論文的做法是,嘗試將模型參數(shù)鎖住,在上面加一些時(shí)序處理模塊、目標(biāo)函數(shù)等修改周邊的方式(即PEFT)讓圖片模型能夠做視頻理解的任務(wù),不需要重新訓(xùn)練視頻模型,省時(shí)省力。

兩種PEFT方法

1、adapter

最早來自于這篇論文:

  • 論文地址:https://arxiv.org/abs/1902.00751
  • 論文標(biāo)題:Parameter-Efficient Transfer Learning for NLP
  • 標(biāo)題翻譯:用于NLP的參數(shù)高效轉(zhuǎn)移學(xué)習(xí)

Adapter層的結(jié)構(gòu),如下圖右邊所示:下采樣FC層+非線性激活層+上采樣FC層,加上殘差連接。

這里PEFT的方法是指,如下圖左邊所示,在Transformer中加入了兩個(gè)adapter,進(jìn)行微調(diào)時(shí),原來的Transformer的參數(shù)都是鎖住的,只有adapter層的參數(shù)在學(xué)習(xí)。

大模型時(shí)代下做科研的四個(gè)思路

adapter層參數(shù)量和大模型相比非常少,例如在175B的GPT3中使用LoRa,需要訓(xùn)練的參數(shù)只要萬(wàn)分之一。因此訓(xùn)練成本大幅降低。

2、prompt tuning

  • 論文地址:https://arxiv.org/abs/2109.01134
  • 論文標(biāo)題:Learning to Prompt for Vision-Language Models

prompt tuning是指可以任意調(diào)整提示詞,這樣的調(diào)整對(duì)最后的性能會(huì)有很大的影響,能否得到想要的結(jié)果,取決于有沒有選擇一個(gè)好的提示詞。例如下圖所示,不同的提示詞對(duì)準(zhǔn)確率的影響很大。

大模型時(shí)代下做科研的四個(gè)思路

上圖是如何通過提示給圖片分類的?將類別名稱CLASS給模型,看哪個(gè)文字和圖片的相似度最高。

Prompt分為兩種:

Hard Prompt:人工設(shè)置的提示詞,不能修改也無(wú)法學(xué)習(xí)。設(shè)置這些需要一定的先驗(yàn)知識(shí),但我們并不會(huì)總有這樣的先驗(yàn)知識(shí)。

Soft Prompt:將提示詞設(shè)置為一個(gè)可學(xué)習(xí)的向量。如下圖所示 ,將文本端(text encoder)的輸入CLASS設(shè)置為learnable context,模型優(yōu)化的是這個(gè)context部分。這樣既可以節(jié)省很多計(jì)算量 ,也可以避免在下游任務(wù)時(shí)手動(dòng)設(shè)置提示詞。

大模型時(shí)代下做科研的四個(gè)思路

VPT

將可學(xué)習(xí)的Prompt方法用到純視覺任務(wù)中,做法如下圖所示。

  • 論文地址:https://arxiv.org/abs/2203.12119
  • 論文標(biāo)題:Visual Prompt Tuning

大模型時(shí)代下做科研的四個(gè)思路

圖中藍(lán)色部分是原來訓(xùn)練好的模型,紅色是需要微調(diào)的prompt,加入Prompt tuning有兩種方式:

1、VPT: Deep,在每一層的輸入輸出都加入prompt。

2、VPT: Shallow,在輸入端加入prompt。

近期PEFT方法總結(jié),從統(tǒng)一的觀點(diǎn)進(jìn)行歸納:

  • 論文地址:https://arxiv.org/abs/2110.04366

AIM模型設(shè)計(jì)

大模型時(shí)代下做科研的四個(gè)思路

如上圖所示,AIM模型就是在圖b的ViT模型中加入圖a的Adapter,共有圖c、d、e三種方式:

1、Spatial Adaptation,只在S-MSA層后面加入Adapter,即不增加視頻理解能力,只加一些學(xué)習(xí)的參數(shù)。

2、Temporal Adaptation,復(fù)用一個(gè)MSA層,在兩個(gè)MSA層后面都加入Adapter,即讓模型從Spatial和Temporal兩個(gè)方向上進(jìn)行學(xué)習(xí),從而有時(shí)序建模的能力。

3、Joint Adaptation,在Temporal Adaptation的基礎(chǔ)上,在MLP邊上也加入Adapter,即讓三個(gè)Adapter各司其職,使得優(yōu)化問題更簡(jiǎn)單一些。

注:MSA是多頭自注意力(MultiHead Self-Attention,S-MSA和T-MSA共享權(quán)重,但維度不同。

效果如下圖所示,只用14M參數(shù)的AIM模型效果已經(jīng)高過之前121M的模型。

大模型時(shí)代下做科研的四個(gè)思路

二、Existing stuff(pretrained model)-第二個(gè)方向

有兩點(diǎn):

1、巧妙使用別人的預(yù)訓(xùn)練模型,從而達(dá)到去做FewShot,ZeroShot,或者最多Fine Tuning的實(shí)驗(yàn)。

2、新的研究方向。

通過這篇論文講述這兩點(diǎn)是如何運(yùn)用的:

  • 論文地址:https://arxiv.org/abs/2207.05027
  • 論文標(biāo)題:Unsupervised Semantic Segmentation with Self-supervised Object-centric Representations

從標(biāo)題就可以看出這兩點(diǎn)技巧:

1、這里的Self-supervised是指使用了預(yù)訓(xùn)練好的DINO、DeepUSPS、BASNet等網(wǎng)絡(luò)

2、這里做的方向是Object-centric Learning,屬于蓬勃發(fā)展的題目,玩家不多、數(shù)據(jù)集不大

大模型時(shí)代下做科研的四個(gè)思路

上圖展示了如何使用幾個(gè)預(yù)訓(xùn)練好的模型,在無(wú)監(jiān)督的情況下找到新的物體,步驟如下:

1、通過預(yù)訓(xùn)練模型DeepUSPS找到一些顯著性物體的Mask。

例如,圖片中的籃球可以得到一個(gè)圓形的Mask

2、根據(jù)Mask將圖片中的對(duì)應(yīng)物體摳出來,并調(diào)整大小為224*224。

例如,將圖片中的籃球摳出來并放大

3、然后將步驟2得到的圖片通過預(yù)訓(xùn)練模型DINO返回一個(gè)1024*1024的特征(global representation)。

4、將所有的特征進(jìn)行聚類Clustering,這樣就可以通過無(wú)監(jiān)督學(xué)習(xí)得到這些物體的分類ID。

注:聚類只能將相同的物體分類到一起,但并不知道具體是什么物體。

5、將圖片和對(duì)應(yīng)的分類ID去訓(xùn)練一個(gè)語(yǔ)義分割網(wǎng)絡(luò)(Semantic segmentation network)。

注:這里相當(dāng)于一個(gè)有監(jiān)督的學(xué)習(xí),標(biāo)簽來自于步驟4

6、一張圖片可能有多個(gè)物體,所以加一個(gè)Self-training,多做幾個(gè)輪回。

這樣就可以從圖片中找到物體了。

三、plug-and-play-第三個(gè)方向

做一些通用的、即插即用的模塊,在一個(gè)設(shè)定的范圍內(nèi),加入了這樣的模塊后,能夠有一個(gè)統(tǒng)一的漲點(diǎn),并且能給出合適的分析,就非常有說服力了。通過MixGen論文講述如何加入模塊:

  • 論文地址:https://arxiv.org/abs/2206.08358
  • 論文標(biāo)題:MixGen: A New Multi-Modal Data Augmentation

文本的模型都很大,圖片的模型相對(duì)來說小一些,但是自注意力的參數(shù)是可以共享的,所以嘗試用文本大模型來蒸餾圖片小模型

注:模型蒸餾:使用訓(xùn)練集訓(xùn)練出來一個(gè)完整復(fù)雜的teacher模型,然后設(shè)計(jì)一個(gè)小規(guī)模的student模型,再固定teacher模型的權(quán)重參數(shù),然后使用訓(xùn)練集和teacher模型的輸出同時(shí)對(duì)student模型進(jìn)行訓(xùn)練,此時(shí)就需要設(shè)計(jì)一系列l(wèi)oss,讓student模型在蒸餾學(xué)習(xí)的過程中逐漸向teacher模型的表現(xiàn)特性靠攏,使得student模型的預(yù)測(cè)精度逐漸逼近teacher模型。

為什么之前圖片模型不做數(shù)據(jù)增強(qiáng)?

1、圖片模型訓(xùn)練時(shí)已經(jīng)用了很多圖片了,不需要再做數(shù)據(jù)增強(qiáng)。

’2、或者做了數(shù)據(jù)增強(qiáng),但是將其中的Color Jittering和Random Filp去掉了,因?yàn)檫@兩個(gè)對(duì)圖片的變化會(huì)導(dǎo)致圖片和文本不匹配。

例如:圖片有白色的狗和綠色的樹,只對(duì)圖片做Color Jittering會(huì)導(dǎo)致顏色變化,圖片中不再是白色的狗,但是文本依然是白色的狗,這樣文本和圖片就不匹配了。

論文的做法:既然目標(biāo)是盡可能保留更多信息,這里的做法很簡(jiǎn)單粗暴,就是直接將兩個(gè)句子拼接在一起,這樣就可以做到不丟失信息的情況下得到新的訓(xùn)練樣本。

例如下圖,將兩個(gè)圖片通過數(shù)據(jù)增強(qiáng)得到第三個(gè)圖片,同時(shí)將兩個(gè)圖片的文本進(jìn)行拼接得到第三個(gè)圖片的文本。

大模型時(shí)代下做科研的四個(gè)思路

審稿人的建設(shè)性提議:在下游任務(wù)只有少量數(shù)據(jù)時(shí)進(jìn)行數(shù)據(jù)增強(qiáng)。

四、Dataset,evaluation and survey-第四個(gè)方向

構(gòu)建數(shù)據(jù)集、發(fā)表分析為主的文章或者綜述論文,這里舉了兩篇論文為例。

以數(shù)據(jù)集為主的big detection,將三個(gè)數(shù)據(jù)集整合到一起:

  • 論文地址:https://arxiv.org/abs/2203.13249

視頻動(dòng)作檢測(cè)的綜述論文:文章來源地址http://www.zghlxwxcb.cn/news/detail-427545.html

  • 論文地址:https://arxiv.org/abs/2012.06567

到了這里,關(guān)于大模型時(shí)代下做科研的四個(gè)思路的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • MySQL的四個(gè)隔離級(jí)別對(duì)比

    最近在看MySQL的常見面試題, 簡(jiǎn)單記錄一下. 主要為了保證ACID中的隔離性, 一致性是目的. 原子性, 隔離性, 持久性都是手段. 隔離級(jí)別 臟讀(Dirty Read) 幻讀(Phantom Read) 不可重復(fù)讀(Non-repeatable Read) Read Uncommitted 可能發(fā)生 可能發(fā)生 可能發(fā)生 Read Committed 不會(huì)發(fā)生 可能發(fā)生 可

    2024年02月13日
    瀏覽(24)
  • 事務(wù)的四個(gè)特性、四個(gè)隔離級(jí)別以及數(shù)據(jù)庫(kù)的常用鎖

    事務(wù)的四個(gè)特性、四個(gè)隔離級(jí)別以及數(shù)據(jù)庫(kù)的常用鎖 四大特性 事務(wù)的四大特性,通常被稱為ACID特性,是數(shù)據(jù)庫(kù)管理系統(tǒng)(DBMS)確保事務(wù)處理的關(guān)鍵屬性。這四大特性分別是: 原子性(Atomicity): 原子性要求事務(wù)是一個(gè)不可分割的單位,要么全部執(zhí)行,要么全部不執(zhí)行。如

    2024年02月04日
    瀏覽(34)
  • 詳解數(shù)字化轉(zhuǎn)型的四個(gè)層級(jí)

    數(shù)字化轉(zhuǎn)型是指組織利用數(shù)字技術(shù)來改變其業(yè)務(wù)模式、流程和文化,以提高效率、增強(qiáng)競(jìng)爭(zhēng)力和創(chuàng)造更好的客戶體驗(yàn)。數(shù)字化轉(zhuǎn)型是一個(gè)復(fù)雜的過程,涉及組織的多個(gè)方面。在這個(gè)過程中,有四個(gè)主要的層級(jí)需要被理解和管理。本文將詳細(xì)介紹數(shù)字化轉(zhuǎn)型的四個(gè)層級(jí),以及每

    2024年02月01日
    瀏覽(18)
  • 從大數(shù)據(jù)的四個(gè)V了解它

    從大數(shù)據(jù)的四個(gè)V了解它

    我們一起創(chuàng)造了比以往更多的數(shù)據(jù)。想想看,除了工作之外,你在日常生活中創(chuàng)造了多少數(shù)據(jù)!例如,社交媒體上瀏覽的信息,Spotify上的音樂列表。將這些數(shù)據(jù)與來自世界各地其他人和組織的所有數(shù)據(jù)結(jié)合起來,你會(huì)感到頭暈。我們的行為,無(wú)論是線上還是線下,都會(huì)產(chǎn)生數(shù)

    2024年02月04日
    瀏覽(20)
  • 【Go】常見的四個(gè)內(nèi)存泄漏問題

    1、這里更多的是由于channel+for+select導(dǎo)致的,錯(cuò)誤的寫法導(dǎo)致了發(fā)送者或接收者沒有發(fā)現(xiàn)channel已經(jīng)關(guān)閉,任務(wù)已經(jīng)結(jié)束了,卻仍然在嘗試輸入輸出https://geektutu.com/post/hpg-exit-goroutine.html 不要把map用作全局

    2024年02月13日
    瀏覽(28)
  • 用wireshark流量分析的四個(gè)案例

    用wireshark流量分析的四個(gè)案例

    目錄 第一題 1 2 3 4 第二題 1 2 3. 第三題 1 2 第四題 1 2 3 題目: 1.黑客攻擊的第一個(gè)受害主機(jī)的網(wǎng)卡IP地址 2.黑客對(duì)URL的哪一個(gè)參數(shù)實(shí)施了SQL注入 3.第一個(gè)受害主機(jī)網(wǎng)站數(shù)據(jù)庫(kù)的表前綴(加上下劃線例如abc ) 4.第一個(gè)受害主機(jī)網(wǎng)站數(shù)據(jù)庫(kù)的名字 打開流量包,直接篩選http || tls找

    2024年02月10日
    瀏覽(27)
  • 程序員避免項(xiàng)目延期的四個(gè)小竅門!

    程序員避免項(xiàng)目延期的四個(gè)小竅門!

    原創(chuàng):陶朱公Boy(微信公眾號(hào)ID:taozhugongboy),歡迎分享,轉(zhuǎn)載請(qǐng)保留出處。 點(diǎn)評(píng): 身為程序員的你,不知道在你身上曾經(jīng)有沒有發(fā)生過,因?yàn)榉N種原因,導(dǎo)致項(xiàng)目延期的情況?(約定某個(gè)時(shí)間點(diǎn)上線,結(jié)果拖到幾天時(shí)間后)這里面我相信肯定有一些客觀因素存在:比如就

    2024年02月08日
    瀏覽(24)
  • 矩陣相似的四個(gè)必要條件及性質(zhì)證明。

    矩陣相似的四個(gè)必要條件及性質(zhì)證明。

    1.四個(gè)必要條件 2.嚴(yán)格證明 必要1 秩相等 必要2 行列式相等 必要3 特征值相等 必要4 跡相等 1.矩陣相似性質(zhì) 2.嚴(yán)格證明 性質(zhì)1 次冪相似,多項(xiàng)式相似 性質(zhì)2 可逆相似,可逆的多項(xiàng)式相似 性質(zhì)3 轉(zhuǎn)置相似 性質(zhì)4 伴隨相似

    2024年02月15日
    瀏覽(19)
  • NX二次開發(fā)獲取圓弧的四個(gè)象限點(diǎn)

    NX二次開發(fā)獲取圓弧的四個(gè)象限點(diǎn)

    ?我是用來用來畫水路線框的UF_MODL_ask_curve_points()可以按弧長(zhǎng)或者弧度獲取曲線的等分點(diǎn),取PI/2的圓弧,即將圓弧四等分,你也可以取任意等分點(diǎn)。

    2024年01月21日
    瀏覽(19)
  • 虛擬數(shù)字人全面落地的四個(gè)挑戰(zhàn):技術(shù)、產(chǎn)品、市場(chǎng)、法律

    虛擬數(shù)字人全面落地的四個(gè)挑戰(zhàn):技術(shù)、產(chǎn)品、市場(chǎng)、法律

    近兩年,虛擬數(shù)字人隨著元宇宙的風(fēng)潮得到了許多人的關(guān)注。在國(guó)內(nèi),虛擬數(shù)字人在一些領(lǐng)域開始應(yīng)用,例如直播帶貨、客服等。雖然虛擬數(shù)字人看起來有很好的前景,但實(shí)際上虛擬數(shù)字人要想得到全面的落實(shí),仍然還有很長(zhǎng)的一段路需要走,有一些挑戰(zhàn)需要去克服。 首先是

    2023年04月10日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包