国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 論文閱讀筆記

這篇具有很好參考價(jià)值的文章主要介紹了Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 論文閱讀筆記。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。


寫在前面

??好久沒看到有做 Zero-shot RIS 的文章了,看到 arxiv 上面更新了這篇,特意拿出來學(xué)習(xí)一下。

  • 論文地址:Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation
  • 代碼地址:原文未提供
  • 預(yù)計(jì)投稿于:AAAI 等頂會(huì)
  • Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 6 千粉絲有你的參與呦~

一、Abstract

??本文研究 zero-shot 指代圖像分割,旨在沒有訓(xùn)練標(biāo)注的情況下,識(shí)別出與指代表達(dá)式最相關(guān)的目標(biāo)。之前的方法利用預(yù)訓(xùn)練的模型,例如 CLIP,來對(duì)齊實(shí)例級(jí)別的 masks。然而 CLIP 僅考慮了圖文對(duì)間的全局水平上的對(duì)齊,忽視了細(xì)粒度的匹配。于是本文引入 Text Augmented Spatial-aware (TAS) zero-shot 指代圖像分割框架,無須訓(xùn)練且對(duì)任意的視覺編碼器魯棒。TAS 整合了一個(gè) mask proposal 網(wǎng)絡(luò)用于實(shí)例級(jí)別的 mask 提取,一個(gè)文本增強(qiáng)的視覺-文本匹配得分用于挖掘圖文間的關(guān)聯(lián),一個(gè)空間校正器用于 mask 后處理。除了常規(guī)的視覺-文本匹配得分外,增強(qiáng)文本的匹配得分包含了 P-score 和 N-score。P-score 通過一個(gè)字幕模型彌補(bǔ)視覺-文本鴻溝;N-score 通過負(fù)短語挖掘,實(shí)現(xiàn)區(qū)域-文本對(duì)的細(xì)粒度對(duì)齊。大量實(shí)驗(yàn)表明方法的效果很好。

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

二、引言

??首先介紹下 referring expression segmentation 指代表達(dá)分割的定義,應(yīng)用,手工標(biāo)注的不易。于是本文研究 zero-shot 指代圖像分割來減少成本。接下來是一些方法的介紹,主要是指出直接應(yīng)用 CLIP 效果不太好。

??于是本文引入文本增強(qiáng)的空間感知 Text Augmented Spatial-aware (TAS) zero-shot 用于指代表達(dá)式圖像分割框架,由一個(gè) mask proposal 網(wǎng)絡(luò),文本增強(qiáng)視覺-文本匹配得分,空間校正器組成。其中文本增強(qiáng)視覺-文本匹配得分由三個(gè)得分模塊組合得到:第一個(gè)得分稱之為 V-score,用于衡量 masked 圖像和指代表達(dá)式間的相似度;第二個(gè)得分稱之為 P-score,通過遷移 masked inage 到文本內(nèi),彌補(bǔ)文本-視覺鴻溝。具體來說,為每個(gè) masked 圖像生成一條字幕,接下來計(jì)算該字幕與指代表達(dá)式的相似性;第三個(gè)得分稱之為 N-score,計(jì)算 masked 圖像負(fù)表達(dá)式的余弦相似度。其中負(fù)表達(dá)式是在輸入圖像中的字幕中,挖掘那些名詞短語得到。最后對(duì)上述三個(gè)得分進(jìn)行線性組合,選擇出與指代表達(dá)式最相關(guān)的 mask。另外由于 CLIP 很難理解方向的描述詞,于是提出一種空間校正器作為一個(gè)后處理模塊。

??在不修改 CLIP 結(jié)構(gòu)或者微調(diào)的情況下,本文的方法使用文本增強(qiáng)的方式進(jìn)行 CLIP 預(yù)測(cè),提高了 zero-shot RES 的性能,實(shí)驗(yàn)效果很好。

三、相關(guān)工作

3.1 Zero-shot 分割

??介紹一些方法,包括 CLIP、ALIGN、ALBEF、Segment Anything Model (SAM)。

3.2 Referring Image Segmentation

??介紹下 Referring Image Segmentation (RIS) 的定義。一些監(jiān)督方法需要像素級(jí)別的標(biāo)注,但是標(biāo)注成本很高。最近提出的一些弱監(jiān)督分割工作僅基于圖像文本對(duì)數(shù)據(jù),另外一些工作進(jìn)一步利用 CLIP 直接檢索出 mask,而無需任何的訓(xùn)練過程。

3.3 Image Captioning

??介紹下 Image Captioning 的定義,但是需要大量的數(shù)據(jù)。最近的一些大預(yù)言模型豐富了生成的文本字幕的多樣性。本文采用廣泛使用的圖像字幕網(wǎng)絡(luò) BLIP-2。

四、方法

4.1 總體框架

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理
??提出的 Text Augmented Spatial-aware (TAS) 由三個(gè)部件組成:mask proposal 網(wǎng)絡(luò)、文本增強(qiáng)的視覺-文本匹配得分 text-augmented visual-text matching score、空間校正器。Mask proposal 網(wǎng)絡(luò)首先提取實(shí)例級(jí)別的 mask proposals。然后計(jì)算所有 masked 圖像與指代表達(dá)式的匹配得分,用于衡量 masks 和文本的相似度。最后通過校正器的后處理,選出與指代表達(dá)式最相關(guān)的 mask。

4.2 Mask Proposal 網(wǎng)絡(luò)

??將此任務(wù)分解為兩過程:mask proposal 提取、masked image-text matching。為獲得 mask proposals,采用離線的 mask 提取器,即 SAM 作為 mask proposal 網(wǎng)絡(luò),同時(shí)這一網(wǎng)絡(luò)決定了模型的上界。

FreeSOLO vs. SAM

??之前的方法利用 FreeSOLO 來獲得所有 masks,然而實(shí)驗(yàn)表明最近提出的 SAM 在分割單個(gè)目標(biāo)時(shí)的效果更好。 下圖展示了一些 mask proposal 網(wǎng)絡(luò)的比較:

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理
??從上圖中可以看出,SAM 效果更好,因此模型的上界更高。FreeSOLO 在區(qū)分遮擋或重疊場(chǎng)景時(shí)效果比 SAM 差,于是本文采用 SAM 作為 mask proposal 網(wǎng)絡(luò)。

4.3 文本增強(qiáng)的視覺-文本匹配得分

??Mask proposal 網(wǎng)絡(luò)提供了實(shí)例級(jí)別的 masks,但并未包含語義信息。為緩解 CLIP 的限制,引入文本引導(dǎo)的視覺-文本匹配得分, V-score、P-score、N-score。

V-score

??給定輸入圖像 I ∈ R H × W × 3 I\in \mathbb{R}^{H\times W\times3} IRH×W×3 和指代表達(dá)式 T r T_r Tr?。SAM 從輸入圖像中提取一系列二值化的 masks M \mathbb{M} M,然后將對(duì)應(yīng)的前景區(qū)域裁剪出來,送入 CLIP 視覺編碼器。通過 CLIP 提取出的視覺和文本特征用于計(jì)算余弦相似度:
I m = c r o p ( I , m ) S m v = cos ? ( E v ( I m ) , E t ( T r ) ) \begin{aligned} &I_m=\mathsf{crop}(I,m)\\ &\mathbf{S}_m^\mathrm{v}=\cos(\mathrm{E}_v(I_m),\mathrm{E}_t(T_r)) \end{aligned} ?Im?=crop(I,m)Smv?=cos(Ev?(Im?),Et?(Tr?))?其中 c r o p \mathsf{crop} crop 表示 masking 和 cropping 操作。 E v \mathrm{E}_v Ev? E t \mathrm{E}_t Et? 表示 CLIP 視覺和文本編碼器, c o s \mathsf{cos} cos 表示兩種特征的余弦相似度,輸出結(jié)果為 S m \mathbf{S}_m Sm?,表示視覺-文本匹配得分。CLIP 視覺和文本編碼器可以被任意的預(yù)訓(xùn)練模型代替。

P-score

??使用一個(gè)圖像字幕模型為每個(gè) masked image 生成補(bǔ)充的字幕。之后利用 CLIP 文本編碼器編碼這一字幕,并計(jì)算與指代表達(dá)式的余弦得分。這一過程表示如下:
S m p = cos ? ( E t ( C m ) , E t ( T r ) ) \mathrm{S}_m^\mathrm{p}=\cos(\mathrm{E}_t(C_m),\mathrm{E}_t(T_r)) Smp?=cos(Et?(Cm?),Et?(Tr?))其中 S p \mathrm{S}^\mathrm{p} Sp 為 P-score,用于衡量字幕和指代表達(dá)式的相似度。同時(shí)該字幕模型可以用任意的字幕模型代替, S p \mathrm{S}^\mathrm{p} Sp 的效果也高度取決于生成字幕的質(zhì)量。

N-score

??考慮到圖像中的多個(gè)目標(biāo)可能屬于不相關(guān)的指代表達(dá)式,于是提出 N-score 過濾掉這些目標(biāo)。為區(qū)分這些目標(biāo),收集負(fù)表達(dá)式。然后將 masked image 和這些負(fù)表達(dá)式的相似度記為負(fù)的 N-score。此得分性能取決于負(fù)的表達(dá)式。

??為挖掘不相關(guān)的表達(dá)式,首先對(duì)于輸入的圖像,生成一個(gè)總體的字幕。然后使用 spacy 提取名詞短語,將其視為潛在的負(fù)表達(dá)式。需要注意的是可能有多個(gè)短語指向同一目標(biāo)。為避免這種情況,使用 Wordnet 來去除那些包含同義詞的短語。具體來說,計(jì)算兩個(gè)名詞的路徑相似度(?未知其意),然后決定是否需要消除這種同義詞。而剩下的名詞短語集 T n \mathbb{T}_n Tn? 用于計(jì)算與 masked images 間的余弦相似度。定義 S m \mathrm{S}_m Sm? 為整體短語的平均相似度值:
S m n = ? 1 ∣ T n ∣ ∑ T ∈ T n cos ? ( E v ( I m ) , E t ( T ) ) \mathrm{S}_m^\mathrm{n}=-\frac1{|\mathrm{T}_n|}\sum_{T\in\mathrm{T}_n}\cos(\mathrm{E}_v(I_m),\mathrm{E}_t(T)) Smn?=?Tn?1?TTn??cos(Ev?(Im?),Et?(T))需要注意的是 S n \mathrm{S}^\mathrm{n} Sn 是個(gè)負(fù)分?jǐn)?shù),因?yàn)槠浜饬康氖?masked image 與目標(biāo)表達(dá)式不相關(guān)的概率。 S n \mathrm{S}^\mathrm{n} Sn 同樣與字幕模型相關(guān),更詳細(xì)的字幕有益于捕捉更多地負(fù)表達(dá)式。

The text-augmented visual-text matching score

??由于上述三種得分都是基于 CLIP 計(jì)算的余弦相似度,于是通過線性組合得到最終的視覺-文本匹配得分,同時(shí)輸出最高得分的 mask:
S m = S m v + α S m p + λ S m n m ^ = argmax ? m ∈ M S m \begin{aligned}\mathbf{S}_m&=\mathbf{S}_m^\mathrm{v}+\alpha\mathbf{S}_m^\mathrm{p}+\lambda\mathbf{S}_m^\mathrm{n}\\\hat{m}&=\underset{m\in\mathbb{M}}{\operatorname*{argmax}}\mathbf{S}_m\end{aligned} Sm?m^?=Smv?+αSmp?+λSmn?=mMargmax?Sm??其中 m ^ \hat{m} m^ 為最高得分 S \mathbf{S} S 的 mask。

4.4 空間校正器

??由于 CLIP 并未考慮空間關(guān)系,于是提出一個(gè)空間解析器用于后處理,強(qiáng)制模型從特定區(qū)域中選擇 masks。這一過程可以劃分為三步:方向描述鑒定、位置計(jì)算、空間校正。

方向描述鑒定

??首先通過 spacy 從指代表達(dá)式 T r T_r Tr? 中提取方向詞,并檢查其是否為 “up、bottom、left、right”。如果描述詞中沒有方向詞,則無需應(yīng)用空間校正器。

位置計(jì)算

??接下來為每個(gè) mask 計(jì)算其中心點(diǎn),從而作為位置的表示。具體來說,平均所有前景像素的坐標(biāo)為 mask 的中心點(diǎn)位置。

空間校正

??在得到中心點(diǎn)位置后,在相應(yīng)的方向范圍內(nèi)選擇所有得分 S S S 中最大的作為 mask。在這個(gè)后處理之后,就能限制 CLIP 關(guān)注到特定區(qū)域了,從而解決方向描述的問題,校正其錯(cuò)誤的預(yù)測(cè)。

五、實(shí)驗(yàn)

5.1 數(shù)據(jù)集和指標(biāo)

??RefCOCO、RefCOCO+、RefCOCOg、PhraseCut test set;
??overall Intersection over Union (oIoU)、mean Intersection over Union (mIoU)

5.2 實(shí)施細(xì)節(jié)

??默認(rèn)采用 ViT-H+SAM,超參數(shù) predicted iou threshold 和 stability score threshold 都設(shè)為 0.7。points per side 設(shè)為 8。對(duì)于 BLIP-2,采用 OPT-2.7b 模型。對(duì)于 CLIP,采用 RN50 和 ViT-B/32。輸出圖像尺寸 224 × 224 224\times224 224×224。在 RefCOCO 數(shù)據(jù)集上, λ = 0.1 \lambda=0.1 λ=0.1;在 RefCOCO+ 數(shù)據(jù)集上, λ = 1 \lambda=1 λ=1,所有數(shù)據(jù)集上的 α = 0.1 \alpha=0.1 α=0.1。

5.3 Baseline

??Baseline 方法可以劃分為兩種類型:基于激活圖的、基于圖像文本相似度的。本文采用 mask proposals 作為激活圖,然后選擇最大平均激活分?jǐn)?shù)的 mask。類似的方法有:Grad-CAM、Score Map、Clip-Surgery。而基于相似度的方法有:Region Token、Global-Local、Text-only、CLIP-only、TSEG。

5.4 結(jié)果

不同數(shù)據(jù)集的性能

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理
指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

定性分析

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

5.5 消融實(shí)驗(yàn)

超參數(shù) α \alpha α β \beta β 的敏感性

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

提出模塊的重要性

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

masked images 輸入格式的影響

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

image captioning 模型的重要性

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

TAS 能夠泛化到其它的圖像-文本對(duì)比模型嗎?

指代圖像分割,RIS_REC,論文閱讀,筆記,transformer,圖像處理

TAS 能夠應(yīng)用于實(shí)際場(chǎng)景嗎?

??TAS 無需很高的計(jì)算資源,所有實(shí)驗(yàn)執(zhí)行在單塊 RTX 3090 上,整個(gè)模型大約 22GB,包含一個(gè) mask 生成模塊 (SAM),字幕器 (BLIP2),masked 圖像-文本匹配(CLIP)。推理速度 3.63 秒/張圖像。

六、結(jié)論

??本文提出文本增強(qiáng)的空間感知 Text Augmented Spatialaware (TAS) 框架應(yīng)用于 zero-shot RIS,由一個(gè) mask proposal 模塊、一個(gè)文本增強(qiáng)的視覺-文本匹配得分 text-augmented visual-text matching score、一個(gè)空間校正器 spatial rectifier 組成。首先利用離線的 SAM 得到實(shí)例級(jí)別的 masks,然后文本增強(qiáng)的視覺-文本匹配得分用于選擇出與指代表達(dá)式最相關(guān)聯(lián)的 mask。接著是空間校正器中的后處理操作,能夠解決方向描述的問題。實(shí)驗(yàn)效果很好。

七、限制

??其中一個(gè)限制是 SAM 偶爾未能生成理想的 mask proposals,因此限制了性能。此外本文的框架上界受限于部署的圖像-文本對(duì)比模型。另一個(gè)限制在于 TAS 不能解決復(fù)雜的場(chǎng)景。此外,對(duì)于指代表達(dá)式中的代稱不是太能理解,可能需要未來的大語言模型。

寫在后面

??通篇看下來,這篇文章寫的是關(guān)于 zero-shot 的方法,但是目前基于 SAM 的方法確實(shí)很厲害。所以不知道這篇論文會(huì)不會(huì)進(jìn)入審稿人的眼中呢?文章來源地址http://www.zghlxwxcb.cn/news/detail-827088.html

到了這里,關(guān)于Zero-shot RIS SOTA:Text Augmented Spatial-aware Zero-shot Referring Image Segmentation 論文閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    【計(jì)算機(jī)視覺】Zero-shot, One-shot和Few-shot的理解

    機(jī)器學(xué)習(xí)任務(wù)按照對(duì) 樣本量 的需求可以分為:傳統(tǒng)監(jiān)督式學(xué)習(xí)、Few-shot Learning、One-shot Learning、Zero-shot Learning。 傳統(tǒng)learning,煉丹模式。傳統(tǒng)深度學(xué)習(xí)的學(xué)習(xí)速度慢,往往需要學(xué)習(xí)海量數(shù)據(jù)和反復(fù)訓(xùn)練后才能使網(wǎng)絡(luò)模型具備不錯(cuò)的泛化能力,傳統(tǒng)learning可以總結(jié)為:海量數(shù)據(jù)

    2024年02月04日
    瀏覽(41)
  • AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP與zero-shot

    AIGC零基礎(chǔ)30天學(xué)習(xí)——CLIP與zero-shot

    ? ? ? ?在前面對(duì)CLIP的學(xué)習(xí)中,對(duì) zero-shot prediction 環(huán)節(jié)一直有一些疑惑,zero-shot是什么,它該如何進(jìn)行操作? ? ? zero-shot是指零樣本學(xué)習(xí),和zero-shot相關(guān)聯(lián)的概念包括many-shot、few-shot和one-shot,這些其實(shí)都是從訓(xùn)練集樣本類型、測(cè)試集樣本類型和對(duì)應(yīng)的樣本數(shù)量角度進(jìn)行劃分

    2024年02月09日
    瀏覽(19)
  • 105、Zero-1-to-3: Zero-shot One Image to 3D Object

    105、Zero-1-to-3: Zero-shot One Image to 3D Object

    官網(wǎng) ?使用合成數(shù)據(jù)集來學(xué)習(xí)相對(duì)攝像機(jī)視點(diǎn)的控制,這允許在指定的攝像機(jī)變換下生成相同對(duì)象的新圖像,用于從單個(gè)圖像進(jìn)行三維重建的任務(wù)。 ?輸入圖像 x ∈ R H × W × 3 x in R^{H times W times 3} x ∈ R H × W × 3 ,所需視點(diǎn)的相對(duì)攝像機(jī)旋轉(zhuǎn)和平移 R ∈ R 3 × 3 , T ∈ R

    2024年02月01日
    瀏覽(27)
  • 論文筆記--Prompt Consistency for Zero-Shot Task Generalization

    論文筆記--Prompt Consistency for Zero-Shot Task Generalization

    標(biāo)題:Prompt Consistency for Zero-Shot Task Generalization 作者:Chunting Zhou, Junxian He, Xuezhe Ma, Taylor Berg-Kirkpatrick, Graham Neubig 日期:2022 期刊:Arxiv preprint ??文章基于prompt的一致性學(xué)習(xí)給出了一種zero-shot task generalization(零樣本泛化學(xué)習(xí))的無監(jiān)督方法。數(shù)值實(shí)驗(yàn)表明,文章提出的指令

    2024年02月10日
    瀏覽(25)
  • huggingface pipeline零訓(xùn)練樣本分類Zero-Shot Classification的實(shí)現(xiàn)

    1 : 默認(rèn)的model 。 輸出是 education 第一位的。 2 : 使用 morit/chinese_xlm_xnli : 3:使用 facebook/bart-large-mnli 4:

    2024年02月20日
    瀏覽(26)
  • diffusion model (七) diffusion model是一個(gè)zero-shot 分類器

    diffusion model (七) diffusion model是一個(gè)zero-shot 分類器

    Paper: Your Diffusion Model is Secretly a Zero-Shot Classifier Website: diffusion-classifier.github.io/ diffusion model(一)DDPM技術(shù)小結(jié) (denoising diffusion probabilistic) diffusion model(二)—— DDIM技術(shù)小結(jié) diffusion model(三)—— classifier guided diffusion model diffusion model(四)文生圖diffusion model(classifier-free

    2024年02月12日
    瀏覽(17)
  • 【深度學(xué)習(xí)】【風(fēng)格遷移】Zero-shot Image-to-Image Translation

    【深度學(xué)習(xí)】【風(fēng)格遷移】Zero-shot Image-to-Image Translation

    論文:https://arxiv.org/abs/2302.03027 代碼:https://github.com/pix2pixzero/pix2pix-zero/tree/main 大規(guī)模文本到圖像生成模型展示了它們合成多樣且高質(zhì)量圖像的顯著能力。然而,直接將這些模型應(yīng)用于編輯真實(shí)圖像仍然存在兩個(gè)挑戰(zhàn)。首先, 用戶很難提供完美的文本提示,準(zhǔn)確描述輸入圖像

    2024年02月13日
    瀏覽(11)
  • 【NLP文章閱讀】Zero-Shot Information Extraction via Chatting with ChatGPT

    【NLP文章閱讀】Zero-Shot Information Extraction via Chatting with ChatGPT

    轉(zhuǎn)載和使用規(guī)則:更多論文解讀請(qǐng)關(guān)注: NLP_paper,如需轉(zhuǎn)載文章需要為我的github項(xiàng)目star,并聲明文章來源 零樣本信息提?。↖nformation Extraction)旨在從未注釋的文本中構(gòu)建IE系統(tǒng)。由于很少涉及人類干預(yù),這是一項(xiàng)具有挑戰(zhàn)性的工作。零樣本IE具有挑戰(zhàn)性但值得一提,它減少

    2023年04月09日
    瀏覽(21)
  • Prompt-“設(shè)計(jì)提示模板:用更少數(shù)據(jù)實(shí)現(xiàn)預(yù)訓(xùn)練模型的卓越表現(xiàn),助力Few-Shot和Zero-Shot任務(wù)”

    Prompt-“設(shè)計(jì)提示模板:用更少數(shù)據(jù)實(shí)現(xiàn)預(yù)訓(xùn)練模型的卓越表現(xiàn),助力Few-Shot和Zero-Shot任務(wù)”

    通過設(shè)計(jì)提示(prompt)模板,實(shí)現(xiàn)使用更少量的數(shù)據(jù)在預(yù)訓(xùn)練模型(Pretrained Model)上得到更好的效果,多用于:Few-Shot,Zero-Shot 等任務(wù)。 prompt 是當(dāng)前 NLP 中研究小樣本學(xué)習(xí)方向上非常重要的一個(gè)方向。舉例來講,今天如果有這樣兩句評(píng)論: 什么蘋果啊,都沒有蘋果味,怪怪

    2024年02月11日
    瀏覽(20)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,針對(duì)《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻譯。 在沒有標(biāo)記或額外的未標(biāo)記數(shù)據(jù)的情況下,我們?nèi)绾螌㈩A(yù)先訓(xùn)練的模型擴(kuò)展到許多語言理解任務(wù)?經(jīng)過預(yù)訓(xùn)練的語言模型(PLM)對(duì)于廣泛的NLP任務(wù)是有效的。然而,現(xiàn)有的方法要么需要對(duì)下游

    2024年02月07日
    瀏覽(23)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包