国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀】Language Models are Few-Shot Learners(GPT-3)

這篇具有很好參考價(jià)值的文章主要介紹了【論文閱讀】Language Models are Few-Shot Learners(GPT-3)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

前言

本文簡(jiǎn)要介紹了GPT-3的背景,模型架構(gòu),訓(xùn)練數(shù)據(jù)以及訓(xùn)練方式部分。具體訓(xùn)練細(xì)節(jié),實(shí)驗(yàn)結(jié)果很多,可以在用到的時(shí)候再看

Intro

本文剖析了pretrain-finetune架構(gòu)存在的問題:

  • 對(duì)于每個(gè)新的任務(wù),都需要大量的標(biāo)注數(shù)據(jù)
  • 將表達(dá)能力更強(qiáng)的模型(預(yù)訓(xùn)練階段要求用大模型)在比較窄的數(shù)據(jù)(微調(diào)階段是在narrow數(shù)據(jù)分布上進(jìn)行的)上訓(xùn)練是不合理的。大模型的效果并不能泛化到OOD數(shù)據(jù)上
  • 人類在接觸一個(gè)下游任務(wù)時(shí)不需要大量的訓(xùn)練樣本,只需要對(duì)任務(wù)的描述或者幾個(gè)例子就可以。我們希望NLP模型也能有這種多任務(wù)之間無縫銜接的能力

解決上述問題可行的方案:

  • meta-learning:模型在預(yù)訓(xùn)練階段就學(xué)到了一系列方法,具備一系列能力。在預(yù)測(cè)階段,我們利用這種能力來快速適配到下游任務(wù)中。

    • 已經(jīng)有人通過in-context learning這樣做過了,但是效果不好

    【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

  • LLM: Transformer語言模型參數(shù)的每一次增大都會(huì)讓文本理解能力和其他的NLP下游任務(wù)的性能得到提升,而且有證據(jù)顯示,log損失函數(shù),在模型規(guī)模增大后,保持平穩(wěn)趨勢(shì)。我們認(rèn)為:in-context learning的能力也會(huì)隨著模型參數(shù)的增大而增強(qiáng)

我們訓(xùn)練了一個(gè)175B的模型GPT-3,在3種設(shè)定下測(cè)試GPT-3的性能:

  • few-shot learning(in-context learning): 允許一些樣例(一般10到100個(gè))出現(xiàn)在模型輸入中
  • one-shot learning: 只允許一個(gè)樣例
  • zero-shot learning: 不允許提供樣例,只提供一個(gè)自然語言形式的指令

下圖展示了在移除單詞中多余符號(hào)任務(wù)上,模型的表現(xiàn)

【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

  • GPT-3在zero-shot和one-shot設(shè)置下能取得不錯(cuò)的結(jié)果,在few-shot設(shè)定下有時(shí)能比得上甚至超過微調(diào)的SOTA模型
  • zero-shot和one-shot設(shè)置的GPT-3能在快速適應(yīng)和即時(shí)推理任務(wù)(單詞整理、代數(shù)運(yùn)算和利用只出現(xiàn)過一次的單詞)中擁有卓越表現(xiàn)。
  • few-shot設(shè)定下,GPT-3能生成人類難以區(qū)分的新聞稿
  • few-shot設(shè)定下,GPT-3在一些自然語言推理任務(wù)(ANLI dataset),閱讀理解(RACE, QuAC)上的性能有待提高
  • 不同benchmark上的整體表現(xiàn)如下圖所示

【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

我們還訓(xùn)練了一些小模型(從125 million到13 billion),用于與GPT-3對(duì)比。對(duì)于大多數(shù)任務(wù),在3種設(shè)定下,模型性能隨大小相對(duì)平滑地增加。但是隨著模型容量增大,few-shot相較于one,zero-shot的領(lǐng)先幅度變得更大,這說明大模型可能更適合作為meta-learners(larger models are more proficient meta-learners)

Approach

本文的預(yù)訓(xùn)練方式GPT-2類似,只不過用了更大的模型,數(shù)據(jù)量,多樣性以及訓(xùn)練時(shí)長(zhǎng),in-context learning的方式也相似。不過本文系統(tǒng)分析了不同設(shè)置對(duì)利用上下文學(xué)習(xí)的影響,這些設(shè)置可以看作對(duì)任務(wù)相關(guān)數(shù)據(jù)的依賴程度。

  • Fine-tuning:本文并沒有訓(xùn)練GPT-3的微調(diào)版本,因?yàn)橹饕P(guān)注的是task-agnostic性能
  • Few-shot:在預(yù)測(cè)階段提供一些樣本,但并不進(jìn)行參數(shù)更新。樣本的數(shù)量是10到100(window size內(nèi)可容納的樣本數(shù)目)
  • One-shot:僅提供一個(gè)樣本
  • Zero-shot:不提供樣本,只給一個(gè)用于描述任務(wù)的自然語言指令

下圖是一個(gè)將英文翻譯成法語任務(wù)的不同設(shè)定下的輸入形式展示

【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

本文的不同設(shè)定并不是為了相互比較,相互替代。而是在特定基準(zhǔn)上,提供性能與采樣效率之間權(quán)衡的不同問題設(shè)定。

Model and Architectures

模型結(jié)構(gòu),初始化方法,預(yù)歸一化方法,tokenize方法與GPT-2相同,但在transformer中使用與Sparse Transformer中類似的注意力模式,不同模型參數(shù)設(shè)定如下表所示

【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

  • 所有模型的上下文窗口大小都是2048個(gè)tokens

Training Dataset

Common Crawl dataset包含近萬億單詞,遍歷一遍數(shù)據(jù)集就足夠訓(xùn)練我們最大的模型。

  • 然而,不進(jìn)行數(shù)據(jù)清洗的數(shù)據(jù)集質(zhì)量不高,采用以下三步清洗數(shù)據(jù)
    • 下載數(shù)據(jù)集的一個(gè)版本,根據(jù)與一系列高質(zhì)量參考語料庫(kù)的相似性過濾了掉部分語料
    • 在文檔級(jí)別、數(shù)據(jù)集內(nèi)部和數(shù)據(jù)集之間執(zhí)行了模糊重復(fù)數(shù)據(jù)消除,以防止冗余,并保持我們的作為過擬合的準(zhǔn)確度量的驗(yàn)證集的完整性。
    • 將已知的高質(zhì)量參考語料庫(kù)添加到訓(xùn)練組合中,以增強(qiáng)Common Crawl并增加其多樣性

使用訓(xùn)練數(shù)據(jù)的比例入下表所示

【論文閱讀】Language Models are Few-Shot Learners(GPT-3),論文閱讀,語言模型,r語言

  • 訓(xùn)練時(shí)數(shù)據(jù)不是按比列采樣的,高質(zhì)量的數(shù)據(jù)集會(huì)被采樣更多次
  • CommonCrawl和Books2采樣少于一次,其他數(shù)據(jù)集被采樣2-3次

Training Process

  • 有研究表明,更大的模型通常用更大的batch size,但是需要更小的學(xué)習(xí)率。本文在訓(xùn)練中評(píng)估梯度噪音的大小來選擇batch size

  • 利用矩陣乘法與網(wǎng)絡(luò)不同層的并行性來進(jìn)行分布式訓(xùn)練

  • 在V100上訓(xùn)練文章來源地址http://www.zghlxwxcb.cn/news/detail-619907.html

到了這里,關(guān)于【論文閱讀】Language Models are Few-Shot Learners(GPT-3)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【論文閱讀】 Few-shot object detection via Feature Reweighting

    【論文閱讀】 Few-shot object detection via Feature Reweighting

    Few-shot object detection的開山之作之一 ~~ 屬于Metric-based Methods 特征學(xué)習(xí)器使用來自具有足夠樣本的基本類的訓(xùn)練數(shù)據(jù)來 提取 可推廣以檢測(cè)新對(duì)象類的meta features。The reweighting module將新類別中的一些support examples轉(zhuǎn)換為全局向量,該全局向量indicates meta features對(duì)于檢測(cè)相應(yīng)物體的重

    2023年04月09日
    瀏覽(22)
  • 【GPT-2】論文解讀:Language Models are Unsupervised Multitask Learners

    【GPT-2】論文解讀:Language Models are Unsupervised Multitask Learners

    論文:Language Models are Unsupervised Multitask Learners 作者:Alec Radford, Jeff Wu, Rewon Child, D. Luan, Dario Amodei, I. Sutskever 時(shí)間:2019 GPT-2 是一個(gè)有15億參數(shù)的模型,GPT-2的想法是轉(zhuǎn)向一個(gè)通用的系統(tǒng),不需要進(jìn)行數(shù)據(jù)集的標(biāo)注就可以執(zhí)行許多的任務(wù); 因?yàn)閿?shù)據(jù)集的創(chuàng)建是很難的,我們很難

    2024年02月22日
    瀏覽(20)
  • ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)

    以下是我閱讀完整篇論文做的個(gè)人總結(jié),包含了ChatGPT-2文章的主要內(nèi)容,可以僅看【論文總結(jié)】章節(jié)。 數(shù)據(jù)集 自制了一個(gè)網(wǎng)頁(yè)爬蟲,被抓取的網(wǎng)頁(yè)部分來自于社交平臺(tái),這些網(wǎng)頁(yè)由人工進(jìn)行過濾。最終生成 WebText數(shù)據(jù)集 ,包含45000000個(gè)鏈接。另一部分來自于新聞網(wǎng)站,數(shù)據(jù)截

    2024年02月08日
    瀏覽(28)
  • 論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文閱讀 - Few-shot Network Anomaly Detection via Cross-network Meta-learning

    論文鏈接:https://arxiv.org/pdf/2102.11165.pdf ? 目錄 摘要: 引言 問題定義 方法 Graph Deviation Networks Cross-network Meta-learning ????????網(wǎng)絡(luò)異常檢測(cè)旨在找到與絕大多數(shù)行為顯著不同的網(wǎng)絡(luò)元素(例如節(jié)點(diǎn)、邊、子圖)。它對(duì)從金融、醫(yī)療保健到社交網(wǎng)絡(luò)分析等各種應(yīng)用產(chǎn)生了深遠(yuǎn)

    2024年02月14日
    瀏覽(23)
  • few-shot / one shot / zero shot object counting論文匯總

    few-shot / one shot / zero shot object counting論文匯總

    code: https://paperswithcode.com/paper/class-agnostic-counting 摘要:幾乎所有現(xiàn)有的計(jì)數(shù)方法都是為一個(gè)特定的對(duì)象類而設(shè)計(jì)的。然而,我們的工作旨在創(chuàng)建一個(gè)能夠計(jì)數(shù)任何類對(duì)象的計(jì)數(shù)模型。為了實(shí)現(xiàn)這一目標(biāo),我們將計(jì)數(shù)表述為一個(gè)匹配問題,使我們能夠利用對(duì)象計(jì)數(shù)問題中自然存

    2024年02月09日
    瀏覽(23)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,針對(duì)《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻譯。 在沒有標(biāo)記或額外的未標(biāo)記數(shù)據(jù)的情況下,我們?nèi)绾螌㈩A(yù)先訓(xùn)練的模型擴(kuò)展到許多語言理解任務(wù)?經(jīng)過預(yù)訓(xùn)練的語言模型(PLM)對(duì)于廣泛的NLP任務(wù)是有效的。然而,現(xiàn)有的方法要么需要對(duì)下游

    2024年02月07日
    瀏覽(23)
  • 論文筆記|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    論文筆記|CVPR2023:Semantic Prompt for Few-Shot Image Recognition

    論文地址:https://arxiv.org/pdf/2303.14123.pdf 這是一篇2023年發(fā)表在CVPR上的論文,論文題目是Semantic Prompt for Few-Shot Image Recognitio,即用于小樣本圖像識(shí)別的語義提示。 第一,最近幾項(xiàng)研究利用 語義信息 來進(jìn)行小樣本學(xué)習(xí)的研究。 一方面因?yàn)橥ㄟ^少量樣本去識(shí)別新類別很難,就想使

    2024年02月04日
    瀏覽(30)
  • 【論文精讀】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

    【論文精讀】CONTAINER: Few-Shot Named Entity Recognition via Contrastive Learning

    一篇來自ACL2022的文章,采用對(duì)比學(xué)習(xí)的方法提高模型的性能,在實(shí)現(xiàn)方法上和實(shí)驗(yàn)論證部分很值得借鑒,至于和大模型性能的對(duì)比,還需要進(jìn)一步的調(diào)研~ 低資源場(chǎng)景NER不可或缺,但現(xiàn)有的方法僅從源域?qū)W習(xí)特定的語義特征和中間表示,這會(huì)影響對(duì)目標(biāo)域的泛化能力,降低性

    2024年02月05日
    瀏覽(24)
  • Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    Spectral Adversarial MixUp for Few-Shot Unsupervised Domain Adaptation論文速讀

    域偏移是臨床應(yīng)用中的常見問題,其中訓(xùn)練圖像(源域)和測(cè)試圖像(目標(biāo)域)處于不同的分布下。已經(jīng)提出了無監(jiān)督域適應(yīng) (UDA) 技術(shù),以使在源域中訓(xùn)練的模型適應(yīng)目標(biāo)域。但是,這些方法需要來自目標(biāo)域的大量圖像進(jìn)行模型訓(xùn)練。 本文提出了一種新的少樣本無監(jiān)督域

    2024年04月28日
    瀏覽(39)
  • 論文筆記|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    論文筆記|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

    這篇論文的題目是 用于小樣本Transformers的監(jiān)督遮掩知識(shí)蒸餾 論文接收: CVPR 2023 論文地址: https://arxiv.org/pdf/2303.15466.pdf 代碼鏈接: https://github.com/HL-hanlin/SMKD 1.ViT在小樣本學(xué)習(xí)(只有少量標(biāo)記數(shù)據(jù)的小型數(shù)據(jù)集)中往往會(huì) 過擬合,并且由于缺乏 歸納偏置 而導(dǎo)致性能較差;

    2024年02月06日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包