国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning

這篇具有很好參考價(jià)值的文章主要介紹了深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

分類目錄:《深入理解深度學(xué)習(xí)》總目錄
相關(guān)文章:
· GPT(Generative Pre-Trained Transformer):基礎(chǔ)知識
· GPT(Generative Pre-Trained Transformer):在不同任務(wù)中使用GPT
· GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning
· GPT(Generative Pre-Trained Transformer):GPT-3與Few-shot Learning


N-shot Learning

在介紹GPT的第二代模型GPT-2之前,先來介紹機(jī)器學(xué)習(xí)中的三個概念:Zero-shot Learning(零樣本學(xué)習(xí))、One-shot Learning(單樣本學(xué)習(xí))和Few-shot Learning(少樣本學(xué)習(xí))。深度學(xué)習(xí)技術(shù)的迅速發(fā)展離不開大量高質(zhì)量的數(shù)據(jù),但在很多實(shí)際應(yīng)用場景中,獲取大量的高質(zhì)量數(shù)據(jù)非常困難,所以模型能從少量樣本中學(xué)習(xí)規(guī)律并具備推理能力是至關(guān)重要的。人類具有極其良好的小樣本學(xué)習(xí)能力,能從少量數(shù)據(jù)中提煉出抽象概念并推理應(yīng)用,這也是機(jī)器學(xué)習(xí)未來最主要的發(fā)展方向,這個研究方向就是N-shot Learning,其中字母N表示樣本數(shù)量較少。具體而言,N-shot Learning又分為Zero-shot Learning、One-shot Learning和Few-shot Learning,三者所使用的樣本量依次遞增。

Zero-shot Learning是指在沒有任何訓(xùn)練樣本進(jìn)行微調(diào)訓(xùn)練的情況下,預(yù)訓(xùn)練語言模型就可以完成特定的任務(wù)。用一個形象的例子解釋:爸爸拿了一堆動物卡片教小維認(rèn)識卡片中的動物,小維拿起一張畫著馬的卡片,爸爸告訴他,這就是馬。之后,小維又拿起了畫著老虎的卡片,爸爸告訴他:“看,這種身上有條紋的動物就是老虎?!卑职帜闷鹆水嬘行茇埖目ㄆ瑢π【S說:“你看熊貓是黑白色的?!比缓?,爸爸給小維安排了一個任務(wù),讓他在卡片里找一種他從沒見過的動物——斑馬,并告訴小維有關(guān)于斑馬的信息:“斑馬有著馬的輪廓,身上有像老虎一樣的條紋,而且它像熊貓一樣是黑白色的?!弊詈螅【S根據(jù)爸爸的提示,找到了畫有斑馬的卡片。One-shot Learning是指在僅有一個訓(xùn)練樣本進(jìn)行微調(diào)訓(xùn)練的情況下,預(yù)訓(xùn)練語言模型就可以完成特定的任務(wù)。用一個形象的例子解釋:爸爸拿了一張柴犬的卡片給小維,告訴他:“這是柴犬,是犬類的一種。”然后爸爸給了小維三張卡片,卡片上分別畫有橘貓、東北虎和金毛,讓小維指出哪張卡片上的動物屬于犬類,小維根據(jù)柴犬的特征,指向畫有金毛的卡片。Few-shot Learning是指在僅有少量訓(xùn)練樣本進(jìn)行微調(diào)訓(xùn)練的情況下,預(yù)訓(xùn)練語言模型就可以完成特定的任務(wù)。同樣用一個形象的例子解釋:爸爸拿了五張分別畫有柴犬、柯基、邊牧、哈士奇和阿拉斯加的卡片,告訴小維,這些都屬于犬類,然后給了小維三張卡片,分別畫有橘貓、東北虎和金毛,讓小維指出哪張卡片上的動物屬于犬類,小維根據(jù)已有的五張犬類卡片的特征,指向畫有金毛的卡片。近年來,面向N-shot Learning的研究發(fā)展極為迅速,出現(xiàn)了基于度量的元學(xué)習(xí)、圖網(wǎng)絡(luò)等方法。本文和后續(xù)的文章就借助Zero-shot Learn-ing、One-shot Learning、Few-shot Learning的概念來呈現(xiàn)GPT系列模型的一些特性。

GPT-2的核心思想

GPT-2的核心思想并不是通過二階段訓(xùn)練模式(預(yù)訓(xùn)練+微調(diào))獲得特定自然語言處理任務(wù)中更好的性能,而是徹底放棄了微調(diào)階段,僅通過大規(guī)模多領(lǐng)域的數(shù)據(jù)預(yù)訓(xùn)練,讓模型在Zero-shot Learning的設(shè)置下自己學(xué)會解決多任務(wù)的問題。與之相對的是,在特定領(lǐng)域進(jìn)行監(jiān)督微調(diào)得到的專家模型并不具備多任務(wù)場景下的普適性。GPT-2的驚艷之處在于,它展示了語言模型在Zero-shot Learning設(shè)置下依然能夠很好地執(zhí)行各種任務(wù)的能力與潛力,證明了自然語言處理領(lǐng)域通用模型的可能性。GPT-2在多個特定領(lǐng)域的語言建模任務(wù)(給定詞序列,預(yù)測下一個詞)上均超越了當(dāng)前最佳的模型的性能,而在此之前,這些任務(wù)的最佳表現(xiàn)均來自特定領(lǐng)域數(shù)據(jù)集上微調(diào)訓(xùn)練得到的專家模型。GPT-2并沒有使用任務(wù)提供的特定領(lǐng)域的訓(xùn)練集進(jìn)行訓(xùn)練甚至微調(diào),而是直接在這些任務(wù)的測試集上進(jìn)行評估。讓人驚訝的是,GPT-2在這些語言建模任務(wù)上的表現(xiàn)優(yōu)于以往的專家模型的表現(xiàn),在某些任務(wù)上的性能提升非常顯著。

在問答、閱讀理解及自動摘要等具有不同輸入和輸出格式的語言任務(wù)中,GPT-2直接采用與GPT一致的輸入數(shù)據(jù)轉(zhuǎn)換方式,得到了令人驚艷的結(jié)果。雖然性能無法與專家模型相比,但是從論文給出的模型參數(shù)與任務(wù)性能趨勢圖來看,現(xiàn)有的GPT-2模型存在巨大的上升空間。如下圖所示,從左至右分別是GPT-2在Zero-shot Learning設(shè)置下在閱讀理解、機(jī)器翻譯、摘要生成及開放式問答這4個任務(wù)上的表現(xiàn)。雖然GPT-2在Zero-shot Learning設(shè)置下的表現(xiàn)遠(yuǎn)不如SOTA模型,但基本超越了簡單模型。除了摘要生成任務(wù),GPT-2在其余三個任務(wù)上都表現(xiàn)出了性能隨模型規(guī)模的增大而提升的趨勢,且提升十分明顯。這意味著若繼續(xù)擴(kuò)大GPT-2的規(guī)模,其性能還能提升。
深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning

GPT-2模型結(jié)構(gòu)

與第一代GPT模型相比,GPT-2在模型結(jié)構(gòu)上的改動極小。在復(fù)用GPT的基礎(chǔ)上,GPT-2做了以下修改:

  • LN層被放置在Self-Attention層和Feed Forward層前,而不是像原來那樣后置
  • 在最后一層Transformer Block后新增LN層
  • 修改初始化的殘差層權(quán)重,縮放為原來的 1 N \frac{1}{\sqrt{N}} N ?1?。其中, N N N是殘差層的數(shù)量
  • 特征向量維數(shù)從768擴(kuò)大到1600,詞表擴(kuò)大到50257
  • Transformer Block的層數(shù)從12擴(kuò)大到48。GPT-2有4個不同大小的模型,它們的參數(shù)設(shè)置如下表所示
總參數(shù)量 層數(shù) 特征向量維數(shù)
117M 12 768
345M 24 1024
762M 36 1280
1542M 48 1600

其中最小的模型其實(shí)就是第一代GPT,參數(shù)量也達(dá)到了1.17億;而參數(shù)量高達(dá)15億的最大模型,一般被稱為GPT-2。模型擴(kuò)大了10多倍,意味著需要增加足夠的數(shù)據(jù)量,否則會出現(xiàn)欠擬合現(xiàn)象。第一代GPT使用的訓(xùn)練語料是BookCorpus數(shù)據(jù)集,包含超過7000本未出版的書籍。GPT-2使用的訓(xùn)練語料是從800多萬個網(wǎng)頁中爬取到的單語數(shù)據(jù),數(shù)據(jù)量是第一代GPT所使用數(shù)據(jù)量的10多倍,而來自眾多網(wǎng)頁的語料,涵蓋了各個領(lǐng)域、各種格式的文本信息,在一定程度上提升了GPT-2在Zero-shot Learning設(shè)置下處理特定任務(wù)的能力。GPT-2的不俗表現(xiàn),證明它是一個極其優(yōu)秀的預(yù)訓(xùn)練語言模型,雖然OpenAI并沒有給出GPT-2微調(diào)后在各下游任務(wù)中的表現(xiàn),但可以預(yù)期的是,其效果一定很好,在監(jiān)督微調(diào)階段的訓(xùn)練方式與第一代GPT并無差別。

參考文獻(xiàn):
[1] Lecun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015
[2] Aston Zhang, Zack C. Lipton, Mu Li, Alex J. Smola. Dive Into Deep Learning[J]. arXiv preprint arXiv:2106.11342, 2021.
[3] 車萬翔, 崔一鳴, 郭江. 自然語言處理:基于預(yù)訓(xùn)練模型的方法[M]. 電子工業(yè)出版社, 2021.
[4] 邵浩, 劉一烽. 預(yù)訓(xùn)練語言模型[M]. 電子工業(yè)出版社, 2021.
[5] 何晗. 自然語言處理入門[M]. 人民郵電出版社, 2019
[6] Sudharsan Ravichandiran. BERT基礎(chǔ)教程:Transformer大模型實(shí)戰(zhàn)[M]. 人民郵電出版社, 2023
[7] 吳茂貴, 王紅星. 深入淺出Embedding:原理解析與應(yīng)用實(shí)戰(zhàn)[M]. 機(jī)械工業(yè)出版社, 2021.文章來源地址http://www.zghlxwxcb.cn/news/detail-496421.html

到了這里,關(guān)于深入理解深度學(xué)習(xí)——GPT(Generative Pre-Trained Transformer):GPT-2與Zero-shot Learning的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Generative Pre-trained Transformer(GPT)模型技術(shù)初探

    Generative Pre-trained Transformer(GPT)模型技術(shù)初探

    2017年,Google在論文 Attention is All you need 中提出了 Transformer 模型,其使用 Self-Attention 結(jié)構(gòu)取代了在 NLP 任務(wù)中常用的 RNN 網(wǎng)絡(luò)結(jié)構(gòu)。相比 RNN 網(wǎng)絡(luò)結(jié)構(gòu),其最大的優(yōu)點(diǎn)是可以并行計(jì)算。Transformer 的整體模型架構(gòu)如下圖所示 首先,讓我們先將Transformer模型視為一個黑盒,如下圖所

    2023年04月14日
    瀏覽(23)
  • 【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代碼開源】 【論文概述】 本文介紹了一種名為“預(yù)訓(xùn)練通用醫(yī)學(xué)圖像變換器(Pre-trained Universal Medical Image Transformer,簡稱PUMIT)”的新型算法,該算法旨在解決標(biāo)記醫(yī)學(xué)圖像數(shù)據(jù)稀缺

    2024年02月04日
    瀏覽(29)
  • Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

    Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models

    論文鏈接:https://arxiv.org/abs/2211.10655 GitHub鏈接:https://github.com/HJ-harry/DiffusionMBIR 【score-MRI作者】 擴(kuò)散模型已成為具有高質(zhì)量樣本的新的藝術(shù)生成模型,具有模式覆蓋和高靈活性等有趣的特性。它們也被證明是有效的逆問題求解器,充當(dāng)分布的先驗(yàn),而正演模型的信息可以在采

    2024年02月09日
    瀏覽(26)
  • [ACL2023] Exploring Lottery Prompts for Pre-trained Language Models

    [ACL2023] Exploring Lottery Prompts for Pre-trained Language Models

    文章鏈接 清深的工作,比較有意思的一篇。作者先給出假設(shè),對于分類問題,在有限的語料空間內(nèi)總能找到一個prompt讓這個問題分類正確,作者稱之為lottery prompt。為此,作者組織了一個prompt集合,每個prompt的組成都很簡單,名詞+動詞+介詞/形容詞/副詞+MASK,語料都是從常用

    2024年02月11日
    瀏覽(31)
  • A Survey of Knowledge-Enhanced Pre-trained Language Models

    本文是LLM系列的文章,針對《A Survey of Knowledge-Enhanced Pre-trained Language Models》的翻譯。 預(yù)訓(xùn)練語言模型(PLM)通過自監(jiān)督學(xué)習(xí)方法在大文本語料庫上進(jìn)行訓(xùn)練,在自然語言處理(NLP)的各種任務(wù)中都取得了良好的性能。然而,盡管具有巨大參數(shù)的PLM可以有效地?fù)碛袕拇罅坑?xùn)練

    2024年02月09日
    瀏覽(41)
  • A Survey on Knowledge-Enhanced Pre-trained Language Models

    自然語言處理(NLP)已經(jīng)通過使用BERT等預(yù)訓(xùn)練語言模型(plm)發(fā)生了革命性的變化。盡管幾乎在每個NLP任務(wù)中都創(chuàng)造了新的記錄, 但plm仍然面臨許多挑戰(zhàn),包括可解釋性差,推理能力弱,以及在應(yīng)用于下游任務(wù)時需要大量昂貴的注釋數(shù)據(jù)。通過將外部知識集成到plm中,知識增強(qiáng)預(yù)

    2024年02月11日
    瀏覽(23)
  • Pre-trained Language Models Can be Fully Zero-Shot Learners

    本文是LLM系列文章,針對《Pre-trained Language Models Can be Fully Zero-Shot Learners》的翻譯。 在沒有標(biāo)記或額外的未標(biāo)記數(shù)據(jù)的情況下,我們?nèi)绾螌㈩A(yù)先訓(xùn)練的模型擴(kuò)展到許多語言理解任務(wù)?經(jīng)過預(yù)訓(xùn)練的語言模型(PLM)對于廣泛的NLP任務(wù)是有效的。然而,現(xiàn)有的方法要么需要對下游

    2024年02月07日
    瀏覽(23)
  • 【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    論文標(biāo)題:Label prompt for multi-label text classification(基于預(yù)訓(xùn)練模型對少樣本進(jìn)行文本分類) 發(fā)表時間:2021 領(lǐng)域:多標(biāo)簽文本分類 發(fā)表期刊:ICANN(頂級會議) 相關(guān)代碼:無 數(shù)據(jù)集:無 最近,預(yù)先訓(xùn)練過的語言模型在許多基準(zhǔn)測試上都取得了非凡的性能。通過從一個大型的

    2024年02月14日
    瀏覽(33)
  • X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks論文筆記

    Title:X2-VLM: All-In-One Pre-trained Model For Vision-Language Tasks Code CLIP這一類方法只能進(jìn)行圖片級別的視覺和文本對齊; 也有一些方法利用預(yù)訓(xùn)練的目標(biāo)檢測器進(jìn)行目標(biāo)級別的視覺和文本對齊,但是只能編碼目標(biāo)內(nèi)部的特征,無法有效表達(dá)多目標(biāo)上下文關(guān)聯(lián); 本文致力于進(jìn)行多粒度(

    2024年02月09日
    瀏覽(26)
  • GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    GPT(Generative Pre-Training)論文解讀及實(shí)現(xiàn)(一)

    Given an unsupervised corpus of tokens U = {u1, . . . , un}, we use a standard language modeling objective to maximize the following likelihood: 在給定語料上下文環(huán)境下,目標(biāo)時最大化下面的語言模型,即在給定前 i-1個詞和參數(shù)θ前提下,使第 i 個詞出現(xiàn)的概率最大。 we use a multi-layer Transformer decoder [34] for

    2024年02月15日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包