国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)

這篇具有很好參考價值的文章主要介紹了ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

論文總結(jié)

以下是我閱讀完整篇論文做的個人總結(jié),包含了ChatGPT-2文章的主要內(nèi)容,可以僅看【論文總結(jié)】章節(jié)。

數(shù)據(jù)集

自制了一個網(wǎng)頁爬蟲,被抓取的網(wǎng)頁部分來自于社交平臺,這些網(wǎng)頁由人工進行過濾。最終生成WebText數(shù)據(jù)集,包含45000000個鏈接。另一部分來自于新聞網(wǎng)站,數(shù)據(jù)截止2017年12月,數(shù)據(jù)總量達到8000000篇文章,總共有40GB的文本內(nèi)容。文章還提到,包括wiki百科等文本也納入訓(xùn)練數(shù)據(jù)集,由全世界各地數(shù)百萬人參與來創(chuàng)建和清洗GPT-2訓(xùn)練所用的數(shù)據(jù)集。

輸入表示

設(shè)計了一種結(jié)合單詞級表示和字節(jié)級表示的混合輸入表示。針對過去的單詞級庫去除大量重復(fù)單詞,又引入字節(jié)級表示來提升泛化能力。
單詞級表示具有先驗優(yōu)勢,字節(jié)級表示具有泛化優(yōu)勢。

模型

針對GPT1進行了部分修改:
1.將層歸一化移動到每個子塊的輸入。
2.在自注意塊之后添加額外的層歸一化。
3.改進了初始化方法(初始化時將殘差層的權(quán)重按1/√N的倍數(shù)擴大,N是殘差層數(shù)量)。
4.詞典擴大,分詞擴大,指令集擴大,批處理大小擴大。
5.GPT包含117000000參數(shù),GPT-2包含1542000000參數(shù)。

實驗

因為只訓(xùn)練一次,卻想觀察模型在各個細分領(lǐng)域的表現(xiàn),因此所有實驗都可歸類為零次學(xué)習(xí)(zero-shot)。

測試項目 測試模型的哪方面能力 測試結(jié)果
兒童書籍 識別不同類型的詞匯 ACC從85.7提升至93.3
LAMBADA測試 識別文本中長依賴的能力 PPL99.8降低至8.63
Winograd Schema Challenge 常識性推理 63.7%提升至70.7%
閱讀理解 需要模型具有一定記憶能力 4項測試3項刷新歷史記錄
摘要 對新聞文章提取摘要的能力 與歷史成績持平
翻譯 大模型自動學(xué)習(xí)的翻譯能力 英譯法較差,法譯英達到基準(zhǔn)水平
問答 模型對于似是而非問題回答正確的能力 準(zhǔn)確度提升5.3倍

總結(jié)

GPT-2論文的核心內(nèi)容,可以用一句話進行總結(jié):那就是在GPT模型的基礎(chǔ)上,作者提升了模型大小和訓(xùn)練數(shù)據(jù)集大小,結(jié)果發(fā)現(xiàn)GPT-2可以自動適應(yīng)并完成NLP不同領(lǐng)域的任務(wù)目標(biāo)的學(xué)習(xí)。
舉個例子來說,我們同時給一個固定的語言模型輸入日常對話文本和新聞報道文本的數(shù)據(jù)集,并且這個數(shù)據(jù)集足夠大、模型足夠大、訓(xùn)練時間足夠長。則最終產(chǎn)出的模型將會擁有區(qū)分日常對話和新聞報道的不同場景的能力,不僅如此模型還將自動擁有一些新的能力,例如編寫新聞?wù)哪芰Α?br> 這意味著大型語言模型具有很強的泛化能力,同時也意味著大型語言模型將會具有潛在自主意識。隨后本文針對作者列舉的幾個獨立領(lǐng)域,陳述了實驗結(jié)果。
相比于GPT論文中只提到Large Dataset,GPT-2論文中開始出現(xiàn)LLM(Large Language Model)的描述。


論文原文解讀

原論文地址:https://cdn.openai.com/better-language-models/language_models_are_uns文章來源地址http://www.zghlxwxcb.cn/news/detail-476652.html

到了這里,關(guān)于ChatGPT2論文解讀《Language Models are Unsupervised Multitask Learners》(2019)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • (GPT3)Language Models are Few-Shot Learners論文閱讀

    (GPT3)Language Models are Few-Shot Learners論文閱讀

    論文地址:https://arxiv.org/pdf/2005.14165v4.pdf ????????最近的工作表明, 通過對大量文本語料庫進行預(yù)訓(xùn)練,然后對特定任務(wù)進行微調(diào),許多 NLP 任務(wù)和基準(zhǔn)測試取得了實質(zhì)性進展 。 雖然在體系結(jié)構(gòu)中通常與任務(wù)無關(guān),但此方法仍然需要特定于任務(wù)的微調(diào)數(shù)據(jù)集,其中包含數(shù)

    2024年02月08日
    瀏覽(33)
  • LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)

    LLaMA(Open and Efficient Foundation Language Models )論文解讀(二)

    此篇博客主題:LLAMA模型數(shù)據(jù)、訓(xùn)練時長、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    瀏覽(25)
  • 《Training language models to follow instructions》論文解讀--訓(xùn)練語言模型遵循人類反饋的指令

    《Training language models to follow instructions》論文解讀--訓(xùn)練語言模型遵循人類反饋的指令

    目錄 1摘要 2介紹 方法及實驗細節(jié) 3.1高層次方法論 3.2數(shù)據(jù)集 3.3任務(wù) 3.4人體數(shù)據(jù)收集 ?3.5模型 3.6評價 4 結(jié)果 4.1 API分布結(jié)果 4.2公共NLP數(shù)據(jù)集的結(jié)果 4.3定性結(jié)果 問題 1.什么是rm分數(shù) 更多資料 使語言模型更大并不能使它們更好地遵循用戶的意圖。例如,大型語言模型可能生成不

    2024年01月24日
    瀏覽(27)
  • 論文解讀: 2023-Lost in the Middle: How Language Models Use Long Contexts

    論文解讀: 2023-Lost in the Middle: How Language Models Use Long Contexts

    大模型使用的關(guān)鍵在于Prompt,然而大模型存在幻覺現(xiàn)象,如何減少這種現(xiàn)象的發(fā)生成為迫切解決的問題。外部知識庫+LLM的方法可以緩解大模型幻覺,但是如何撰寫Prompt才能發(fā)揮LLM的性能。下面介紹這篇論文說明上下文信息出現(xiàn)在Prompt什么位置使模型表現(xiàn)最佳,以及上下文文本

    2024年02月17日
    瀏覽(24)
  • 一個開源的大型語言模型LLaMA論文簡單解讀,LLaMA: Open and Efficient Foundation Language Models

    一個開源的大型語言模型LLaMA論文簡單解讀,LLaMA: Open and Efficient Foundation Language Models

    返回論文和資料目錄 LLaMA 是 Meta AI 發(fā)布的包含 7B、13B、33B 和 65B 四種參數(shù)規(guī)模的基礎(chǔ)語言模型集合,LLaMA-13B 僅以 1/10 規(guī)模的參數(shù)在多數(shù)的 benchmarks 上性能優(yōu)于 GPT-3(175B),LLaMA-65B 與業(yè)內(nèi)最好的模型 Chinchilla-70B 和 PaLM-540B 比較也具有競爭力。開源的代碼在github上可以很方便獲得

    2024年02月09日
    瀏覽(24)
  • 論文解讀 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

    論文解讀 X-CLIP : Expanding Language-Image Pretrained Models for General Video Recognition

    如何將現(xiàn)有的圖像 - 文本多模態(tài)大模型(例如 OpenAI CLIP)用于視頻內(nèi)容理解,是一個非常實用且具有前景的研究課題 。它不僅可以充分挖掘圖像大模型的潛力,還可以為視頻大模型的設(shè)計和研究鋪平道路。 在視頻內(nèi)容理解領(lǐng)域,為節(jié)省計算 / 數(shù)據(jù)開銷,視頻模型通常 「微調(diào)

    2024年02月02日
    瀏覽(21)
  • 論文解讀:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

    論文解讀:Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models

    核心要點 針對大模型幻覺問題進行綜述,從detection、explanation和mitigation三個方面進行介紹; 對幻覺現(xiàn)象和評估基準(zhǔn)進行歸納,分析現(xiàn)有的緩解幻覺的方法,討論未來潛在的研究發(fā)展 相關(guān)文獻整理:https://github.com/HillZhang1999/llm-hallucination-survey 一、什么是大模型的幻覺 大模型

    2024年02月02日
    瀏覽(24)
  • ChatGPT1論文解讀《Improving Language Understanding by Generative Pre-Training》

    以下是我閱讀完整篇論文做的個人總結(jié),基本包含了ChatGPT1設(shè)計的完整框架思路,可以僅看【論文總結(jié)】章節(jié)。 在GPT1實現(xiàn)的核心架構(gòu)中,包含兩個階段。 第一階段 在 第一階段 基于一個包含 7000本書籍 內(nèi)容的海量 未標(biāo)注文本數(shù)據(jù)集 進行無監(jiān)督預(yù)訓(xùn)練,該階段引入了一種 T

    2024年02月05日
    瀏覽(31)
  • 【論文閱讀】SynDiff Unsupervised Medical Image Translation with Adversarial Diffusion Models

    【論文閱讀】SynDiff Unsupervised Medical Image Translation with Adversarial Diffusion Models

    Unsupervised Medical Image Translation with Adversarial Diffusion Models 論文大致翻譯和主要內(nèi)容講解 通過源-目標(biāo)通道轉(zhuǎn)換對缺失圖像進行填充可以提高醫(yī)學(xué)成像協(xié)議的多樣性。合成目標(biāo)圖像的普遍方法包括通過生成性對抗網(wǎng)絡(luò)(GAN)的一次映射。然而,隱含地描述圖像分布的Gan模型可能會受

    2024年04月17日
    瀏覽(54)
  • Pixel Aligned Language Models 論文閱讀筆記(PixelLLM)

    Pixel Aligned Language Models 論文閱讀筆記(PixelLLM)

    發(fā)表于2023.12, Google Research UC San Diego Part 1 概述 PixelLLM:像素對齊大語言模型 a vision-language model with fine-grained localization ability by densely aligning each output word to a pixel location can take an image and any combination of location or text as input or output. generates captions, and aligns each output word to a pixel l

    2024年01月19日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包