国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

ChatGLM基座:GLM(General Language Model)論文閱讀筆記

這篇具有很好參考價值的文章主要介紹了ChatGLM基座:GLM(General Language Model)論文閱讀筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


ChatGLM基座:GLM(General Language Model)論文閱讀筆記

Introduction

現在有很多Pretrain model 的架構, 如Bert、GPT、T5等,但是當時沒有一種模型能在NLU、有條件文本生成、無條件文本生成都有很好的表現。

一般預訓練模型架構分為三種:自回歸(GPT系列)、自編碼(Bert系列)、編碼器-解碼器(T5)。
作者概述了它們目前存在的問題·:

  1. GPT:單向的注意力機制,不能完全捕捉NLU任務中上下文詞之間的依賴關系。
  2. Bert:編碼器可以更好的提取上下文信息,但是不能直接用于文本生成。

作者提到上述框架不夠靈活,之前也有人做過統(tǒng)一這兩個架構的工作,但是自編碼與自回歸本質的不同,不能很好的繼承兩個架構的優(yōu)點,于是提出了一個基于自回歸空白填充的語言模型(GLM),GLM通過2D的 positional encoding和允許一個任意的predict spans 來改進空白填充預訓練。同時,GLM可以通過改變空白的數量和長度對不同類型的任務進行預訓練。

GLM Pretraining Framework

它基于一個新穎的自回歸空白填充目標。GLM將NLU任務制定為包含任務描述的cloze問題,這些問題可以通過自回歸生成來回答。

Autoregressive Blank Infilling

ChatGLM基座:GLM(General Language Model)論文閱讀筆記

  1. 給定Input=[x1,x2,x3,x3,x5,x6],然后采樣m個 spans。
  2. 把被采樣的部分mask掉,得到Part A。
  3. random 被采樣的 spans,得到 PartB。
  4. 把PartA與PartB拼接成一個sequence,Part A部分采用雙向注意力,PartB部分采樣自回歸預測。為了能夠自回歸生成,padded 【start】和【end】。

Multi-Task Pretraining

在上一節(jié)中,GLM掩蓋了短跨度,適用于NLU任務。然而,作者對預訓練一個能同時處理NLU和文本生成的單一模型感興趣,考慮以下兩個目標。

  • Document-level:對單一跨度進行采樣,其長度從原始長度的50%-100%的均勻分布中抽出。該目標旨在生成長文本。

  • Sentence-level:限制被mask的跨度必須是完整的句子。多個跨度(句子)被取樣,以覆蓋15%的原始token。這一目標是針對seq2seq任務,其預測往往是完整的句子或段落。
    這兩個新目標的定義與原目標相同,唯一不同的是的跨度數量和跨度長度。

Model Architecture

GLM使用單一的Transformer,并對架構進行了一些修改:
(1)重新安排了層的歸一化和殘差連接的順序,這已被證明對大規(guī)模語言模型避免數字錯誤至關重要。
(2)使用單一的線性層進行輸出token預測。
(3)用GeLU替換ReLU激活函數。

2D Positional Encoding

ChatGLM基座:GLM(General Language Model)論文閱讀筆記

Experiment

Conclusion

GLM是一個用于自然語言理解和生成的通用預訓練框架。NLU任務可以被表述為條件生成任務,因此可以通過自回歸模型來解決。GLM將不同任務的預訓練目標統(tǒng)一為自回歸空白填充、混合注意力mask和新的二維位置編碼。經驗表明,GLM在NLU任務中的表現優(yōu)于以前的方法,并且可以有效地共享不同任務的參數。文章來源地址http://www.zghlxwxcb.cn/news/detail-431369.html

到了這里,關于ChatGLM基座:GLM(General Language Model)論文閱讀筆記的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!

本文來自互聯網用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 【論文閱讀筆記】GLM-130B: AN OPEN BILINGUAL PRE-TRAINEDMODEL

    【論文閱讀筆記】GLM-130B: AN OPEN BILINGUAL PRE-TRAINEDMODEL

    Glm-130b:開放式雙語預訓練模型 我們介紹了GLM-130B,一個具有1300億個參數的雙語(英語和漢語)預訓練語言模型。這是一個至少與GPT-3(達芬奇)一樣好的100b規(guī)模模型的開源嘗試,并揭示了如何成功地對這種規(guī)模的模型進行預訓練。在這一過程中,我們面臨著許多意想不到的技術和

    2024年02月03日
    瀏覽(28)
  • 【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    【論文閱讀24】Better Few-Shot Text Classification with Pre-trained Language Model

    論文標題:Label prompt for multi-label text classification(基于預訓練模型對少樣本進行文本分類) 發(fā)表時間:2021 領域:多標簽文本分類 發(fā)表期刊:ICANN(頂級會議) 相關代碼:無 數據集:無 最近,預先訓練過的語言模型在許多基準測試上都取得了非凡的性能。通過從一個大型的

    2024年02月14日
    瀏覽(33)
  • 【論文閱讀】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

    【論文閱讀】LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING?

    會議: 2024-ICLR-UNDER_REVIEW 評分:5,3,3,3 作者:Anonymous authors 文章鏈接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING? 代碼鏈接:LLM4GCL: CAN LARGE LANGUAGE MODEL EM-POWER GRAPH CONTRASTIVE LEARNING? ?圖對比學習( GCL)在使用無標簽數據的預訓練圖神經網絡上被證明是有效的方法

    2024年01月24日
    瀏覽(20)
  • 中英雙語大模型ChatGLM論文閱讀筆記

    中英雙語大模型ChatGLM論文閱讀筆記

    論文傳送門: [1] GLM: General Language Model Pretraining with Autoregressive Blank Infilling [2] Glm-130b: An open bilingual pre-trained model Github鏈接: THUDM/ChatGLM-6B GLM-130B 和 GPT-3 175B(davinci) 相比,參數量減少,但性能提升了。 INT4 quantization without post training INT4量化是一種將模型的權重和激活從使用

    2024年02月02日
    瀏覽(26)
  • 論文筆記:Spatial-Temporal Large Language Model for Traffic Prediction

    論文筆記:Spatial-Temporal Large Language Model for Traffic Prediction

    arxiv 2024 時空+大模型

    2024年04月24日
    瀏覽(28)
  • Pixel Aligned Language Models 論文閱讀筆記(PixelLLM)

    Pixel Aligned Language Models 論文閱讀筆記(PixelLLM)

    發(fā)表于2023.12, Google Research UC San Diego Part 1 概述 PixelLLM:像素對齊大語言模型 a vision-language model with fine-grained localization ability by densely aligning each output word to a pixel location can take an image and any combination of location or text as input or output. generates captions, and aligns each output word to a pixel l

    2024年01月19日
    瀏覽(22)
  • LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA是meta在2023年2月開源的大模型,在這之后,很多開源模型都是基于LLaMA的,比如斯坦福大學的羊駝模型。 LLaMA的重點是比通常情況下使用更多的語料,來訓練一系列可在各種推理預算下實現可能的最佳性能的語言模型。 摘要翻譯:我們在此介紹LLaMA,這是一個參數范圍從

    2024年02月15日
    瀏覽(32)
  • A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(論文筆記)

    A Framework for Accelerating Transformer-Based Language Model on ReRAM-Based Architecture(論文筆記)

    (發(fā)現問題): 在基于RRAM的加速器中,自注意力層在收集輸入序列信息的過程中,需要所有輸入序列詞的前一層結果,由于輸入實例在不同的時間步上被串行處理。 因此,自注意層一直保持停滯,直到上一層計算的結束。這就是數據危險,增加了在基于RRAM加速器上處理基于

    2024年03月25日
    瀏覽(21)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,? KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    瀏覽(21)
  • [論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models

    [論文閱讀筆記77]LoRA:Low-Rank Adaptation of Large Language Models

    題目 論文作者與單位 來源 年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 論文鏈接:https://arxiv.org/pdf/2106.09685.pdf 論文代碼:https://github.com/microsoft/LoRA 研究主題 問題背景 核心方法流程 亮點 數據集 結論 論文類型 關

    2024年02月06日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包