
Introduction
現在有很多Pretrain model 的架構, 如Bert、GPT、T5等,但是當時沒有一種模型能在NLU、有條件文本生成、無條件文本生成都有很好的表現。
一般預訓練模型架構分為三種:自回歸(GPT系列)、自編碼(Bert系列)、編碼器-解碼器(T5)。
作者概述了它們目前存在的問題·:
- GPT:單向的注意力機制,不能完全捕捉NLU任務中上下文詞之間的依賴關系。
- Bert:編碼器可以更好的提取上下文信息,但是不能直接用于文本生成。
作者提到上述框架不夠靈活,之前也有人做過統(tǒng)一這兩個架構的工作,但是自編碼與自回歸本質的不同,不能很好的繼承兩個架構的優(yōu)點,于是提出了一個基于自回歸空白填充的語言模型(GLM),GLM通過2D的 positional encoding和允許一個任意的predict spans 來改進空白填充預訓練。同時,GLM可以通過改變空白的數量和長度對不同類型的任務進行預訓練。
GLM Pretraining Framework
它基于一個新穎的自回歸空白填充目標。GLM將NLU任務制定為包含任務描述的cloze問題,這些問題可以通過自回歸生成來回答。
Autoregressive Blank Infilling
- 給定Input=[x1,x2,x3,x3,x5,x6],然后采樣m個 spans。
- 把被采樣的部分mask掉,得到Part A。
- random 被采樣的 spans,得到 PartB。
- 把PartA與PartB拼接成一個sequence,Part A部分采用雙向注意力,PartB部分采樣自回歸預測。為了能夠自回歸生成,padded 【start】和【end】。
Multi-Task Pretraining
在上一節(jié)中,GLM掩蓋了短跨度,適用于NLU任務。然而,作者對預訓練一個能同時處理NLU和文本生成的單一模型感興趣,考慮以下兩個目標。
-
Document-level:對單一跨度進行采樣,其長度從原始長度的50%-100%的均勻分布中抽出。該目標旨在生成長文本。
-
Sentence-level:限制被mask的跨度必須是完整的句子。多個跨度(句子)被取樣,以覆蓋15%的原始token。這一目標是針對seq2seq任務,其預測往往是完整的句子或段落。
這兩個新目標的定義與原目標相同,唯一不同的是的跨度數量和跨度長度。
Model Architecture
GLM使用單一的Transformer,并對架構進行了一些修改:
(1)重新安排了層的歸一化和殘差連接的順序,這已被證明對大規(guī)模語言模型避免數字錯誤至關重要。
(2)使用單一的線性層進行輸出token預測。
(3)用GeLU替換ReLU激活函數。
2D Positional Encoding
Experiment
略文章來源:http://www.zghlxwxcb.cn/news/detail-431369.html
Conclusion
GLM是一個用于自然語言理解和生成的通用預訓練框架。NLU任務可以被表述為條件生成任務,因此可以通過自回歸模型來解決。GLM將不同任務的預訓練目標統(tǒng)一為自回歸空白填充、混合注意力mask和新的二維位置編碼。經驗表明,GLM在NLU任務中的表現優(yōu)于以前的方法,并且可以有效地共享不同任務的參數。文章來源地址http://www.zghlxwxcb.cn/news/detail-431369.html
到了這里,關于ChatGLM基座:GLM(General Language Model)論文閱讀筆記的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網!