- 340M 參數(shù)
BERT
自監(jiān)督學習的目標跟目標越接近越好。
一個任務:預測句子中被mask的詞:
BERT通過Masking Input來獲得訓練數(shù)據(jù)
mask有兩種做法:
-
將某個字token換成一個特殊符號(代表蓋?。?/p>
-
隨機把某個字換成另外一個字
蓋住的部分輸出的向量作為Linear層的輸入,然后送入softmax得到所有感興趣詞的概率分數(shù)。
蓋住的字就能作為標簽
另外一個任務:預測下一句 -
cls
-
sep
兩個句子應不應該接到一起,這項任務太簡單了。改進的方法:RoBERTa,SOP(前后句子都能互相組隊)
使用BERT
- 填空題
- 預測下一句
基于上面功能可以做一些downstream任務
用Pre-train訓練,fine-tune Bert模型
模型評估
九個任務上的平均分是多少表示模型的好壞。
基于Bert模型,自然語言處理能力有比較大的提升。
使用
- case1: 輸入是序列,輸出是類別。
bert提取特征,加線性層+softmax分類,仍然需要一些標注數(shù)據(jù)
主要是學線性層的參數(shù),bert得到的權重比隨機初始化的要好。
- case2: 輸入是序列,輸出也是序列,類似于輸入,比如詞性標注
- case3: 輸入兩個句子,輸出一個類別,比如推理(基于輸入能否推出某個論點)
- case4: 問答系統(tǒng)(有點限制的問答,答案一定出現(xiàn)在文章里面)
輸入一個問題,輸出兩個正整數(shù),表示第s個字到第e個字作為答案。
正確答案在文章中的起始位置和結束位置。
把文章截成一小段一小段作為訓練數(shù)據(jù)。
- BERT
- ALBERT
時間:
- TPU V3 花費8天
將句子弄壞,看看后續(xù)能不能還原出來。 - T5 訓練,公開數(shù)據(jù)1PB
BERT工作原理
將字轉成embeeding后,相近的字特征空間里比較接近
計算特征之間的相似性:
BERT的輸出,每個向量代表那個對應的輸入的字。一個詞匯的意思取決于上下文:
早期的cbow技術的思想與BERT的想法一樣,word embedding, 兩層線性層。Bert就是深度學習版本的cbow,還考慮上下問:
DNA轉成對應的文字,然后再做分類:
Multi-lingual BERT
用多種語言混合的訓練填空題,結果在QA時候用英文訓練,能夠比較好的回答中文的QA;
不同語種之間相同意思在特征空間比較
兩天沒有變,一周突然就變了:
資料變多,訓練效果就變好。
矛盾點:英文輸出英文,中文輸出中文,假如BERT能夠學習不同語言的embedding,假如是英文句子空著的地方,為什么不推理出來的是中文呢?說明BERT還是能夠識別出語種的差距:
加上差距后就能英文輸入,中文輸出:
GPT
任務是預測接下來后出現(xiàn)的token是什么
應用的是Transformer的decoder,不會看到之后的詞:
有生成文字的能力:
使用
文章來源:http://www.zghlxwxcb.cn/news/detail-500682.html
- few shot learning
- one-shot learning
- zero-shot learning
第3代GPT在42個任務上進行測試,效果還不是很好,但是在3.5及以后,效果基本上達到人類水平。
GTP3的細節(jié):
其他方面
語音mask版本的bert和gpt,預測接下來出現(xiàn)的內容。缺評測的benchmark,文本類的有GLUE,語音上有superb文章來源地址http://www.zghlxwxcb.cn/news/detail-500682.html
到了這里,關于機器學習:self supervised learning的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!