轉(zhuǎn)載請注明出處:https://blog.csdn.net/nocml/article/details/125711025
本系列傳送門:
Transformer(一)–論文翻譯:Attention Is All You Need 中文版
Transformer(二)–論文理解:transformer 結(jié)構(gòu)詳解
Transformer(三)–論文實(shí)現(xiàn):transformer pytorch 代碼實(shí)現(xiàn)
Transformer(四)–實(shí)現(xiàn)驗(yàn)證:transformer 機(jī)器翻譯實(shí)踐
1 文章說明
??此篇文章是銜接上一篇的后續(xù),在這篇blog中,我們會使用之前實(shí)現(xiàn)的代碼,在真實(shí)的大規(guī)模語料上來訓(xùn)練一個(gè)機(jī)器翻譯模型,用實(shí)際效果來檢驗(yàn)我們實(shí)現(xiàn)的代碼。
??這個(gè)實(shí)驗(yàn)是我很早之前,也就是剛寫完代碼時(shí)做的,只不過模型結(jié)果沒有經(jīng)過系統(tǒng)評估,連bleu分也沒計(jì)算,所以當(dāng)時(shí)就沒有整理成blog。最近想了想,還是把結(jié)果粘上來,大家看一下。然后transformer這塊就結(jié)束了。最近一直在搞chatgpt相關(guān)的事情,有時(shí)間了也會整理下。
2. 模型訓(xùn)練
2.1 訓(xùn)練數(shù)據(jù)
訓(xùn)練數(shù)據(jù)使用中英平行語料,共1000W。
2.2 訓(xùn)練設(shè)備
服務(wù)器型號:T7920 塔式機(jī)
gpu: 2080ti 11G 單卡 (由于只是驗(yàn)證模型的正確性,所以只使用了一塊卡)
cpu: 至強(qiáng) 5218N * 2
內(nèi)存:128G
2.3 訓(xùn)練參數(shù)
- l r : 6.26 × 1 0 ? 5 lr :{6.26} ×10^{-5} lr:6.26×10?5
- b a t c h s i z e : 16 batch size: 16 batchsize:16
- s e n t e n c e ? m a x ? l e n g t h : 128 sentence \ max \ length: 128 sentence?max?length:128
- w a r m ? s t e p : 10000 warm\ step : 10000 warm?step:10000
- t o k e n ? n u m : 45000 token\ num:45000 token?num:45000
- e p o c h : 6 epoch: 6 epoch:6
2.4 訓(xùn)練過程
- 訓(xùn)練時(shí)長:7d(一個(gè)epoch 大概需要一天多)
- 訓(xùn)練損失:從百分位降到千分位,具體見下圖
- 訓(xùn)練初始:
- 訓(xùn)練結(jié)束:
- 訓(xùn)練初始:
2.5 模型結(jié)果
結(jié)果展示:
注:最后一個(gè)例子超過我設(shè)置的解碼長度了,沒有翻譯完。文章來源:http://www.zghlxwxcb.cn/news/detail-515273.html
2.6 結(jié)果分析
??沒有計(jì)算具體的評估指標(biāo),主要是當(dāng)時(shí)忙著做其它項(xiàng)目,沒有過多的時(shí)間,且當(dāng)時(shí)訓(xùn)練的目的也只是為了通過實(shí)驗(yàn)來看看代碼是否有致命缺陷。從結(jié)果來看,已經(jīng)有一定的翻譯效果了。文章來源地址http://www.zghlxwxcb.cn/news/detail-515273.html
到了這里,關(guān)于Transformer(四)--實(shí)現(xiàn)驗(yàn)證:transformer 機(jī)器翻譯實(shí)踐的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!