一、概念
? ? EMA,全稱是指數(shù)移動(dòng)平均,是一種給予近期數(shù)據(jù)更高權(quán)重的平均方法,詳細(xì)的介紹可以參考:深度學(xué)習(xí): 指數(shù)加權(quán)平均。
二、在哪見過
? ? 深度學(xué)習(xí)中常見的Adam、RMSProp和Momentum等優(yōu)化算法內(nèi)部都使用了EMA,由于使用了EMA這些算法常被稱為自適應(yīng)優(yōu)化算法,可以隨著訓(xùn)練過程的推移,自適應(yīng)的調(diào)整參數(shù)的優(yōu)化方向和步長(zhǎng),可以參考:深度學(xué)習(xí)中的Momentum算法原理。
三、提高訓(xùn)練穩(wěn)定性
? ? 假設(shè)有一個(gè)模型參數(shù)??,EMA在優(yōu)化器層面是一種局部時(shí)間窗口的加權(quán)平均,它只能通過對(duì)過去一個(gè)小的時(shí)間窗口內(nèi)的梯度做加權(quán)并更新模型參數(shù) ,如下圖所示的三個(gè)矩形框所示,每次反向傳播之后,參數(shù) ?的增量是一個(gè)加權(quán)平均后的梯度,模型參數(shù)每次都會(huì)更新(設(shè)g1,g2,g3是三次迭代通過EMA計(jì)算得到的梯度,每個(gè)箭頭表示進(jìn)行一次梯度更新)。
? ? 如果進(jìn)一步對(duì)g1,g2和g3進(jìn)行一次EMA,并將EMA后的結(jié)果對(duì)參數(shù)??進(jìn)行更新,那么參數(shù)將會(huì)綜合多個(gè)時(shí)間步的梯度信息,相當(dāng)于進(jìn)行了細(xì)粒度的平均,多個(gè)時(shí)間步的梯度綜合了更加可靠的信息,模型訓(xùn)練的相應(yīng)也會(huì)更加穩(wěn)定。文章來源:http://www.zghlxwxcb.cn/news/detail-463488.html
四、參考
- 【煉丹技巧】指數(shù)移動(dòng)平均(EMA)的原理及PyTorch實(shí)現(xiàn)
- ??EMA(指數(shù)移動(dòng)平均)及其深度學(xué)習(xí)應(yīng)用
- ??深度學(xué)習(xí)中的Momentum算法原理
- ??深度學(xué)習(xí): 指數(shù)加權(quán)平均
?文章來源地址http://www.zghlxwxcb.cn/news/detail-463488.html
到了這里,關(guān)于通俗解釋EMA的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!