地震數(shù)據(jù)增強(qiáng)方法:APPLICATIONS OF DEEP LEARNING IN SEISMOLOGY
Random shift
?隨機(jī)位移(Random shift)技術(shù)對(duì)于提高模型泛化能力的重要性。通過(guò)將地震訓(xùn)練數(shù)據(jù)在時(shí)間上進(jìn)行隨機(jī)位移,可以減少模型對(duì)于特定時(shí)間點(diǎn)的位置偏見(jiàn),從而提高其對(duì)地震波到達(dá)時(shí)間預(yù)測(cè)的準(zhǔn)確性。
-
目標(biāo):利用隨機(jī)位移增強(qiáng)地震波到達(dá)時(shí)間(如P波)的預(yù)測(cè)準(zhǔn)確性,通過(guò)在每個(gè)訓(xùn)練周期對(duì)訓(xùn)練波形進(jìn)行不同的時(shí)間位移,增加樣本多樣性,提高模型泛化能力。
-
方法:
-
無(wú)隨機(jī)位移:固定參考時(shí)間點(diǎn),導(dǎo)致模型傾向于記住錨點(diǎn)時(shí)間位置而非學(xué)習(xí)更通用的特征。
-
限制隨機(jī)位移(10-15秒內(nèi)):顯示出期望相位存在于有限窗口內(nèi)的統(tǒng)計(jì)偏差,對(duì)連續(xù)數(shù)據(jù)的性能有所下降。
-
完全隨機(jī)位移(0-30秒內(nèi)):在整個(gè)窗口內(nèi)高激活得分,提高了模型對(duì)于地震檢測(cè)的效能。
實(shí)驗(yàn)結(jié)果: -
對(duì)比了預(yù)先計(jì)算的固定隨機(jī)位移與動(dòng)態(tài)隨機(jī)位移(即訓(xùn)練時(shí)實(shí)時(shí)計(jì)算,使每個(gè)樣本在每個(gè)周期都有不同的位移)。動(dòng)態(tài)隨機(jī)位移在精確度、召回率和F1分?jǐn)?shù)上均優(yōu)于固定隨機(jī)位移,顯示出更好的性能。
-
Superimposing events
?這段論文摘要指出,在訓(xùn)練地震檢測(cè)模型時(shí),通常使用的單一事件數(shù)據(jù)可能導(dǎo)致模型學(xué)習(xí)到只在時(shí)間窗口內(nèi)期待一個(gè)事件的偏見(jiàn),從而忽略掉同時(shí)存在的較小事件。這種偏見(jiàn)對(duì)于設(shè)計(jì)用來(lái)在時(shí)間窗口內(nèi)檢測(cè)每個(gè)事件的基于語(yǔ)義分割的方法尤為不利。為了讓模型能夠適應(yīng)正常地震以及如地震群和誘發(fā)地震這樣的極端情況,提出了一種有效的數(shù)據(jù)增強(qiáng)方法:事件疊加。
?事件疊加的目的與效果
目的:通過(guò)人工方式將兩個(gè)或更多的時(shí)間序列合并(疊加),模擬在短時(shí)間窗口內(nèi)發(fā)生多個(gè)事件的情況,以此來(lái)消除數(shù)據(jù)中只存在一個(gè)事件的偏見(jiàn)。
效果:使用事件疊加的模型能夠檢測(cè)到靠近較大事件的較小事件,提高了對(duì)小事件的檢測(cè)能力。實(shí)際數(shù)據(jù)中事件波形可能完全重疊,但為了避免訓(xùn)練數(shù)據(jù)導(dǎo)致的假陽(yáng)性增加,通常不會(huì)合成這些完全重疊的情況
-
應(yīng)用場(chǎng)景:盡管在實(shí)際數(shù)據(jù)處理中,可能會(huì)避免使用完全重疊的事件波形,但在特殊應(yīng)用中,如為了真實(shí)再現(xiàn)地震群,疊加大量重疊事件可能是有用的。
技術(shù)細(xì)節(jié):在疊加過(guò)程中,還會(huì)應(yīng)用隨機(jī)比例于事件振幅之間,這進(jìn)一步增強(qiáng)了神經(jīng)網(wǎng)絡(luò)檢測(cè)同時(shí)發(fā)生的小地震的能力 -
結(jié)束波形的估計(jì):由于大多數(shù)數(shù)據(jù)集不提供波形結(jié)束(或地震尾波)的信息,可以使用P波和S波到達(dá)時(shí)間之間的時(shí)間差來(lái)大致估計(jì)地震尾波的結(jié)束,或者使用與尾波震級(jí)估計(jì)類(lèi)似的基于信封函數(shù)的測(cè)量方法。
-
通過(guò)引入這種事件疊加的數(shù)據(jù)增強(qiáng)方法,可以顯著提高模型在復(fù)雜地震活動(dòng)情況下的泛化能力和準(zhǔn)確性,尤其是在檢測(cè)地震群和誘發(fā)地震這類(lèi)信息密集且地震頻繁發(fā)生的極端情況時(shí)。這種方法不僅增加了訓(xùn)練數(shù)據(jù)的多樣性,還幫助模型學(xué)會(huì)在多事件情況下進(jìn)行有效檢測(cè),從而提高了地震監(jiān)測(cè)和預(yù)警系統(tǒng)的整體性能
Superposing noise
?在處理信噪比(SNR)低的地震數(shù)據(jù)時(shí),通過(guò)向信號(hào)中疊加噪聲來(lái)提高神經(jīng)網(wǎng)絡(luò)的性能是一種直接且有效的方法。這種增強(qiáng)技術(shù)不僅能夠保持高SNR數(shù)據(jù)的標(biāo)簽高可靠性,而且由于增強(qiáng)后的弱信號(hào)是已知高SNR信號(hào)的衰減版本,因此它們的標(biāo)簽比低SNR信號(hào)上的標(biāo)簽更準(zhǔn)確。通過(guò)控制信號(hào)與疊加噪聲之間的比例,可以影響神經(jīng)網(wǎng)絡(luò)的檢測(cè)極限。特別地,通過(guò)疊加強(qiáng)噪聲,我們可以推動(dòng)神經(jīng)網(wǎng)絡(luò)檢測(cè)隱藏在背景噪聲中的微弱信號(hào);然而,需要注意的是,這可能同時(shí)增加了假陽(yáng)性的潛在風(fēng)險(xiǎn)。
- 保持高可靠性:即使在疊加了強(qiáng)噪聲的情況下,也能保持來(lái)自高SNR數(shù)據(jù)的標(biāo)簽的高可靠性。
- 提高泛化能力:這種方法也是一種有效的減少小訓(xùn)練數(shù)據(jù)集過(guò)擬合的方式,因?yàn)樵肼晿颖救菀讖倪B續(xù)的地震記錄或合成的隨機(jī)噪聲中獲得。
- 實(shí)驗(yàn)證明,與未疊加噪聲相比,通過(guò)疊加噪聲進(jìn)行訓(xùn)練,即使是在較小的訓(xùn)練數(shù)據(jù)集上,也能在高SNR測(cè)試樣本上獲得高精確度、召回率和F1分?jǐn)?shù)。然而,當(dāng)僅使用高質(zhì)量樣本進(jìn)行訓(xùn)練時(shí),對(duì)于低SNR測(cè)試樣本的召回率明顯較低。在使用疊加噪聲作為增強(qiáng)方法進(jìn)行訓(xùn)練后,低SNR數(shù)據(jù)的召回率和F1分?jǐn)?shù)顯著提高,同時(shí)高SNR數(shù)據(jù)的性能得到維持
- 噪聲選擇:應(yīng)根據(jù)具體環(huán)境選擇疊加的噪聲類(lèi)型,如針對(duì)鉆孔數(shù)據(jù)、城市數(shù)據(jù)、海底地震儀(OBS)數(shù)據(jù)的應(yīng)用
- 使用現(xiàn)實(shí)地震噪聲:使用現(xiàn)場(chǎng)地震儀記錄的真實(shí)地震噪聲可以獲得更為現(xiàn)實(shí)的增強(qiáng)效果和更好的性能,但需要注意避免包含未被檢測(cè)到的事件在噪聲窗口內(nèi),這可能無(wú)意中增加了數(shù)據(jù)集中的誤標(biāo)率,從而降低性能。
- 疊加噪聲的增強(qiáng)技術(shù)提供了一種提高神經(jīng)網(wǎng)絡(luò)在處理低SNR地震數(shù)據(jù)性能的有效方法。它不僅可以幫助網(wǎng)絡(luò)更好地泛化到復(fù)雜數(shù)據(jù)上,還可以通過(guò)適當(dāng)?shù)脑肼曔x擇和控制,進(jìn)一步優(yōu)化模型的檢測(cè)能力,尤其是在挑戰(zhàn)性的低SNR環(huán)境中。然而,在實(shí)施這種增強(qiáng)技術(shù)時(shí),需要謹(jǐn)慎處理,確保不會(huì)引入誤標(biāo)問(wèn)題,同時(shí)避免對(duì)特定類(lèi)型的儀器產(chǎn)生偏見(jiàn)。
False positive noise
-
在處理低信噪比(SNR)地震數(shù)據(jù)時(shí),向地震信號(hào)中疊加噪聲被證明是提高神經(jīng)網(wǎng)絡(luò)性能的有效方法。此外,向訓(xùn)練數(shù)據(jù)集中添加非地震信號(hào)(即誤報(bào)信號(hào))也是一種處理復(fù)雜噪聲效應(yīng)(如城市振動(dòng)產(chǎn)生的形狀脈沖)的方式,特別是對(duì)于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以識(shí)別負(fù)樣本(即降低誤報(bào)率)十分有效。
-
由于連續(xù)地震數(shù)據(jù)中復(fù)雜的噪聲和非穩(wěn)定噪聲源,小規(guī)模的訓(xùn)練數(shù)據(jù)集只能覆蓋有限的噪聲范圍。因此,僅基于有限噪聲樣本訓(xùn)練的神經(jīng)網(wǎng)絡(luò)可能會(huì)在未見(jiàn)過(guò)的、具有類(lèi)似地震信號(hào)特征的噪聲上產(chǎn)生許多誤報(bào)。為了解決這個(gè)問(wèn)題,我們可以向訓(xùn)練數(shù)據(jù)集中添加這些誤報(bào)噪聲樣本或合成類(lèi)似的非地震信號(hào),以重新訓(xùn)練或微調(diào)神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)識(shí)別這些誤報(bào)并糾正其預(yù)測(cè)。
-
面對(duì)數(shù)據(jù)缺失:在地震數(shù)據(jù)采集中,由于儀器或傳輸錯(cuò)誤,數(shù)據(jù)部分缺失是常見(jiàn)的,這可能導(dǎo)致連續(xù)數(shù)據(jù)中出現(xiàn)突變,進(jìn)而產(chǎn)生誤報(bào)。通過(guò)將類(lèi)似的噪聲樣本加入訓(xùn)練數(shù)據(jù),可以有效抑制此類(lèi)誤報(bào)預(yù)測(cè)
-
處理人為活動(dòng)噪聲:同樣的邏輯也適用于其他常見(jiàn)的誤報(bào)噪聲類(lèi)型,例如人類(lèi)活動(dòng)產(chǎn)生的脈沖信號(hào)。
-
在實(shí)踐中,鑒于需要廣泛的測(cè)試數(shù)據(jù)和手動(dòng)檢查,識(shí)別不同類(lèi)別的常見(jiàn)誤報(bào)挑戰(zhàn)重重。為了提高識(shí)別誤報(bào)樣本的效率,可以采用主動(dòng)學(xué)習(xí)策略。由于在應(yīng)用過(guò)程中,從大量未標(biāo)記樣本中手動(dòng)識(shí)別誤報(bào)往往困難重重,主動(dòng)學(xué)習(xí)旨在設(shè)計(jì)策略對(duì)這些未標(biāo)記樣本進(jìn)行排序,并首先標(biāo)注最具信息量的樣本,例如不確定性最大的樣本。這些樣本更有可能被識(shí)別為誤報(bào)或漏報(bào),將它們加入訓(xùn)練可以提高學(xué)習(xí)效率
-
在地震信號(hào)處理和模型訓(xùn)練中引入適當(dāng)?shù)臄?shù)據(jù)增強(qiáng)策略,如疊加噪聲和添加非地震誤報(bào)信號(hào),可以顯著提高模型在處理復(fù)雜噪聲和低SNR條件下的性能和魯棒性。同時(shí),采用主動(dòng)學(xué)習(xí)策略可以有效地提高識(shí)別和處理誤報(bào)樣本的效率,進(jìn)一步優(yōu)化模型的預(yù)測(cè)準(zhǔn)確性。這些策略的綜合應(yīng)用將大大提升地震數(shù)據(jù)處理模型的實(shí)用價(jià)值和可靠性
Channel dropout
?在現(xiàn)代地震學(xué)中,三分量地震數(shù)據(jù)是最常見(jiàn)的數(shù)據(jù)形式;然而,在許多歷史檔案中,單一通道記錄占主導(dǎo)地位,并且在一些部署中仍在使用。此外,在三分量記錄中,由于儀器故障或遙測(cè)錯(cuò)誤,一個(gè)通道失效并不罕見(jiàn)。數(shù)據(jù)增強(qiáng)是一種有效的策略,可以提高模型使用三分量數(shù)據(jù)對(duì)單通道數(shù)據(jù)進(jìn)行訓(xùn)練的性能。一種合適的方法是使用類(lèi)似于dropout的技術(shù)。在輸入層,我們隨機(jī)地從ENZ輸入通道中丟棄一個(gè)或兩個(gè)通道。這種通道dropout訓(xùn)練神經(jīng)網(wǎng)絡(luò)也能夠?qū)θ笔ǖ赖臄?shù)據(jù)進(jìn)行預(yù)測(cè)。對(duì)于像相位關(guān)聯(lián)這樣的應(yīng)用,其中基于來(lái)自多個(gè)站點(diǎn)的數(shù)據(jù)進(jìn)行訓(xùn)練,我們可以采用類(lèi)似的方法,在訓(xùn)練期間從部分站點(diǎn)丟棄數(shù)據(jù)。這可以防止網(wǎng)絡(luò)過(guò)度擬合于主導(dǎo)站點(diǎn),并增加神經(jīng)網(wǎng)絡(luò)在一些站點(diǎn)的數(shù)據(jù)缺失或損壞時(shí)的魯棒性
-
比較了使用和不使用通道dropout的訓(xùn)練性能。將訓(xùn)練好的模型應(yīng)用于高質(zhì)量測(cè)試數(shù)據(jù)(SNR > 20dB)上,并檢查不同組件上的性能。兩種模型顯示出與三分量數(shù)據(jù)相似的性能;然而,經(jīng)過(guò)通道dropout訓(xùn)練的模型在單一組件數(shù)據(jù)上表現(xiàn)更好。在單一E、N、Z和EN組件組合上的性能是有啟示性的,并反映了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)區(qū)分P波和S波的信息。僅使用Z組件進(jìn)行P波到達(dá)時(shí)間的拾取的性能分?jǐn)?shù)與使用所有ENZ組件相似,反映出Z組件提供了用于拾取P波到達(dá)時(shí)間的大部分信息。相比之下,水平的EN組件包含了拾取S波到達(dá)時(shí)間的必要信息。這與P波和S波的偏振一致。P波在垂直組件上顯示得更強(qiáng),而S波在水平組件上顯示得更明顯。
-
增強(qiáng)模型泛化能力:通過(guò)引入通道dropout,模型能更好地適應(yīng)在實(shí)際應(yīng)用中可能遇到的數(shù)據(jù)缺失情況,如某一通道的失效
-
提高單一組件數(shù)據(jù)的性能:通過(guò)模擬通道缺失的情況,模型在處理單一通道數(shù)據(jù)時(shí)的性能得到提高,這對(duì)于歷史數(shù)據(jù)分析或特定部署場(chǎng)景下的數(shù)據(jù)處理尤其重要
-
防止過(guò)擬合:這種方法還可以幫助防止模型在特定站點(diǎn)或通道上過(guò)度擬合,增強(qiáng)模型對(duì)不同站點(diǎn)數(shù)據(jù)的泛化能力
-
通道dropout是一種有效的數(shù)據(jù)增強(qiáng)技術(shù),可以提高地震信號(hào)處理模型在面對(duì)復(fù)雜、不完整數(shù)據(jù)時(shí)的性能和魯棒性。這種方法通過(guò)模擬通道失效的情況,訓(xùn)練模型在缺失一部分?jǐn)?shù)據(jù)時(shí)也能進(jìn)行有效的地震波形識(shí)別和相位拾取,特別是對(duì)于P波和S波的區(qū)分。
Resampling
- 在深度學(xué)習(xí)中,使用不平衡數(shù)據(jù)集進(jìn)行有效訓(xùn)練可能會(huì)面臨挑戰(zhàn)。這個(gè)問(wèn)題在使用地震信號(hào)訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)尤其顯著,因?yàn)榈卣鹫鸺?jí)分布的不平衡性。根據(jù)古騰堡-里克特定律(Gutenberg-Richter law, 1944),地震震級(jí)與地震數(shù)量之間存在冪律關(guān)系,這意味著相對(duì)于小震級(jí)地震,用于訓(xùn)練的大震級(jí)地震數(shù)量要少得多。這種不平衡直接影響了使用神經(jīng)網(wǎng)絡(luò)進(jìn)行震級(jí)估計(jì)等應(yīng)用的效果。類(lèi)似的問(wèn)題也存在于距離、深度、地理位置、構(gòu)造背景、震源機(jī)制、震級(jí)類(lèi)型、儀器類(lèi)型以及特定訓(xùn)練集中的信噪比等方面。地震監(jiān)測(cè)網(wǎng)絡(luò)的臺(tái)站覆蓋和配置也在不同網(wǎng)絡(luò)間有顯著的差異。這些不平衡可能降低基于特定數(shù)據(jù)集訓(xùn)練的模型對(duì)更廣泛地震范圍的泛化能力。因此,在構(gòu)建訓(xùn)練數(shù)據(jù)集期間,調(diào)查數(shù)據(jù)屬性是必要的?;谶@樣的初步調(diào)查,可以開(kāi)發(fā)適當(dāng)?shù)闹夭蓸臃椒▉?lái)解決數(shù)據(jù)集內(nèi)可能存在的不平衡問(wèn)題。
- 隨機(jī)重采樣:通過(guò)訓(xùn)練期間過(guò)采樣少數(shù)類(lèi)或欠采樣多數(shù)類(lèi)來(lái)處理不平衡問(wèn)題,以便類(lèi)分布不會(huì)偏向于少數(shù)特定類(lèi),從而通過(guò)在更平衡的樣本分布上訓(xùn)練獲得更好的泛化能力
- 重采樣的副作用:欠采樣多數(shù)類(lèi)可能會(huì)導(dǎo)致丟失部分訓(xùn)練數(shù)據(jù)并減少訓(xùn)練規(guī)模。極端過(guò)采樣,通過(guò)重復(fù)少數(shù)幾個(gè)相似震級(jí)或同一地區(qū)的少數(shù)樣本,也可能使神經(jīng)網(wǎng)絡(luò)偏向于簡(jiǎn)單記憶這些樣本,這顯然不利于泛化。此外,過(guò)采樣對(duì)于大地震的應(yīng)用可能有限,不僅因?yàn)榇笫录^罕見(jiàn),而且它們比小事件更復(fù)雜,通常展示出涉及多個(gè)斷層的復(fù)雜空間和時(shí)間的破裂模式。
- 結(jié)合過(guò)采樣與上述討論的增強(qiáng)方法可能是增加少數(shù)樣本比例和多樣性的更有效方式。另一種選擇可能是使用更高級(jí)的方法合成訓(xùn)練樣本,如SMOTE(Chawla et al., 2002)、ADASYN(He et al., 2008)和GAN(Goodfellow et al., 2014)
重采樣
?波形數(shù)據(jù)重采樣是一個(gè)常見(jiàn)的數(shù)據(jù)處理技術(shù),用于改變波形數(shù)據(jù)的采樣率,即每秒鐘的樣本數(shù)。這一技術(shù)在信號(hào)處理和地震數(shù)據(jù)分析中尤其重要,因?yàn)椴煌膫鞲衅骰驍?shù)據(jù)收集設(shè)備可能以不同的采樣率記錄數(shù)據(jù),而數(shù)據(jù)分析、特征提取或模型訓(xùn)練往往需要統(tǒng)一的采樣率。重采樣可以增加(過(guò)采樣)或減少(欠采樣)波形數(shù)據(jù)的樣本數(shù),以匹配目標(biāo)采樣率。過(guò)采樣可能需要插值以生成新的樣本點(diǎn),而欠采樣可能需要去除某些樣本或?qū)υ紭颖具M(jìn)行平均。
- 統(tǒng)一不同數(shù)據(jù)源的采樣率:當(dāng)你的數(shù)據(jù)來(lái)自不同的傳感器,它們的采樣率可能不一致,重采樣可以將所有數(shù)據(jù)統(tǒng)一到相同的采樣率,便于后續(xù)處理
- 數(shù)據(jù)降噪:通過(guò)降低采樣率,可以在一定程度上減少數(shù)據(jù)中的高頻噪聲
- 提高算法效率:在某些情況下,降低數(shù)據(jù)的采樣率可以減少數(shù)據(jù)量,從而提高算法的計(jì)算效率,特別是在處理長(zhǎng)時(shí)間序列數(shù)據(jù)時(shí)
import numpy as np
from scipy.signal import resample
# 假設(shè)原始數(shù)據(jù)
fs_original = 1000 # 原始采樣率為1000Hz
fs_target = 500 # 目標(biāo)采樣率為500Hz
t = np.arange(0, 1, 1/fs_original) # 生成1秒的測(cè)試信號(hào)時(shí)間軸
data_original = np.sin(2 * np.pi * 5 * t) # 生成一個(gè)頻率為5Hz的正弦波作為測(cè)試信號(hào)
# 計(jì)算目標(biāo)采樣點(diǎn)數(shù)
n_samples_target = int(len(data_original) * fs_target / fs_original)
# 重采樣
data_resampled = resample(data_original, n_samples_target)
# 驗(yàn)證
print(f"Original number of samples: {len(data_original)}")
print(f"Resampled number of samples: {len(data_resampled)}")
- 這段代碼首先創(chuàng)建了一個(gè)頻率為5Hz、持續(xù)時(shí)間為1秒的正弦波,原始采樣率為1000Hz。目標(biāo)是將這段數(shù)據(jù)重采樣到500Hz。通過(guò)計(jì)算目標(biāo)采樣點(diǎn)數(shù),并使用resample函數(shù),我們將數(shù)據(jù)從1000Hz重采樣到500Hz
Augmentation for synthetic data generation
- 在某些應(yīng)用中,增強(qiáng)技術(shù)可以用來(lái)生成半合成訓(xùn)練數(shù)據(jù)。例如,在地震去噪問(wèn)題和對(duì)掃描的模擬地震圖進(jìn)行地震檢測(cè)的研究中,由于真實(shí)的基準(zhǔn)數(shù)據(jù)(訓(xùn)練目標(biāo))未知且手工標(biāo)記難以實(shí)現(xiàn),可以利用增強(qiáng)技術(shù)從豐富的地震波形數(shù)據(jù)中合成訓(xùn)練輸入和目標(biāo)對(duì)。例如,通過(guò)基于高信噪比(SNR)的地震信號(hào)和一組噪聲波形生成準(zhǔn)確的去噪掩碼作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo),這種增強(qiáng)提供了足夠大數(shù)量的訓(xùn)練樣本,通過(guò)在訓(xùn)練過(guò)程中隨機(jī)組合信號(hào)和噪聲以及隨機(jī)比例來(lái)實(shí)現(xiàn)。這樣,神經(jīng)網(wǎng)絡(luò)被訓(xùn)練學(xué)習(xí)一個(gè)挑戰(zhàn)性的逆過(guò)程,以分離信號(hào)和噪聲,與合成過(guò)程相反
- 裁剪波形常見(jiàn)于中等到大型地震在附近的弱動(dòng)作儀器上的記錄。由于真實(shí)的未裁剪波形無(wú)法在臺(tái)站觀察到,我們不能直接從歷史波形數(shù)據(jù)中獲取訓(xùn)練數(shù)據(jù)。然而,我們可以通過(guò)手動(dòng)裁剪這些波形來(lái)合成訓(xùn)練數(shù)據(jù)。這樣,神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)是合成裁剪的波形,訓(xùn)練目標(biāo)是真實(shí)的未裁剪波形,從而我們可以通過(guò)增強(qiáng)輕松地收集大量訓(xùn)練數(shù)據(jù)。像去噪一樣,這種增強(qiáng)的優(yōu)點(diǎn)是它來(lái)自已知(未裁剪)真實(shí)標(biāo)簽的信號(hào),并提供準(zhǔn)確的訓(xùn)練標(biāo)簽
- 應(yīng)用增強(qiáng)技術(shù)合成訓(xùn)練數(shù)據(jù)解決了一些應(yīng)用中未知真實(shí)標(biāo)簽的問(wèn)題。這個(gè)想法類(lèi)似于使用數(shù)值模擬生成訓(xùn)練數(shù)據(jù);然而,增強(qiáng)方法基于真實(shí)地震波形生成訓(xùn)練數(shù)據(jù),這既高效又能產(chǎn)生現(xiàn)實(shí)的樣本。通過(guò)半合成數(shù)據(jù)訓(xùn)練的模型能夠更好地從數(shù)據(jù)中泛化到真實(shí)地震記錄。如果我們將數(shù)據(jù)生成過(guò)程視為一個(gè)正向操作,神經(jīng)網(wǎng)絡(luò)本質(zhì)上學(xué)習(xí)了從合成訓(xùn)練數(shù)據(jù)到真實(shí)感興趣信號(hào)的逆建模
- 在缺少標(biāo)簽且真實(shí)數(shù)據(jù)稀缺的情況下,數(shù)值模擬可能成為訓(xùn)練數(shù)據(jù)的來(lái)源,例如大型復(fù)雜地震的有限斷層建模。在這種情況下,我們可以將合成的地震波形與真實(shí)噪聲結(jié)合,生成訓(xùn)練數(shù)據(jù)以提高對(duì)大震級(jí)地震的檢測(cè)能力。然而,使用模擬數(shù)據(jù)訓(xùn)練的模型在應(yīng)用于真實(shí)地震數(shù)據(jù)時(shí)可能存在泛化問(wèn)題??赡苄枰谏贁?shù)真實(shí)地震波形上進(jìn)行模型微調(diào)或遷移學(xué)習(xí),以縮小泛化差距。計(jì)算機(jī)視覺(jué)中的許多其他算法也可以用來(lái)彌合模擬與真實(shí)世界之間的領(lǐng)域差距,如對(duì)抗性判別域適應(yīng)(Tzeng et al., 2017)。大地震的重要性為未來(lái)在這個(gè)方向的研究提供了強(qiáng)烈的動(dòng)機(jī)
總結(jié)
?我們介紹并討論了幾種能夠提升深度學(xué)習(xí)方法在地震學(xué)應(yīng)用中性能的增強(qiáng)技術(shù)。結(jié)合這些增強(qiáng)技術(shù)可以便捷地增加可能的訓(xùn)練樣本數(shù),并即使在小訓(xùn)練數(shù)據(jù)集上也能改善模型的泛化能力。除了上述討論的增強(qiáng)技術(shù)外,圖像和語(yǔ)音處理中使用的其他增強(qiáng)方法也可以應(yīng)用于地震數(shù)據(jù),例如:(1) 在不同的狹窄頻帶內(nèi)濾波地震圖;(2) 時(shí)間或頻率伸縮;(3) 通過(guò)零值掩碼部分信號(hào);(4) 垂直或可能水平翻轉(zhuǎn)信號(hào);(5) 旋轉(zhuǎn)水平分量以考慮站點(diǎn)定位問(wèn)題并創(chuàng)建新的源站路徑;(6) 使用PCA增強(qiáng)法在三個(gè)分量間進(jìn)行縮放;(7) 特征空間增強(qiáng)。某些增強(qiáng),如時(shí)間拉伸或垂直翻轉(zhuǎn),可能導(dǎo)致相位或偏振信息的變化等潛在副作用,因此在選擇增強(qiáng)技術(shù)時(shí)需要一些謹(jǐn)慎
-
除了基于信號(hào)處理的增強(qiáng)外,生成對(duì)抗網(wǎng)絡(luò)(GAN)方法可以用作合成信號(hào)生成器,以制造新的訓(xùn)練樣本?;贏utoML的方法,如AutoAugment,可以用于自動(dòng)搜索不同問(wèn)題和數(shù)據(jù)集的適當(dāng)數(shù)據(jù)增強(qiáng)方法。這些方法對(duì)于地震數(shù)據(jù)的有效性仍是未來(lái)研究的重要領(lǐng)域。
-
增強(qiáng)技術(shù)不僅可以在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí)設(shè)計(jì),而且測(cè)試時(shí)增強(qiáng)也可以幫助提高訓(xùn)練后的預(yù)測(cè)性能。在圖像分類(lèi)中,對(duì)測(cè)試圖像應(yīng)用幾種固定的裁剪和縮放。類(lèi)似于集成學(xué)習(xí),最終的預(yù)測(cè)得分是通過(guò)對(duì)這些增強(qiáng)的平均來(lái)改進(jìn)的。訓(xùn)練時(shí)和測(cè)試時(shí)的增強(qiáng)服務(wù)于不同的目的,訓(xùn)練時(shí)增強(qiáng)旨在增加訓(xùn)練樣本的多樣性和復(fù)雜性,測(cè)試時(shí)增強(qiáng)旨在通過(guò)采樣合適地代表數(shù)據(jù)特征的某些變換來(lái)使識(shí)別任務(wù)變得更容易,并通過(guò)聚合不同的增強(qiáng)來(lái)使預(yù)測(cè)更加穩(wěn)健。
-
對(duì)于地震數(shù)據(jù),數(shù)據(jù)預(yù)處理方法,如濾波,可以用作測(cè)試時(shí)增強(qiáng)。濾波可以將信號(hào)轉(zhuǎn)換為訓(xùn)練數(shù)據(jù)集所覆蓋的特定高信噪比頻帶,從而提高在噪聲數(shù)據(jù)上的預(yù)測(cè)準(zhǔn)確性。表4.3顯示了應(yīng)用1Hz高通濾波在測(cè)試數(shù)據(jù)集上的提高預(yù)測(cè)性能。另一種測(cè)試時(shí)增強(qiáng)的潛在方法是將大震中距離波形壓縮到較短的時(shí)間窗口內(nèi),以減輕由于訓(xùn)練數(shù)據(jù)集中震中距離分布不平衡(91%樣本<40km)造成的學(xué)習(xí)偏差文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-845362.html
-
轉(zhuǎn)移學(xué)習(xí)和領(lǐng)域適應(yīng)方法是解決標(biāo)記訓(xùn)練數(shù)據(jù)不足問(wèn)題的另一種方法,這些方法開(kāi)發(fā)用于將從大型訓(xùn)練數(shù)據(jù)集學(xué)到的特征和知識(shí)適應(yīng)到新的數(shù)據(jù)集或任務(wù)上,這通常有更少的訓(xùn)練數(shù)據(jù)。例如,預(yù)先訓(xùn)練好的ImageNet數(shù)據(jù)集模型已被用于廣泛的問(wèn)題,如對(duì)象檢測(cè)、圖像分割、醫(yī)學(xué)圖像識(shí)別和遙感。通常,轉(zhuǎn)移學(xué)習(xí)意味著將在大型數(shù)據(jù)集上訓(xùn)練的低層特征和表示從設(shè)計(jì)任務(wù)轉(zhuǎn)移到不同任務(wù)的新數(shù)據(jù)集上,而領(lǐng)域適應(yīng)指的是同一任務(wù)在兩個(gè)不同數(shù)據(jù)集上的情況。由于地震信號(hào)之間的相似性,預(yù)先訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)在大型數(shù)據(jù)集(如STEAD)上提取的共同低層特征可以通過(guò)轉(zhuǎn)移學(xué)習(xí)或領(lǐng)域適應(yīng)用于沒(méi)有足夠訓(xùn)練數(shù)據(jù)的應(yīng)用。未監(jiān)督預(yù)訓(xùn)練,如自動(dòng)編碼器,也可以用于轉(zhuǎn)移學(xué)習(xí)中提取良好的數(shù)據(jù)表示。與預(yù)訓(xùn)練相反,自我訓(xùn)練是另一種利用大量未標(biāo)記數(shù)據(jù)的方法文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-845362.html
到了這里,關(guān)于【論文閱讀記錄】地震數(shù)據(jù)增強(qiáng)方法:APPLICATIONS OF DEEP LEARNING IN SEISMOLOGY的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!