前些天發(fā)現(xiàn)了一個人工智能學(xué)習(xí)網(wǎng)站,內(nèi)容深入淺出、易于理解。如果對人工智能感興趣,不妨點擊查看。
寫在最前面
論文涉及7位專家的評估,不方便模仿成文,因此只閱讀了前面一部分。
圖表很好看,后續(xù)寫論文時可以回顧學(xué)習(xí)。
Wenhan Ge, Junfeng Wang的論文
SeqMask: Behavior Extraction Over Cyber Threat Intelligence Via Multi-Instance Learning
基于多實例學(xué)習(xí)的網(wǎng)絡(luò)威脅情報行為提取
論文地址:https://academic.oup.com/comjnl/article/67/1/253/6852690?login=true#436465905
論文代碼:https://github.com/MuscleFish/SeqMask
1. 摘要
原有局限性
雖然上述方法可以定位或識別CTI中的一些TTPs信息,但需要解決以下問題。基于機(jī)器學(xué)習(xí)的方法由于其黑盒性質(zhì)而難以有效定位 TTP,導(dǎo)致無法形成 TTP 實體。信息提取方法的局限性可分為三點。
(1)數(shù)據(jù)不足:信息提取的核心是實現(xiàn)對SVO/VO行為短語的提取,這將過濾非SVO/VO信息,使部分證據(jù)丟失。識別的結(jié)果只能判斷行為的歸屬,但很難定位和推理預(yù)測。
(2)驗證不完全:信息提取擅長區(qū)分行為短語之間的相似性,但不能區(qū)分短語中單個單詞的貢獻(xiàn)。識別方法只能確定分類的準(zhǔn)確性,因此難以理解輸入文本導(dǎo)致結(jié)果的原因或方式。
(3)流程復(fù)雜:以前的信息提取框架對NLP技術(shù)的依賴性極強(qiáng),使其工程復(fù)制和部署需要苛刻的環(huán)境。為了提高準(zhǔn)確性,識別方法的神經(jīng)網(wǎng)絡(luò)往往又深又大,消耗過多的計算或存儲資源。
總而言之,一種簡單而全面的分析TTP的方法值得研究。這種方法需要數(shù)據(jù)解釋和高準(zhǔn)確性,以獲得TTP標(biāo)簽和證據(jù)的完整情況。
提出新方法
為了方便有效地處理TTP,該文提出了一種基于多實例學(xué)習(xí)(MIL)的深度學(xué)習(xí)框架SeqMask。SeqMask認(rèn)為“關(guān)鍵詞與局部向量空間中所有詞的平均值相去甚遠(yuǎn)”[19],因此對n-gram詞/短語使用語義注意機(jī)制來過濾行為信息并識別TTP。 與SVO/VO等方法相比,SeqMask不需要對文本進(jìn)行詞性(POS)操作,這不僅簡化了流程,而且減少了對關(guān)鍵詞來源的限制,區(qū)分了信息的相對重要性。
2. 創(chuàng)新點
本文的新穎性和貢獻(xiàn)如下。
(1)弱監(jiān)督行為抽取。與手動開發(fā)的過濾模型不同,我們使用 MIL 從 CTI 中提取 TTP 信息。SeqMask是一種弱監(jiān)督學(xué)習(xí)場景[20],旨在通過不精確的學(xué)習(xí)來闡明單詞或短語對CTI中TTP的貢獻(xiàn),沒有確定的地面實況篩選分?jǐn)?shù)。
(2)多角度信息有效性指標(biāo)。為了證明SeqMask提取的關(guān)鍵詞的有效性,提出了兩種質(zhì)量評估方法。其中一項評估了專家篩選的關(guān)鍵字與通過Jaccard Similarity篩選的模型之間的差異。另一個通過掩蓋高分信息來“破壞”原始模型,并記錄分類性能的下降。
(3)更多的識別任務(wù)驗證。本文不僅對短文本CTI的TTPs提取實驗進(jìn)行了TTPs識別實驗,還對全尺寸CTI和惡意軟件進(jìn)行了TTPs識別實驗。實驗結(jié)果充分驗證了SeqMask的兼容性和擴(kuò)展性。
在結(jié)構(gòu)上,本文分為以下幾個順序:
第2節(jié)介紹了目前CTI識別和關(guān)鍵詞提取的方法。
第 3 節(jié)討論了 SeqMask 的功能工作原理或原理。
第4節(jié)匯編了實驗細(xì)節(jié)和驗證。
第5節(jié)總結(jié)了全文,并介紹了今后的工作。
最后,第 6 部分是本文的數(shù)據(jù)可用性聲明。
3. 方法論
3.1. SeqMask 概述
為了實現(xiàn)“一種簡單而全面的TTP信息識別和提取方法”,該文構(gòu)建了基于MIL的SeqMask框架。SeqMask 的主要目的是解決計算機(jī)自發(fā)閱讀、理解和概括文本含義的過程。
圖 1 顯示了 SeqMask 與傳統(tǒng)信息提取方法的不同之處。
經(jīng)典的信息提取方法一次刪除非 SVO/VO 詞,并留下有限的區(qū)域來完成行為識別。
然而,SeqMask則根據(jù)其對語義的理解,對文本的向量空間進(jìn)行評分和推薦,并通過組合將關(guān)鍵點映射到相應(yīng)的語義標(biāo)簽中。因此,SeqMask在處理信息過濾時不會丟棄全局視圖和內(nèi)容,并且可以滿足“信息完整性”的基本要求。
為了回答“語義影響TTP標(biāo)簽的內(nèi)容和方式”,SeqMask需要解決語義分布的規(guī)則組合問題。通過深度學(xué)習(xí)方法,如注意力機(jī)制,這種組合可以歸納為三個主要任務(wù):(1)文本表示:如何將CTI文本轉(zhuǎn)換為深度學(xué)習(xí)可以處理的向量特征;(2)信息抽?。喝绾螌TI向量特征的語義分布進(jìn)行劃分,(3)TTPs可能性預(yù)測:如何利用語義分布實現(xiàn)行為的確定。此外,為了證明SeqMask提取的信息是可用的,提出了一套提取評估方法作為關(guān)鍵字完整性和必要性的度量。以上四個步驟將在后續(xù)章節(jié)中介紹。
3.2. 文本表示
當(dāng) CTI 的文本輸入到 SeqMask 中時,它們將按語句進(jìn)行拆分,以避免不必要的冗余參數(shù)。此外,為了防止由于單詞失真和大小寫問題而不必要地添加到字典中,我們實施了詞形縮減、小寫和數(shù)據(jù)清理的正則化方法。
例如,當(dāng)輸入語句“TA459 已利用 Microsoft Word 漏洞 CVE-2017-0199 執(zhí)行”時,文本預(yù)處理方法將首先恢復(fù)“已利用”的詞法性質(zhì),并替換或刪除數(shù)字,例如將“CVE-2017-0199”替換為“漏洞”,將“TA459”替換為“TA”。然后,所有大寫符號都將轉(zhuǎn)換為小寫。最后,上面的語句將被轉(zhuǎn)換為單詞的集合:“利用 Microsoft Word 漏洞執(zhí)行漏洞”。
由于SeqMask是一種典型的深度學(xué)習(xí)方法,因此需要將CTI文本轉(zhuǎn)換為連續(xù)分布的詞嵌入向量進(jìn)行訓(xùn)練。為了完全解決 OOV 問題,我們從 Dark Reading、Kerbs on Security 和其他網(wǎng)站的 15 000 多個網(wǎng)絡(luò)安全博客中訓(xùn)練了一個 FastText [45] 詞嵌入表達(dá)式。
3.3. 信息提取
3.4. TTPs 可能性預(yù)測
3.5. 提取評估
由于戰(zhàn)術(shù)和技術(shù)關(guān)鍵信息沒有標(biāo)準(zhǔn)答案,因此為關(guān)鍵字質(zhì)量檢查設(shè)計了兩個特殊評估。一種是專家評估(EA),比較人工和機(jī)器生成的關(guān)鍵字相似性。另一個是置信度評估(CA),它按單詞重要性的倒序覆蓋原始序列,并留下不相關(guān)的信息來檢測標(biāo)簽推斷是否已損壞。
3.5.1. 專家評估
文章來源:http://www.zghlxwxcb.cn/news/detail-841909.html
3.5.2. 置信度評估
文章來源地址http://www.zghlxwxcb.cn/news/detail-841909.html
到了這里,關(guān)于【威脅情報挖掘-論文閱讀】學(xué)習(xí)圖表繪制 基于多實例學(xué)習(xí)的網(wǎng)絡(luò)行為提取 SeqMask: Behavior Extraction Over Cyber Threat Intelligence的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!