国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning

這篇具有很好參考價值的文章主要介紹了論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

目錄

?摘要:

?引言

3 問題定義

4 CBD

4.1 框架概述

4.2 Model Learning

4.2.1 通過 GCL 進(jìn)行模型預(yù)訓(xùn)練

?4.2.2 通過一致性損失進(jìn)行模型微調(diào)

?4.3 在線檢測

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

5.2 性能比較

5.5 少量檢測研究

?6 結(jié)論


https://dl.acm.org/doi/pdf/10.1145/3583780.3615468

?

?摘要:

????????社交機(jī)器人檢測正在成為社會安全領(lǐng)域廣泛關(guān)注的任務(wù)。一直以來,社交機(jī)器人檢測技術(shù)的發(fā)展都因缺乏高質(zhì)量的標(biāo)注數(shù)據(jù)而受到阻礙。此外,人工智能生成內(nèi)容(AIGC)技術(shù)的快速發(fā)展正在極大地提高社交機(jī)器人的創(chuàng)造力。例如,最近發(fā)布的ChatGPT[2]可以以74%的概率欺騙最先進(jìn)的人工智能文本檢測方法[3],這給基于內(nèi)容的機(jī)器人檢測方法帶來了巨大的挑戰(zhàn)。為了解決上述缺點(diǎn),我們提出了一種對比學(xué)習(xí)驅(qū)動的社交機(jī)器人檢測框架(CBD)。 CBD 的核心特點(diǎn)是兩階段模型學(xué)習(xí)策略:對比預(yù)訓(xùn)練階段,從大量未標(biāo)記的社交圖中挖掘泛化模式,然后是半監(jiān)督微調(diào)階段,對潛藏在社交圖中的特定任務(wù)知識進(jìn)行建模,只需少量標(biāo)注。上述策略賦予我們的模型在標(biāo)記數(shù)據(jù)極度匱乏的情況下具有良好的檢測性能。在系統(tǒng)架構(gòu)方面,我們提出了智能反饋機(jī)制以進(jìn)一步提高檢測性能。對真實(shí)機(jī)器人檢測數(shù)據(jù)集的綜合實(shí)驗(yàn)表明,對于使用很少(5 個鏡頭)標(biāo)記數(shù)據(jù)的少鏡頭機(jī)器人檢測,CBD 始終大幅優(yōu)于 10 個最先進(jìn)的基線。 CBD已上線:robot-monitor

?引言

????????大規(guī)模多媒體社交網(wǎng)絡(luò)的普及使人們更多地參與日常生活。因此,人們不可避免地會受到社交網(wǎng)絡(luò)的影響。與此同時,人工智能(AI)的快速發(fā)展在許多領(lǐng)域取得了驚人的成就,但也帶來了挑戰(zhàn),例如惡意社交機(jī)器人。社交機(jī)器人是在社交媒體上自主通信的軟件代理[43],而人工智能驅(qū)動的惡意機(jī)器人越來越多地在社交媒體上像人類一樣思考、交談和社交,這被用來從事破壞活動。在過去的十年中,惡意機(jī)器人被證明可以傳播虛假信息和虛假新聞來影響公眾情緒和股市[36, 37]。在COVID-19大流行期間,機(jī)器人被發(fā)現(xiàn)傳播錯誤信息,例如質(zhì)疑COVID-19的威脅、宣揚(yáng)反疫苗陰謀論等,嚴(yán)重影響疫情防控[38, 49]。研究人員還發(fā)現(xiàn),機(jī)器人被用來參與俄羅斯-烏克蘭信息戰(zhàn)[19]并干擾全國選舉[44],即機(jī)器人被用來擾亂選舉并攻擊對手,例如2017年的法國大選總統(tǒng)選舉[11]、2018年美國中期選舉[47]等。馬斯克斥資440億美元收購Twitter的計劃一度被終止,因?yàn)樗|(zhì)疑Twitter首席執(zhí)行官聲稱的不到5%的虛假賬戶的準(zhǔn)確性[40]。社交機(jī)器人帶來的這些威脅嚴(yán)重危害社會安全。因此,迫切需要高效、有效的社交機(jī)器人檢測方法來促進(jìn)社會的和平與安全。

????????在社交機(jī)器人檢測的早期階段,常用的機(jī)器人檢測方法是基于特征的,即根據(jù)用戶屬性[48]、推文特征[15]、行為特征[34]等從專家知識和統(tǒng)計信息構(gòu)建特征。然而,基于特征的方法很容易受到基于對抗策略的特征的影響,即機(jī)器人創(chuàng)建者可以通過偽造特征來逃避檢測[7]。由于社交機(jī)器人通常通過傳播虛假信息來進(jìn)行惡意活動,因此研究人員基于快速發(fā)展的自然語言處理(NLP)技術(shù)提出了基于內(nèi)容的方法,利用內(nèi)容挖掘技術(shù)來識別真實(shí)性和意圖。例如,Kudugunta 等人[24] 使用長短期記憶(LSTM)處理推文并檢測社交機(jī)器人。然而,大規(guī)模語言模型(LLM)的快速發(fā)展和應(yīng)用使社交機(jī)器人具有更強(qiáng)的內(nèi)容創(chuàng)造能力。例如,對于由 ChatGPT 生成的文本,只有 26% 的文本可以被識別[3],從而降低了基于內(nèi)容的檢測方法的性能。最近,由于圖神經(jīng)網(wǎng)絡(luò)(GNN)在處理非歐幾里得空間數(shù)據(jù)(如社交網(wǎng)絡(luò))方面的優(yōu)越性,基于圖的模型(如[ 9 ]、[ 4 ]等)被提出用于檢測社交機(jī)器人,并有望解決復(fù)雜網(wǎng)絡(luò)下的機(jī)器人群組攻擊等問題。然而,近年來社交機(jī)器人的發(fā)展速度非??靃7],這導(dǎo)致高質(zhì)量的標(biāo)記數(shù)據(jù)非常稀缺。這使得傳統(tǒng)監(jiān)督模型(也包括基于 GNNs 的模型)無法滿足訓(xùn)練需求成為一大挑戰(zhàn)。換句話說,標(biāo)簽稀缺問題阻礙了bot檢測的發(fā)展,使得有監(jiān)督模型容易受到新社交bot的影響。

????????為了應(yīng)對上述挑戰(zhàn),我們提出了一種對比學(xué)習(xí)驅(qū)動的社交bot檢測框架(CBD),該框架由離線訓(xùn)練和在線檢測兩部分組成,支持少量學(xué)習(xí)。具體來說,它在預(yù)訓(xùn)練階段采用圖對比學(xué)習(xí)(只需使用未標(biāo)記數(shù)據(jù)來學(xué)習(xí)包含語義信息的節(jié)點(diǎn)表征)來學(xué)習(xí)有價值的知識,并在微調(diào)階段采用一致性損失來提高模型在標(biāo)記數(shù)據(jù)極少的情況下的性能。

????????對于 CBD 的系統(tǒng)架構(gòu),我們提出了一種智能反饋策略,以進(jìn)一步提高檢測性能。因此,通過采用 CBD,只需要少量的標(biāo)簽數(shù)據(jù)(少量學(xué)習(xí))就可以學(xué)習(xí)到足夠的知識,并建立一個具有良好準(zhǔn)確性的bot檢測平臺。而當(dāng)遇到未知類型的bot時,我們的模型可以通過比較它們與已知類型社交賬號的差異來增強(qiáng)效果,從而獲得有效的檢測結(jié)果。當(dāng)然,預(yù)訓(xùn)練的特征提取器還可以與其他模型相結(jié)合,以提高其性能。我們將主要貢獻(xiàn)總結(jié)如下:

????????我們提出了對比學(xué)習(xí)驅(qū)動的社交機(jī)器人檢測框架--CBD,該框架支持少量學(xué)習(xí),由兩部分?jǐn)?shù)據(jù)交互組成:離線訓(xùn)練和在線檢測。

??????? 對于 CBD 的檢測模型,我們在預(yù)訓(xùn)練階段采用對比學(xué)習(xí),從未標(biāo)明的數(shù)據(jù)中提取有價值的知識;在微調(diào)階段采用一致性損失,在標(biāo)注數(shù)據(jù)極度缺乏的情況下提高檢測性能。

???????? 在一個全面的社交bot檢測數(shù)據(jù)集上進(jìn)行的廣泛實(shí)驗(yàn)證明了對比學(xué)習(xí)方法和一致性損失在社交bot檢測中的有效性,以及 CBD 與最先進(jìn)的基線模型相比的優(yōu)越性。

3 問題定義

????????社交網(wǎng)絡(luò)可以自然地表示為有向圖 G = (V, E),其中 V = {v1, v2, ..., vN} 是社交網(wǎng)絡(luò)中用戶帳戶組成的節(jié)點(diǎn)集,E ? V × V 是描述用戶之間關(guān)注關(guān)系的有向邊集。節(jié)點(diǎn)的鄰居集合表示為 。令 X = [x1, x2, .? , xN ]?∈RN ×d 表示節(jié)點(diǎn)特征矩陣,G的第i個節(jié)點(diǎn)的特征向量可以表示為,d表示特征維度。我們用 A∈R N×N 表示鄰接矩陣,每個元素 A_ij = 1 表示節(jié)點(diǎn) 之間存在一條邊,否則 A_ij = 0。D∈R N×N 是 A 的對角度矩陣,其中 D_ii =

????????在本文中,社交bot檢測可被視為一項(xiàng)二元分類任務(wù),其目標(biāo)是預(yù)測給定的社交賬號v_i∈ V 是否是社交bot。更正式地說,節(jié)點(diǎn)的標(biāo)簽向量表示為 Y∈{0, 1} ,其中 Y∈{0, 1} 表示基本事實(shí)。 這里,Y = 1 表示是社交bot,否則 Y = 0。因此,bot檢測模型的工作是學(xué)習(xí)一個函數(shù):(G,X)-→ Y。

4 CBD

4.1 框架概述

????????圖 1 顯示了 CBD 的架構(gòu),包括離線訓(xùn)練和在線檢測。該框架通過離線訓(xùn)練和在線檢測之間的持續(xù)數(shù)據(jù)交互,實(shí)現(xiàn)了實(shí)時bot檢測和智能反饋??蚣艿墓ぷ髁鞒探榻B如下

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?????????離線訓(xùn)練。這部分主要負(fù)責(zé)數(shù)據(jù)預(yù)處理和模型訓(xùn)練兩大功能。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)采集、整合和存儲,數(shù)據(jù)源涵蓋 Twitter、微博等幾大社交網(wǎng)絡(luò)。具體來說,它提供了數(shù)據(jù)采集工具、信息處理方法和數(shù)據(jù)持久化組件,所有這些組件都可以分布式部署。模型訓(xùn)練包括預(yù)訓(xùn)練和微調(diào),可采用不同的訓(xùn)練策略.

????????在線檢測。這部分提供對社交機(jī)器人的在線實(shí)時檢測,并處理用戶提交的反饋。具體來說,注冊用戶可以針對可疑的檢測結(jié)果向系統(tǒng)提交反饋。如果反饋通過,則會在檢測結(jié)果數(shù)據(jù)庫中更新,從而為模型的微調(diào)提供基于反饋的注釋數(shù)據(jù)。

????????在線檢測模型會定期從離線端更新,以確保模型學(xué)到的最新知識能及時應(yīng)用到實(shí)時檢測中。除了網(wǎng)頁端檢測,它還提供bot檢測應(yīng)用程序接口(API),開發(fā)人員可以利用這些應(yīng)用程序接口為自己的應(yīng)用程序提供bot檢測功能。

4.2 Model Learning

????????模型學(xué)習(xí)在我們的框架中扮演著核心角色,其目的是從收集到的數(shù)據(jù)中挖掘潛在的模式來檢測社交機(jī)器人。如圖 1 右上方所示(深色背景突出顯示),模型訓(xùn)練包括兩個階段(如圖 2 所示):模型預(yù)訓(xùn)練和模型微調(diào)。前者是基于歷史非標(biāo)注數(shù)據(jù)的對比學(xué)習(xí)過程;后者則采用半監(jiān)督式微調(diào)過程,利用基于標(biāo)注數(shù)據(jù)的在線反饋?zhàn)⑨屝畔?。這種兩階段模型訓(xùn)練設(shè)計使我們的框架能夠同時受益于大規(guī)模未標(biāo)注數(shù)據(jù)和動態(tài)增量標(biāo)注數(shù)據(jù),從而使其具有良好的性能。下面我們將詳細(xì)介紹這兩個學(xué)習(xí)階段。

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

4.2.1 通過 GCL 進(jìn)行模型預(yù)訓(xùn)練

????????CBD 的預(yù)訓(xùn)練階段遵循 GCL 的通用范式,即通過最大化來自同一輸入圖的兩個不同視圖之間的表征 MI 來實(shí)現(xiàn)自我監(jiān)督。具體來說,兩個圖視圖是通過對輸入圖隨機(jī)執(zhí)行數(shù)據(jù)增強(qiáng)而生成的。然后,優(yōu)化對比目標(biāo),強(qiáng)制同一節(jié)點(diǎn)的增強(qiáng)表示相互一致,但與其他節(jié)點(diǎn)的表示不同 .

??????? 圖增強(qiáng) 對于輸入的社交圖 G = (X,A),通過從 G 中刪除邊,生成兩個視圖 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀,其中?論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀 表示第m個視圖的相鄰矩陣。然后將兩個視圖輸入 GNN 編碼器,生成它們的表示。具體來說,對于 ,第l個 GNN 層的過程可以簡化為?論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀 ,其中表示 ReLU 激活;論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀 是采用重正化技巧的卷積信號矩陣[22], 是? 的對角度矩陣。論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀代表? 的第 l 層節(jié)點(diǎn)表示,特別是 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀.通過迭代執(zhí)行 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀L次,我們獲得編碼表示:

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?????????對比目標(biāo)。通過兩個視圖表示法 H(1)和 H(2),對比目標(biāo)用于區(qū)分同一節(jié)點(diǎn)的表示法和其他節(jié)點(diǎn)的表示法。具體來說,對于節(jié)點(diǎn)來說,它在兩個視圖 H(1)和 H(2)中的表示構(gòu)成一對正樣本,而其他節(jié)點(diǎn)在兩個視圖中的表示被視為負(fù)樣本。那么正樣本對的 InfoNCE 損失[29]計算公式為

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?????????其中,S (-, -) 表示兩個代表之間的相似性,是溫度超參數(shù)。 Neg代表負(fù)對影響,其定義為

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?????????其中,第一項(xiàng)和第二項(xiàng)分別懲罰視圖內(nèi)和視圖間負(fù)對之間的相似性。由于兩個視圖是對稱的,因此另一個視圖的損失函數(shù)也類似。需要最小化的總體對比度目標(biāo)定義為

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?4.2.2 通過一致性損失進(jìn)行模型微調(diào)

????????在對未標(biāo)記的社交圖進(jìn)行預(yù)訓(xùn)練后,根據(jù)在線檢測和反饋結(jié)果(將在第 4.3 節(jié)中詳細(xì)介紹),通過對社交圖進(jìn)行微調(diào),進(jìn)一步增強(qiáng)了預(yù)訓(xùn)練的 GNN 模型。為此,CBD 采用了半監(jiān)督一致性學(xué)習(xí)策略,旨在通過增強(qiáng)模型對隨機(jī)性的魯棒性來學(xué)習(xí)更有把握的表征。如圖 2 下部所示,給定一個帶有部分注釋的社交圖 G = (X,A),通過將 G 送入預(yù)先訓(xùn)練好的模型并隨機(jī)丟棄M次,生成 G 的M種不同表示 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀[39]。然后,M種不同的表征被發(fā)送到 MLP,以產(chǎn)生相應(yīng)的輸出:論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀。然后,我們對 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀進(jìn)行優(yōu)化,對已注釋節(jié)點(diǎn) Ω_a 和未注釋節(jié)點(diǎn) Ω_u 分別采用監(jiān)督損失和置信度感知一致性損失進(jìn)行優(yōu)化。

????????監(jiān)督損失。監(jiān)督損失被形式化為帶注釋的節(jié)點(diǎn)在M次表征上的平均交叉熵:論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀其中 H (·,·) 表示交叉熵函數(shù),Y ∈ R 是節(jié)點(diǎn) 的 one-hot ground-truth 標(biāo)簽。

????????置信感知一致性損失。為了以半監(jiān)督的方式進(jìn)一步利用未注釋數(shù)據(jù)背后的信息模式,我們設(shè)計了一種置信感知一致性損失,它將表示的預(yù)測與銳化的平均預(yù)測對齊。具體來說,我們計算平均預(yù)測并使用以下公式對其進(jìn)行銳化:論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀? 其中,Normalize(-) 將非負(fù)矩陣的每一行歸一化為合法分布,并代表銳化系數(shù),即系數(shù)越小,分布越銳利。有了銳化后的平均預(yù)測值 ,置信度感知一致性損失會將所有預(yù)測值與置信度閾值∈ [0, 1] 以上的? 保持一致:

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

???????? 其中 D (-, -) 可以是任何距離度量,如 KL 散度和 L2 準(zhǔn)則。指示函數(shù)? 會過濾掉所有置信度較低的 ,以降低誤差風(fēng)險。

因此,結(jié)合 論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀會產(chǎn)生最終的微調(diào)損失:論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀,其中 是權(quán)衡超參數(shù)。算法2總結(jié)了模型微調(diào)的過程。

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?4.3 在線檢測

????????在線檢測模塊提供實(shí)時社交僵尸檢測和智能反饋兩大功能,由在線管理器和在線檢測模型兩大部分管理。其工作流程和實(shí)現(xiàn)原理介紹如下

????????實(shí)時社交機(jī)器人檢測。當(dāng)用戶在社交活動中遇到可疑賬號時,可以在檢測網(wǎng)頁的文本框中輸入該賬號,然后提交檢測。在線管理器收到并識別該賬號檢測請求后,首先從檢測結(jié)果數(shù)據(jù)庫中查詢該賬號的檢測結(jié)果。如果找不到結(jié)果,它將重新向數(shù)據(jù)提供者查詢賬戶數(shù)據(jù),并向在線檢測模型進(jìn)行在線檢測。具體來說,構(gòu)建包含目標(biāo)賬戶的社交圖譜 G,并將其輸入在線檢測模型進(jìn)行檢測。在線檢測模型利用社交圖 G 檢測目標(biāo)賬戶及其鄰居,并返回檢測結(jié)果.

????????智能反饋。除了實(shí)時檢測,在線模塊還提供智能反饋,以進(jìn)一步提高檢測性能,圖 1 中的藍(lán)線就是智能反饋的標(biāo)志。當(dāng)注冊用戶對檢測結(jié)果有疑問時,可以就某個賬號是否為社交僵尸的概率提出反饋意見。然后,在線管理員會收到這些反饋,并由系統(tǒng)和人工進(jìn)行審核。如果審核通過,反饋結(jié)果將被更新到檢測結(jié)果數(shù)據(jù)庫中。同時,反饋結(jié)果將用于離線微調(diào),以便更新檢測模型,獲得更準(zhǔn)確的結(jié)果。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)設(shè)置

????????數(shù)據(jù)集。我們的模型在 TwiBot-22 [ 10] 上進(jìn)行了評估,在該數(shù)據(jù)集中,我們隨機(jī)選取了 81,433 個人類作為正例,81,432 個機(jī)器人作為負(fù)例,以保持它們的比例相對平衡,從而得到了 162,865 個社交賬號。我們隨機(jī)將訓(xùn)練集、驗(yàn)證集和測試集按 7:2:1 的比例進(jìn)行劃分,以確保比較實(shí)驗(yàn)的公平性。

????????基線。為了構(gòu)建 CBD 模型,我們選擇了兩個具有代表性的基于 GNNs 的模型 GCN [ 22] 和 GIN [ 45 ] 作為編碼器,并在實(shí)驗(yàn)中將它們與十個基線模型進(jìn)行比較。這些基線模型包括五個通用 GNN: GCN [ 22]、GAT [42]、JKNet (GCNJK) [46]、APPNP [23]、R-GCN [35];四種最新方法: LINKX[28]、MixHop[1 ]、GPR-GNN[6 ]、H2GCN[50];一種具有異質(zhì)性的僵尸檢測方法: Feng等人[ 9 ]。所有實(shí)驗(yàn)都使用了相同的輸入特征,包括用戶的 1) 用戶屬性:用戶名、描述、位置、注冊時間、驗(yàn)證狀態(tài)、關(guān)注數(shù)、粉絲數(shù)、列表數(shù)、推文數(shù);2) 內(nèi)容信息:推文內(nèi)容、評論;3) 社交關(guān)系信息:關(guān)注者和粉絲的好友列表;4) 社交關(guān)系信息:關(guān)注者和粉絲的好友列表;5) 社交關(guān)系信息:關(guān)注者和粉絲的好友列表;6) 社交關(guān)系信息:關(guān)注者和粉絲的好友列表;7) 社交關(guān)系信息:關(guān)注者和粉絲的好友列表。

????????實(shí)施細(xì)節(jié)?;谏缃痪W(wǎng)絡(luò)的交互特性,我們將社交數(shù)據(jù)構(gòu)建為有向圖。實(shí)驗(yàn)采用 AdamW 優(yōu)化器 [ 21 ] 進(jìn)行訓(xùn)練和優(yōu)化。預(yù)訓(xùn)練階段的學(xué)習(xí)率和權(quán)重衰減分別為 10-3 和 10-5。在微調(diào)階段,我們采用權(quán)重衰減為 3 × 10-5 的分層學(xué)習(xí)率策略,其中預(yù)訓(xùn)練 GNN 層的學(xué)習(xí)率設(shè)置為 10-4,其他層的學(xué)習(xí)率設(shè)置為 10-3。為了避免過擬合,我們在訓(xùn)練時使用了 dropout [39] 和早期停止技術(shù)。

????????網(wǎng)格搜索用于找到 CBD 預(yù)測的最佳超參數(shù)。具體來說,該模型在三個編碼通道上采用了兩個隱藏層,隱藏層大小為 512.銳化參數(shù)、可信閾值和一致性損失的距離函數(shù)分別設(shè)為 0.3、0.6 和 L2 準(zhǔn)則。其他基線方法的模型配置沿用了之前的研究[9, 28 , 35]。F1 分?jǐn)?shù)、準(zhǔn)確率和 ROC-AUC 用于評估我們的模型和基線模型。我們使用 PyTorch Geometric(MIT 許可)[12] 和 PyTorch(BSD 許可)[30]來實(shí)現(xiàn)實(shí)驗(yàn),所有實(shí)驗(yàn)均在 Tesla A100 GPU(80GB 內(nèi)存)上進(jìn)行。

5.2 性能比較

????????在比較實(shí)驗(yàn)中,我們對每個實(shí)驗(yàn)進(jìn)行 5 次隨機(jī)權(quán)重初始化,并報告測試集上的平均值和標(biāo)準(zhǔn)偏差,其中 CBD 與 10 個基線模型進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如表 1 所示。從測試結(jié)果來看,我們的模型達(dá)到了最先進(jìn)的僵尸檢測性能,此外,使用 GIN 作為編碼器的模型的性能優(yōu)于使用 GCN 作為編碼器的模型,達(dá)到了前 2 名的性能。

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

5.5 少量檢測研究

????????對于新的社交機(jī)器人,只能獲得很少的標(biāo)簽。有鑒于此,我們進(jìn)一步探討了 CBD 的少量檢測能力。具體來說,我們只從訓(xùn)練集中隨機(jī)抽取每個類別的標(biāo)簽來微調(diào)模型,然后在測試集中進(jìn)行測試。表 3 顯示了實(shí)驗(yàn)結(jié)果。不出所料,當(dāng)取值減小到 1 時,即單次檢測時,性能下降,方差增大。?然而,隨著k增加,其性能呈上升趨勢,并且可以超越所有每個類別只有五個標(biāo)簽的基線模型(五次檢測),這歸功于預(yù)訓(xùn)練階段從未標(biāo)記數(shù)據(jù)中學(xué)到的寶貴知識以及一致性損失進(jìn)一步減少了依賴在微調(diào)階段的標(biāo)簽上。

論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning,社交機(jī)器人檢測,論文閱讀

?6 結(jié)論

????????本文研究了社交機(jī)器人檢測任務(wù),該任務(wù)面臨著標(biāo)簽數(shù)據(jù)缺乏和 LLM 導(dǎo)致機(jī)器人內(nèi)容創(chuàng)作能力不斷增強(qiáng)的挑戰(zhàn)。為了解決這些難題,我們提出了 CBD,它在預(yù)訓(xùn)練中采用對比學(xué)習(xí),從無標(biāo)簽數(shù)據(jù)中提取有價值的知識;在微調(diào)中采用一致性損失,進(jìn)一步減少對標(biāo)簽的依賴,從而在標(biāo)簽數(shù)據(jù)極度匱乏的情況下,在算法層面提高模型性能。此外,在系統(tǒng)架構(gòu)層面,還采用了智能反饋策略來進(jìn)一步提高檢測性能。廣泛的實(shí)驗(yàn)表明,在一個全面的僵尸檢測基準(zhǔn)上,CBD 始終優(yōu)于最先進(jìn)的基準(zhǔn)模型。其他研究進(jìn)一步證明了我們模型的有效性。到目前為止,我們已經(jīng)在線部署了 CBD,并得到了廣泛關(guān)注和使用。據(jù)我們所知,CBD 目前在谷歌和百度搜索中排名第一。我們希望我們的框架能幫助人們免受社交機(jī)器人及其傳播的錯誤信息的影響,從而創(chuàng)建一個更安全的社交網(wǎng)絡(luò)。文章來源地址http://www.zghlxwxcb.cn/news/detail-737769.html

到了這里,關(guān)于論文閱讀 - Detecting Social Bot on the Fly using Contrastive Learning的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀 - Neutral bots probe political bias on social media

    論文閱讀 - Neutral bots probe political bias on social media

    論文鏈接:Neutral bots probe political bias on social media | EndNote Click ????????試圖遏制濫用行為和錯誤信息的 社交媒體平臺被指責(zé)存在政治偏見 。我們部署中立的社交機(jī)器人,它們開始關(guān)注 Twitter 上的不同新聞源,并跟蹤它們以探究 平臺機(jī)制與用戶交互中出現(xiàn)的明顯偏見 。我

    2024年02月12日
    瀏覽(16)
  • 論文閱讀 - Coordinated Behavior on Social Media in 2019 UK General Election

    論文閱讀 - Coordinated Behavior on Social Media in 2019 UK General Election

    論文鏈接: https://arxiv.org/abs/2008.08370 目錄 摘要: Introduction Contributions Related Work Dataset Method Overview Surfacing Coordination in 2019 UK GE Analysis of Coordinated Behaviors ????????協(xié)調(diào)的在線行為是信息和影響力行動的重要組成部分,因?yàn)樗鼈兛梢愿行У貍鞑ヌ摷傩畔ⅰ?大多數(shù)關(guān)于協(xié)同

    2024年02月07日
    瀏覽(22)
  • 論文閱讀- Uncovering Coordinated Networks on Social Media:Methods and Case Studies

    論文閱讀- Uncovering Coordinated Networks on Social Media:Methods and Case Studies

    鏈接:https://arxiv.org/pdf/2001.05658.pdf 目錄 摘要: 引言 Methods Case Study 1: Account Handle Sharing ?Coordination Detection 分析 Case Study 2: Image Coordination Coordination Detection Analysis Case Study 3: Hashtag Sequences ?Coordination Detection Analysis Case Study 4: Co-Retweets、 Coordination Detection Analysis ?Case Study 5: Synch

    2024年02月14日
    瀏覽(25)
  • 論文閱讀-Neighbor Contrastive Learning on Learnable Graph Augmentation(AAAI2023)

    ????????人為設(shè)計的圖增強(qiáng),可能會破壞原始圖的拓?fù)浣Y(jié)構(gòu),同時相鄰節(jié)點(diǎn)被視為負(fù)節(jié)點(diǎn),因此被推離錨點(diǎn)很遠(yuǎn)。然而,這與網(wǎng)絡(luò)的同質(zhì)性假設(shè)是矛盾的,即連接的節(jié)點(diǎn)通常屬于同一類,并且應(yīng)該彼此接近。本文提出了一種端到端的自動GCL方法,稱為NCLA,將 鄰居對比學(xué)習(xí)

    2024年02月14日
    瀏覽(24)
  • On the Spectral Bias of Neural Networks論文閱讀

    On the Spectral Bias of Neural Networks論文閱讀

    眾所周知,過度參數(shù)化的深度神經(jīng)網(wǎng)絡(luò)(DNNs)是一種表達(dá)能力極強(qiáng)的函數(shù),它甚至可以以100%的訓(xùn)練精度記憶隨機(jī)數(shù)據(jù)。這就提出了一個問題,為什么他們不能輕易地對真實(shí)數(shù)據(jù)進(jìn)行擬合呢。為了回答這個問題,研究人員使用傅里葉分析來研究深層網(wǎng)絡(luò)。他們證明了具有有限權(quán)值

    2024年02月22日
    瀏覽(26)
  • LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS

    本文是LLM系列文章,針對《LM-INFINITE: SIMPLE ON-THE-FLY LENGTH GENERALIZATION FOR LARGE LANGUAGE MODELS》的翻譯。 近年來,基于Transformer的大型語言模型(LLM)在各個領(lǐng)域的性能都有了顯著的進(jìn)步。隨著這些LLM被部署用于越來越復(fù)雜的任務(wù),它們通常需要進(jìn)行更長的推理過程或理解更大的上

    2024年02月10日
    瀏覽(20)
  • 【論文閱讀筆記】Contrastive Multiview Coding

    【論文閱讀筆記】Contrastive Multiview Coding

    ?這篇文章主要探討人類通過多種感官通道來觀察世界,比如左眼觀察到的長波長光通道,或右耳聽到的高頻振動通道。每個觀察角度都帶有噪音且是不完整的,但一些重要的因素,如物理、幾何和語義,往往在所有觀點(diǎn)之間共享(例如,“狗”可以被看到、聽到和感受到)

    2024年01月18日
    瀏覽(38)
  • 【論文閱讀】Deep Graph Contrastive Representation Learning

    【論文閱讀】Deep Graph Contrastive Representation Learning

    作者:Yanqiao Zhu Yichen Xu 文章鏈接:Deep Graph Contrastive Representation Learning 代碼鏈接:Deep Graph Contrastive Representation Learning 現(xiàn)實(shí)世界中,圖的標(biāo)簽數(shù)量較少,盡管GNNs蓬勃發(fā)展,但是訓(xùn)練模型時標(biāo)簽的可用性問題也越來越受到關(guān)心。 傳統(tǒng)的無監(jiān)督圖表征學(xué)習(xí)方法,例如DeepWalk和nod

    2024年01月18日
    瀏覽(21)
  • 論文閱讀 HighlightMe: Detecting Highlights from Human-Centric Videos

    摘要: 我們提出了一種與領(lǐng)域和用戶偏好無關(guān)的方法來檢測以人為中心的視頻中的精彩片段摘錄。我們的方法適用于視頻中多種可觀察到的以人為中心的模態(tài)的基于圖形的表示,例如姿勢和面部。我們使用配備時空圖卷積的自動編碼器網(wǎng)絡(luò)來檢測基于這些模式的人類活動和交

    2024年02月16日
    瀏覽(29)
  • 【論文閱讀筆記】Contrastive Learning with Stronger Augmentations

    基于提供的摘要,該論文的核心焦點(diǎn)是在對比學(xué)習(xí)領(lǐng)域提出的一個新框架——利用強(qiáng)數(shù)據(jù)增強(qiáng)的對比學(xué)習(xí)(Contrastive Learning with Stronger Augmentations,簡稱CLSA)。以下是對摘要的解析: 問題陳述: 表征學(xué)習(xí)(representation learning)已在對比學(xué)習(xí)方法的推動下得到了顯著發(fā)展。 當(dāng)前

    2024年02月19日
    瀏覽(26)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包