鏈接:https://arxiv.org/pdf/2001.05658.pdf
目錄
摘要:
引言
Methods
Case Study 1: Account Handle Sharing
?Coordination Detection
分析
Case Study 2: Image Coordination
Coordination Detection
Analysis
Case Study 3: Hashtag Sequences
?Coordination Detection
Analysis
Case Study 4: Co-Retweets、
Coordination Detection
Analysis
?Case Study 5: Synchronized Actions
?Coordination Detection
Analysis
Discussion
摘要:
????????協(xié)調(diào)一致的活動被用來影響和操縱社交媒體平臺及其用戶,這是對在線信息自由交換的嚴(yán)峻挑戰(zhàn)。
無監(jiān)督,基于網(wǎng)絡(luò)的方法
????????在這里,我們介紹一種通用的、無監(jiān)督的基于網(wǎng)絡(luò)的方法來發(fā)現(xiàn)可能協(xié)調(diào)的帳戶組。所提出的方法基于帳戶之間共享的任意行為軌跡構(gòu)建協(xié)調(diào)網(wǎng)絡(luò)。
檢測協(xié)調(diào)的推特賬戶
????????我們提供了五個影響力活動的案例研究,其中四個是在美國選舉、香港抗議、敘利亞內(nèi)戰(zhàn)和加密貨幣操縱等不同背景下進(jìn)行的。在每種情況下,我們都會通過檢查 Twitter 帳戶的身份、圖像、主題標(biāo)簽序列、轉(zhuǎn)發(fā)或時間模式來檢測協(xié)調(diào)的 Twitter 帳戶網(wǎng)絡(luò)。事實(shí)證明,所提出的方法廣泛適用于發(fā)現(xiàn)跨信息戰(zhàn)場景的不同類型的協(xié)調(diào)。
引言
背景現(xiàn)狀
????????在線社交媒體徹底改變了人們獲取新聞和信息以及形成觀點(diǎn)的方式。通過實(shí)現(xiàn)不受地理障礙阻礙的交流,并降低信息生產(chǎn)和消費(fèi)的成本,社交媒體極大地?cái)U(kuò)大了公民和政治話語的參與。
????????盡管這可能會加強(qiáng)民主進(jìn)程,但越來越多的證據(jù)表明,惡意行為者通過虛假信息和操縱活動污染了信息生態(tài)系統(tǒng)(Lazer 等人,2018 年;Vosoughi、Roy 和 Aral,2018 年;Bessi 和 Ferrara,2016 年;Shao 等人,2018 年; Ferrara 2017;Stella、Ferrara 和 De Domenico 2018;Deb 等人 2019;Bovet 和 Makse 2019;Grinberg 等人 2019)。
????????雖然影響力活動、錯誤信息和宣傳一直存在(Jowett 和 O’Donnell 2018),但社交媒體創(chuàng)造了新的漏洞和濫用機(jī)會。正如志同道合的用戶可以輕松地聯(lián)系起來支持合法事業(yè)一樣,具有邊緣、陰謀或極端主義信仰的團(tuán)體也可以達(dá)到臨界規(guī)模,并不受專家或溫和觀點(diǎn)的影響。平臺 API 和商品化的虛假賬戶使得開發(fā)軟件來冒充用戶并隱藏控制這些社交機(jī)器人的人的身份變得很簡單——無論他們是傳播垃圾郵件的欺詐者、放大誤導(dǎo)性敘述的政治人物,還是發(fā)動在線戰(zhàn)爭的民族國家(Ferrara 等)等人,2016)。認(rèn)知和社會偏見使我們更容易受到社交機(jī)器人的操縱:有限的注意力促進(jìn)了未經(jīng)檢查的主張的傳播,確認(rèn)偏見使我們無視事實(shí),群體思維和回聲室扭曲了對規(guī)范的看法,而跟風(fēng)效應(yīng)使我們關(guān)注機(jī)器人放大的模因(Weng et al. 2012;Hills 2019;Ciampaglia et al. 2018;Lazer et al. 2018;Pennycook et al. 2019)。
????????盡管社交媒體平臺使用機(jī)器學(xué)習(xí)算法和人類事實(shí)檢查員來檢測錯誤信息和不真實(shí)賬戶等對策取得了進(jìn)步,但惡意行為者仍在繼續(xù)有效地欺騙公眾,放大錯誤信息并推動兩極分化(Barrett 2019)。我們觀察到一場軍備競賽,其中攻擊的復(fù)雜性不斷演變以逃避檢測。
????????大多數(shù)打擊網(wǎng)絡(luò)濫用的機(jī)器學(xué)習(xí)工具都以檢測社交機(jī)器人為目標(biāo),并且主要使用針對個人賬戶的方法(Davis et al. 2016;Varol et al. 2017;Yang et al. 2019;2020;Sayyadiharikandeh et al. 2020) )。然而,惡意團(tuán)體可能會采用在個人層面上看似無害的協(xié)調(diào)策略,并且只有在觀察帳戶之間的交互網(wǎng)絡(luò)時才能檢測到其可疑行為。例如,一個帳戶更改其句柄可能是正常的,但一組帳戶輪流更改名稱不太可能是巧合。
稀疏相似性矩陣
????????在這里,我們提出了一種方法來揭示多個參與者之間的協(xié)調(diào)行為,無論其自動化/有機(jī)性質(zhì)或惡意/良性意圖如何。這個想法是從社交媒體數(shù)據(jù)中提取特征來構(gòu)建協(xié)調(diào)網(wǎng)絡(luò),如果兩個帳戶表現(xiàn)出意想不到的相似行為,則它們具有很強(qiáng)的聯(lián)系。這些相似性可以源于任何元數(shù)據(jù),例如內(nèi)容實(shí)體和配置文件特征。網(wǎng)絡(luò)為稀疏相似性矩陣提供了有效的表示,以及檢測重要的協(xié)調(diào)帳戶集群的自然方法。我們的主要貢獻(xiàn)是:
????????我們提出了一種檢測協(xié)調(diào)的通用方法,原則上可以應(yīng)用于任何有數(shù)據(jù)可用的社交媒體平臺。由于該方法是完全無監(jiān)督的,因此不需要標(biāo)記的訓(xùn)練數(shù)據(jù)。
????????使用 Twitter 數(shù)據(jù),我們通過實(shí)例化檢測不同類型協(xié)調(diào)的方法來展示五個案例研究,這些方法基于 (i) 處理更改、(ii) 圖像共享、(iii) 主題標(biāo)簽的順序使用、(iv) 共同轉(zhuǎn)發(fā)和 ( v) 同步。
????????案例研究說明了我們方法的普遍性和有效性:我們能夠根據(jù)身份呈現(xiàn)、圖片顯示、文本書寫、轉(zhuǎn)發(fā)或采取這些行動的時間來檢測協(xié)調(diào)的活動。
????????我們表明,協(xié)調(diào)行為并不一定意味著自動化。在案例研究中,我們檢測到可能有機(jī)器人和人類帳戶在惡意活動中協(xié)同工作。
????????? 代碼和數(shù)據(jù)可在github.com/IUNetSci/coordination-detection 上獲取,以重現(xiàn)當(dāng)前結(jié)果并將我們的方法應(yīng)用于其他案例。
Methods
????????所提出的檢測在社交媒體上協(xié)調(diào)行動的帳戶的方法如圖 1 所示。它可以分為四個階段:
?(圖 1:協(xié)調(diào)檢測方法。在左側(cè),我們看到可以從社交媒體配置文件和消息中提取的行為痕跡。文中描述的四個步驟可識別可疑帳戶群。)
????????行為痕跡提?。?/strong>
????????協(xié)調(diào)檢測的起點(diǎn) 應(yīng)該是對可疑行為的猜想。假設(shè)真實(shí)的用戶在某種程度上彼此獨(dú)立,我們認(rèn)為令人驚訝的缺乏獨(dú)立性作為協(xié)調(diào)的證據(jù)。該方法的實(shí)施是通過選擇捕獲此類可疑行為的跟蹤來指導(dǎo)的。例如,如果我們推測帳戶由某個實(shí)體控制,其目的是擴(kuò)大虛假信息源的曝光,我們可以提取共享 URL 作為痕跡。協(xié)調(diào)場景可能與幾大類可疑痕跡相關(guān):
? ? ? ? a) 內(nèi)容:如果協(xié)調(diào)是基于共享的內(nèi)容,則可疑痕跡可能包括單詞、ngram、主題標(biāo)簽、媒體、鏈接、用戶提及等。
???????? (b) 活動:協(xié)調(diào)可以通過活動的時空模式來揭示??梢越沂究梢尚袨榈暮圹E示例包括時間戳、地點(diǎn)和地理坐標(biāo)。
???????? (c) 身份:賬戶可以根據(jù)角色或群體進(jìn)行協(xié)調(diào)。身份描述符的痕跡可用于檢測這些類型的協(xié)調(diào):名稱、句柄、描述、個人資料圖片、主頁、帳戶創(chuàng)建日期等。
????????(d) 組合:協(xié)調(diào)的檢測可能需要多個維度的組合。例如,人們可以將這兩種跟蹤結(jié)合起來,形成一種臨時內(nèi)容檢測方法,而不是像基于內(nèi)容或基于活動的可疑跟蹤那樣僅跟蹤使用了哪些主題標(biāo)簽或帳戶何時處于活動狀態(tài)。組合版本的限制性更強(qiáng),因此可以減少誤報(bào)的數(shù)量。
????????一旦識別出興趣痕跡,我們就可以根據(jù)類似的行為痕跡建立一個帳戶網(wǎng)絡(luò)。可以應(yīng)用初步的數(shù)據(jù)清理,過濾缺乏支持的節(jié)點(diǎn)——活動性低或與所選跟蹤的交互很少——因?yàn)闆]有足夠的證據(jù)來建立它們的協(xié)調(diào)。例如,共享少量圖像將無法可靠地計(jì)算基于圖像的相似性。
????????2. 雙向網(wǎng)絡(luò)構(gòu)建:
????????下一步是構(gòu)建一個雙向網(wǎng)絡(luò),連接帳戶以及從其個人資料和消息中提取的特征。
????????在這個階段,我們可以使用行為痕跡作為特征,或者設(shè)計(jì)從痕跡衍生的新特征。例如,內(nèi)容分析可以產(chǎn)生基于情緒、立場和敘述框架的特征。
????????諸如一天中的小時和星期幾之類的時間特征可以從時間戳元數(shù)據(jù)中推斷出來。
????????可以通過聚合痕跡來設(shè)計(jì)特征,例如將位置合并為國家或?qū)D像合并為顏色配置文件??梢酝ㄟ^考慮軌跡集或序列來設(shè)計(jì)更復(fù)雜的特征。
????????二分網(wǎng)絡(luò)可以根據(jù)帳戶和特征之間的關(guān)聯(lián)強(qiáng)度進(jìn)行加權(quán)——多次共享同一張圖像比僅共享一次的信號更強(qiáng)。權(quán)重可以包含歸一化(例如 IDF)以考慮流行特征;如果許多帳戶提到同一名人并不可疑。
????????
????????3. 投影到帳戶網(wǎng)絡(luò)上:
????????將二分網(wǎng)絡(luò)投影到保留帳戶節(jié)點(diǎn)的網(wǎng)絡(luò)上,并根據(jù)特征的某些相似性度量在節(jié)點(diǎn)之間添加邊。所得到的無向協(xié)調(diào)網(wǎng)絡(luò)中的邊的權(quán)重可以通過簡單的共現(xiàn)、杰卡德系數(shù)、余弦相似性或更復(fù)雜的統(tǒng)計(jì)度量(例如互信息或χ 2 )來計(jì)算。在某些情況下,協(xié)調(diào)網(wǎng)絡(luò)中的每條邊都因構(gòu)造而可疑。
????????在其他情況下,邊緣可能會提供有關(guān)帳戶之間協(xié)調(diào)的噪聲信號,從而導(dǎo)致誤報(bào)。
????????例如,如果這些模因非常受歡迎,則共享多個相同模因的帳戶不一定是可疑的。在這些情況下,可能需要手動管理來過濾掉協(xié)調(diào)網(wǎng)絡(luò)中的低權(quán)重邊緣,以專注于最可疑的交互。實(shí)現(xiàn)此目的的一種方法是保留權(quán)重最高百分位的邊緣。討論部分介紹了一些案例研究中的邊緣權(quán)重分布,說明了積極的過濾如何允許人們優(yōu)先考慮精度而不是召回率,從而最大限度地減少誤報(bào)。
????????4. 聚類分析:
????????最后一步是找到其行為可能在帳戶網(wǎng)絡(luò)上協(xié)調(diào)的帳戶組??捎糜诖四康牡木W(wǎng)絡(luò)社區(qū)檢測算法包括連接組件、k-core、k-cliques、模塊化最大化和標(biāo)簽傳播等(Fortunato 2010)。在這里介紹的案例研究中,我們使用連接組件,因?yàn)槲覀冎豢紤]可疑邊緣(通過設(shè)計(jì)或過濾)。
????????總之,所提出的檢測協(xié)調(diào)方法的四個階段被轉(zhuǎn)化為八個可操作的步驟:(i)對可疑行為提出猜想; (ii) 選擇此類行為的痕跡,或 (iii) 必要時設(shè)計(jì)特征; (iv) 根據(jù)支持度對數(shù)據(jù)集進(jìn)行預(yù)過濾;選擇(v)二分網(wǎng)絡(luò)的權(quán)重和(vi)相似性度量作為賬戶協(xié)調(diào)網(wǎng)絡(luò)的權(quán)重; (vii) 過濾掉低權(quán)重邊緣;最后,(viii)提取協(xié)調(diào)組。盡管所提出的方法是無監(jiān)督的,因此不需要標(biāo)記的訓(xùn)練數(shù)據(jù),但我們建議手動檢查可疑集群及其內(nèi)容。此類分析將提供方法驗(yàn)證以及協(xié)調(diào)組是否惡意和/或自動化的證據(jù)。在以下部分中,我們提出了五個案例研究,其中我們實(shí)施了所提出的方法,通過共享身份、圖像、主題標(biāo)簽序列、共同轉(zhuǎn)發(fā)和活動模式來檢測協(xié)調(diào)。
Case Study 1: Account Handle Sharing
????????在Twitter和其他一些社交媒體平臺上,盡管每個用戶帳戶都有一個不可變的ID,但許多關(guān)系是基于帳戶句柄(稱為屏幕名)是可變的并且通??芍赜?。一個例外是,已暫停帳戶的句柄在 Twitter 上不可重復(fù)使用。用戶可能有正當(dāng)理由更改句柄。然而,更改和重復(fù)使用句柄的可能性會使用戶面臨諸如用戶名搶注1和冒充等濫用行為(Mariconti et al. 2017)。在最近的一個例子中,同一個 Twitter 帳戶使用與不同角色相關(guān)的Twitter 句柄來傳播美國總統(tǒng)彈劾案中烏克蘭舉報(bào)人的名字。2
????????有關(guān)如何利用句柄更改的具體示例,請考慮以下按時間順序排列的事件: 1. 用戶 1(名為 @super cat)關(guān)注發(fā)布貓科動物圖片的用戶 2(名為 @kittie)。
???????? 2. 用戶3(名為@superdog)發(fā)布犬類照片。
????????3. 用戶 1 的推文提到用戶 2:“我愛@kittie”。 Twitter 上的提及會創(chuàng)建指向所提及帳戶個人資料的鏈接。因此,在時間步驟 3,用戶 1 的推文鏈接到用戶 2 的個人資料頁面。
???????? 4. 用戶 2 將其句柄重命名為@tiger。
????????5. 用戶 3 將其句柄重命名為 @kittie,重復(fù)使用用戶 2 的句柄。
????????盡管無論名稱如何更改,用戶 1 的社交網(wǎng)絡(luò)都不會改變(用戶 1 仍然關(guān)注用戶 2),但名稱更改不會反映在以前的帖子中,因此單擊步驟 3 中的鏈接的任何人都將被重定向到用戶 3 的個人資料,而不是按照用戶 1 的最初意圖,將用戶 2 搶注到用戶 2。這種類型的用戶搶注與多個賬戶配合,可用于推廣實(shí)體、開展“跟進(jìn)”活動、滲透社區(qū),甚至促進(jìn)兩極分化(Mariconti 等人,2017 年) )。由于社交媒體帖子通常由搜索引擎索引,因此這些操作可用于將內(nèi)容推廣到社交媒體邊界之外。
????????為了檢測 Twitter 上的這種協(xié)調(diào),我們應(yīng)用了使用身份跟蹤(即 Twitter 句柄)的方法。我們從對 Botometer.org 的請求日志開始,Botometer.org 是印第安納大學(xué)社交媒體觀測站的社交機(jī)器人檢測服務(wù)(Yang 等人,2019 年)。每個日志記錄都包含時間戳、Twitter 用戶 ID 和句柄以及機(jī)器人分?jǐn)?shù)。我們關(guān)注至少有十個條目(查詢)的用戶,以便可以觀察到多個句柄更改。這產(chǎn)生了 5400 萬條記錄和 190 萬個句柄。詳細(xì)信息請參見表 1。
?Coordination Detection
????????我們創(chuàng)建了一個由可疑用戶名和帳戶組成的雙向網(wǎng)絡(luò)。如果一個句柄被至少兩個帳戶共享,我們就認(rèn)為該句柄是可疑的;如果該帳戶至少使用了一個可疑句柄,那么我們就認(rèn)為該帳戶是可疑的。因此沒有邊緣被過濾??梢圆扇「呦拗菩缘拇胧?,例如,如果某個帳戶獲取了多個可疑句柄,則將該帳戶視為可疑帳戶。
????????為了檢測可疑的集群,我們對網(wǎng)絡(luò)進(jìn)行投影,根據(jù)帳戶共享句柄的次數(shù)來連接帳戶。這相當(dāng)于使用共現(xiàn),即最簡單的相似性度量。生成的網(wǎng)絡(luò)中的每個連接組件都會標(biāo)識一組協(xié)調(diào)帳戶以及它們共享的句柄集。表 1 總結(jié)了方法決策。
分析
????????圖2顯示了句柄共享網(wǎng)絡(luò)。它是一個加權(quán)、無向網(wǎng)絡(luò),擁有 7,879 個節(jié)點(diǎn)(Twitter 帳戶)。我們可以將組件分為三類:
???????? 1. 星型組件捕獲進(jìn)行域名搶注和/或劫持的主要帳戶(中心節(jié)點(diǎn))。為了證實(shí)這一點(diǎn),我們分析了涉及星狀組件的句柄轉(zhuǎn)換的時間序列。通常,句柄從帳戶(大概是受害者)切換到集線器,然后(大概在支付某種形式的贖金之后)它從集線器切換回原始帳戶。這些類型的相互轉(zhuǎn)換在恒星中發(fā)生的頻率是任何其他組件的 12 倍。
?(圖 2:句柄共享網(wǎng)絡(luò)。一個節(jié)點(diǎn)代表一個 Twitter 賬戶,其大小與與其共享句柄的賬戶數(shù)量成正比。邊的權(quán)重是兩個賬戶共享的唯一句柄的數(shù)量??梢傻膮f(xié)調(diào)群組用不同顏色標(biāo)識。我們舉例說明幾個協(xié)同組的特征,即賬戶數(shù)、共享句柄數(shù)、共享句柄的賬戶平均數(shù)以及句柄在賬戶間切換的最大次數(shù)和中位次數(shù)。切換次數(shù)是根據(jù)我們的數(shù)據(jù)樣本估計(jì)的下限。我們還展示了揭露了幾個協(xié)調(diào)小組惡意活動的獨(dú)立人士發(fā)布的推文,這些推文將在正文中討論)
????????2. 這個龐大的組件包括 722 個帳戶,共享 181 個名稱(圖 2 中心的橙色組)。使用 Louvain 社區(qū)檢測算法 (Blondel et al. 2008),我們進(jìn)一步將巨型組件分為 13 個子組。我們懷疑它們代表了與同一組的不同協(xié)調(diào)活動相對應(yīng)的時間集群。這項(xiàng)調(diào)查留待未來研究。
????????3. 其他組件可能代表需要進(jìn)一步調(diào)查的不同情況,如下所述。圖 2 展示了與兩個協(xié)調(diào)句柄共享組相對應(yīng)的惡意行為的幾個故事,這些故事已被其他人發(fā)現(xiàn)。 2015 年 6 月,@GullyMN49 賬號因發(fā)布攻擊奧巴馬總統(tǒng)的推文而被新聞報(bào)道。3 一年多后,同一賬號仍在發(fā)布類似內(nèi)容。 2017 年 3 月,我們觀察到 23 個不同的賬戶在 5 天內(nèi)獲取了該賬號。我們推測,這可能是為了讓 2015 年創(chuàng)建的角色保持活力,并逃避 Twitter 在平臺被濫用的報(bào)道后被暫停的行為。目前,@GullyMN49 賬號已被禁止,但 23 個帳戶中的 21 個仍然活躍。
????????圖 2 中的第二個示例顯示了共享七個句柄的六個帳戶的集群。此后他們?nèi)勘煌B?。有趣的是,該集群正在共享似乎屬于沖突政治團(tuán)體的句柄,例如@ProTrumpMvmt 和@AntiTrumpMvmt。隨著時間的推移,一些可疑賬戶不斷改變立場。進(jìn)一步調(diào)查顯示,這些賬戶非常活躍;他們制造了政治籌款活動的假象,試圖從雙方那里獲取資金。
Case Study 2: Image Coordination
????????圖像構(gòu)成了社交媒體內(nèi)容的很大一部分。一組發(fā)布許多相同或相似圖像的帳戶可能會揭示可疑的協(xié)調(diào)行為。在本案例研究中,我們利用媒體圖像作為內(nèi)容痕跡,在 2019 年香港抗議運(yùn)動的背景下識別 Twitter 上的此類群體。我們使用 BotSlayer 工具(Hui et al. 2019)收集與六種語言的抗議相關(guān)的幾十個主題標(biāo)簽相匹配的推文,隨后下載了收集的推文中的所有圖像和縮略圖。我們重點(diǎn)關(guān)注包含一張或多張圖像的 31,772 條推文,并刪除所有轉(zhuǎn)發(fā)以避免相同圖像的微不足道的復(fù)制。有關(guān)數(shù)據(jù)源的更多信息請參見表 2。
?(圖 3:Twitter 上有關(guān)香港抗議活動的賬戶協(xié)調(diào)網(wǎng)絡(luò)。節(jié)點(diǎn)代表賬戶,其大小與其度數(shù)成正比。在左側(cè),如果帳戶可能協(xié)調(diào),則帳戶顏色為藍(lán)色,否則帳戶顏色為灰色。在右側(cè),我們關(guān)注與可能的協(xié)調(diào)組相對應(yīng)的連接組件。三個最大的組成部分根據(jù)其圖像的內(nèi)容進(jìn)行著色——一個支持抗議的集群,兩個反對抗議的集群,分別為紫色和橙色。我們展示了這些群組共享的一些示例圖像,以及相應(yīng)的不同 URL 數(shù)量)
Coordination Detection
????????每次發(fā)布圖像時,都會為其分配不同的 URL。因此,檢測相同或相似的圖像并不像比較 URL 那么簡單;有必要分析實(shí)際圖像內(nèi)容。我們用 RGB 顏色直方圖來表示每個圖像,將每個通道分為 128 個間隔,并生成一個 384 維向量。分箱直方圖允許匹配變體:具有相同向量的圖像要么相同或相似,并且對應(yīng)于相同的特征。雖然擴(kuò)大箱子會提供更多的變體匹配,但我們希望確??臻g足夠稀疏以保持高匹配精度。
????????我們排除了發(fā)布少于五張圖片的推文的帳戶,以減少因支持不足而產(chǎn)生的噪音。人們可以通過調(diào)整這一支持閾值來調(diào)整精確度和召回率。我們設(shè)置閾值以最大限度地提高精度,同時保持合理的召回率。精度對支持閾值參數(shù)的敏感性在討論部分進(jìn)行了分析。然后,我們通過將帳戶與其共享圖像的向量鏈接起來,構(gòu)建一個由帳戶和圖像特征組成的未加權(quán)二分網(wǎng)絡(luò)。我們對二分網(wǎng)絡(luò)進(jìn)行投影以獲得加權(quán)帳戶協(xié)調(diào)網(wǎng)絡(luò),其邊權(quán)重由杰卡德系數(shù)計(jì)算。我們認(rèn)為在共享相同圖像方面高度相似的帳戶是協(xié)調(diào)的。為此,我們保留權(quán)重最大的 1% 的邊(見圖 11)。排除單例(沒有協(xié)調(diào)證據(jù)的帳戶),我們按大小對網(wǎng)絡(luò)的連接組件進(jìn)行排名。表 2 總結(jié)了本例中的方法決策。
????????
?
?(圖 11:三個案例研究的協(xié)調(diào)網(wǎng)絡(luò)權(quán)重分布。虛線代表邊緣過濾器:我們保留案例 2 中權(quán)重最高 1% 的邊緣,以及案例 4 和 5 中權(quán)重最高 0.5% 的邊緣)
Analysis
????????圖3顯示了賬戶協(xié)調(diào)網(wǎng)絡(luò)。我們發(fā)現(xiàn)了三個可疑集群,涉及 315 個賬戶,這些賬戶發(fā)布了支持或反對抗議的圖片。反抗議團(tuán)體分享帶有中文文字的圖片,針對的是華語觀眾,而支持抗議團(tuán)體則分享帶有英文文字的圖片。我們觀察到一些共享圖像特征對應(yīng)于完全相同的圖像,其他特征則略有不同。例如,支持抗議集群中與同一特征對應(yīng)的 59 個圖像 URL 包含不同亮度和裁剪的細(xì)微變化。 61張相應(yīng)的反抗議圖像也是如此。
????????雖然這種方法確定了帳戶的協(xié)調(diào),但它并沒有將協(xié)調(diào)描述為惡意或良性,也沒有將其描述為自動或有機(jī)。事實(shí)上,有很多協(xié)調(diào)賬戶的行為就像人類一樣(見討論)。這些群體之所以被確定,是因?yàn)樗麄兊慕M成賬戶比其他人群更經(jīng)常地傳播相同的圖片內(nèi)容。
Case Study 3: Hashtag Sequences
????????造謠活動的一個關(guān)鍵因素是要影響大量的受眾。為了傳播到追隨者之外,惡意行為者可以使用標(biāo)簽來瞄準(zhǔn)對某個話題感興趣并可能搜索相關(guān)推文的其他用戶。
????????如果一組自動帳戶使用相同的文本發(fā)布消息,這將看起來很可疑,并且很容易被平臺的反垃圾郵件措施檢測到。很容易想象惡意用戶利用語言模型(例如 GPT-2?)來解釋他們的消息。由于應(yīng)用程序代表用戶發(fā)布釋義文本,檢測可能會變得更加困難。這種行為的一個例子是“適得其反的特朗普”推特應(yīng)用程序,每當(dāng)槍支暴力造成死亡時,該應(yīng)用程序就會向特朗普總統(tǒng)發(fā)送推文。然而,我們推測,即使是釋義文本也可能包含基于協(xié)調(diào)活動目標(biāo)的相同主題標(biāo)簽。因此,在本案例研究中,我們探討如何識別在多條推文中發(fā)布高度相似的主題標(biāo)簽序列的協(xié)調(diào)帳戶。
????????我們在原始推文數(shù)據(jù)集上評估了這種方法(沒有轉(zhuǎn)發(fā))是在2018年美國中期選舉前后收集的。關(guān)于數(shù)據(jù)源的更多信息見表3。在應(yīng)用我們的框架之前,我們將數(shù)據(jù)集劃分為每日間隔,以檢測何時對帳戶進(jìn)行協(xié)調(diào)。
?Coordination Detection
????????數(shù)據(jù)預(yù)處理步驟會過濾掉推文和主題標(biāo)簽很少的帳戶。閾值取決于評估的時間段。在這種情況下,我們在 24 小時內(nèi)至少使用 5 條推文和 5 個唯一的主題標(biāo)簽,以確保為可能的協(xié)調(diào)提供足夠的支持。可以應(yīng)用更嚴(yán)格的過濾來降低兩個帳戶偶然產(chǎn)生相似序列的可能性。
????????在這種情況下,我們設(shè)計(jì)了結(jié)合內(nèi)容(主題標(biāo)簽)和活動(時間戳)跟蹤的功能。特別是,我們?yōu)槊總€用戶使用有序的主題標(biāo)簽序列(圖 4)。二分網(wǎng)絡(luò)由一層中的帳戶和另一層中的主題標(biāo)簽序列組成. 在投影階段,我們會在具有相同標(biāo)簽序列的兩個賬戶之間畫一條邊。這些邊緣是未加權(quán)的,我們不應(yīng)用任何過濾,基于兩個獨(dú)立用戶不太可能在同一天發(fā)布五個或更多主題標(biāo)簽的相同序列的假設(shè)。我們還考慮了一種模糊方法來匹配序列略有不同的帳戶,并發(fā)現(xiàn)了相似的結(jié)果。
?(圖 4:標(biāo)簽序列特征。主題標(biāo)簽及其位置是從推文元數(shù)據(jù)中提取的。發(fā)布相同主題標(biāo)簽序列的推文的帳戶很容易被識別。)
Analysis
????????我們確定了由 1,809 個唯一帳戶執(zhí)行的 617 個日常協(xié)調(diào)實(shí)例。圖5顯示了一天內(nèi)識別出的32個可疑群體。最大的組件由 404 個節(jié)點(diǎn)組成,這些節(jié)點(diǎn)通過“Backfire Trump”Twitter 應(yīng)用程序發(fā)送一系列推文,倡導(dǎo)更嚴(yán)格的槍支管制法。該應(yīng)用程序不再有效。這些推文中的一些說法與非營利性槍支暴力檔案館的報(bào)告不一致。最小的組僅由帳戶對組成。其中一對在推特上發(fā)布了一個現(xiàn)已不復(fù)存在的頁面鏈接,該頁面宣傳在線賭場的獎金。另一對賬戶還提供了一個鏈接,指向已得到人道協(xié)會立法基金認(rèn)可的民選公職候選人名單。當(dāng)然,我們可以使用更長的時間窗口,并有可能揭示更大的協(xié)調(diào)網(wǎng)絡(luò)。例如,圖 5 中的 Backfire Trump 集群是由 1,175 個帳戶組成的更大網(wǎng)絡(luò)的一部分。
Case Study 4: Co-Retweets、
????????信息源的放大也許是最常見的操縱形式。在 Twitter 上,一組轉(zhuǎn)發(fā)相同推文或同一組帳戶的帳戶可能表示協(xié)調(diào)行為。因此,我們在此案例研究中重點(diǎn)關(guān)注轉(zhuǎn)發(fā)。
????????我們應(yīng)用所提出的方法來檢測放大與“白頭盔”相關(guān)敘述的協(xié)調(diào)帳戶,白頭盔是一個志愿者組織,在敘利亞內(nèi)戰(zhàn)期間成為虛假信息活動的目標(biāo)。 最近報(bào)道確定了這些活動背后的俄羅斯來源(Wilson 和 Starbird 2020)。數(shù)據(jù)是使用英語和阿拉伯語關(guān)鍵詞從 Twitter 收集的。有關(guān)數(shù)據(jù)的更多詳細(xì)信息,請參見表 4。
Coordination Detection
????????我們在轉(zhuǎn)發(fā)帳戶和轉(zhuǎn)發(fā)消息之間構(gòu)建二分網(wǎng)絡(luò),不包括自我轉(zhuǎn)發(fā)和轉(zhuǎn)發(fā)次數(shù)少于 10 次的帳戶。該網(wǎng)絡(luò)使用 TF-IDF 進(jìn)行加權(quán),以折扣流行推文的貢獻(xiàn)。因此,每個帳戶都表示為轉(zhuǎn)發(fā)的推文 ID 的 TFIDF 向量。然后,通過帳戶向量之間的余弦相似度對投影的共同轉(zhuǎn)發(fā)網(wǎng)絡(luò)進(jìn)行加權(quán)。最后,為了關(guān)注潛在協(xié)調(diào)的證據(jù),我們只保留最可疑的 0.5% 邊緣(見圖 11)??梢哉{(diào)整這些參數(shù)以在精確度和召回率之間進(jìn)行權(quán)衡;閾值對精度的影響在討論部分進(jìn)行了分析。表 4 總結(jié)了方法決策。
Analysis
????????圖6顯示了共同轉(zhuǎn)發(fā)網(wǎng)絡(luò),并突出顯示了兩組協(xié)調(diào)的帳戶。橙色組和紫色組的賬戶分別轉(zhuǎn)發(fā)了支持和反對“白頭盔”的信息。圖中顯示的示例tweet已不再公開。
?Case Study 5: Synchronized Actions
????????“拉高拋售”是一種陰暗的計(jì)劃,通過虛假陳述(拉高)模擬買家興趣激增,以更高的價格出售廉價購買的股票(拋售),從而抬高股票價格。投資者很容易受到這種操縱,因?yàn)樗麄兿M谫徺I似乎有望帶來高額未來利潤的股票時迅速采取行動。通過在短時間內(nèi)讓投資者接觸看似來自不同來源的信息,欺詐者會制造一種虛假的緊迫感,促使受害者采取行動。社交媒體為此類詐騙提供了肥沃的土壤(Mirtaheri 等人,2019)。我們研究了我們的方法在檢測 Twitter 上協(xié)調(diào)的加密貨幣拉高和轉(zhuǎn)儲活動方面的有效性。使用與 25 種易受攻擊的加密貨幣相關(guān)的關(guān)鍵字和現(xiàn)金標(biāo)簽(例如 $BTC)作為查詢詞來收集數(shù)據(jù)。我們會考慮原始推文和轉(zhuǎn)發(fā),因?yàn)樗鼈兌紩砑拥綕撛谫I家考慮的信息流中。有關(guān)數(shù)據(jù)集的更多詳細(xì)信息請參見表 5。
?Coordination Detection
????????我們假設(shè)協(xié)調(diào)的拉高和拋售活動使用軟件讓多個帳戶在時間上非常接近地發(fā)布拉高消息。因此,推文時間戳被用作帳戶的行為軌跡。兩條推文發(fā)布的時間間隔越短,它們巧合的可能性就越小。然而,較短的時間間隔會導(dǎo)致匹配明顯減少并增加計(jì)算時間。另一方面,較長的間隔(例如每天)會產(chǎn)生許多誤報(bào)匹配。為了平衡這些問題,我們使用 30 分鐘的時間間隔。直觀上,任何兩個用戶都可能在任意時間間隔內(nèi)發(fā)布一兩條推文;然而,對于一組更多的推文來說,情況并非如此。為了重點(diǎn)關(guān)注具有足夠協(xié)調(diào)支持的帳戶,我們只保留那些發(fā)布至少 8 條消息的帳戶。選擇這個特定的支持閾值是為了最大限度地減少誤報(bào)匹配,如討論部分所示。
????????然后,根據(jù)發(fā)布推文的時間間隔對推文進(jìn)行分類。這些時間特征用于構(gòu)建帳戶和推文時間的二方網(wǎng)絡(luò)。使用 TF-IDF 對邊緣進(jìn)行加權(quán)。與之前的情況類似,投影賬戶協(xié)調(diào)網(wǎng)絡(luò)通過 TF-IDF 向量之間的余弦相似度進(jìn)行加權(quán)。經(jīng)過手動檢查,我們發(fā)現(xiàn)該網(wǎng)絡(luò)中共享的許多推文與加密貨幣無關(guān),而只有一小部分邊緣與該主題有關(guān)。這些邊緣也具有很高的相似性并產(chǎn)生強(qiáng)烈的協(xié)調(diào)信號。因此,我們只保留余弦相似度最大的 0.5% 邊緣(見圖 11)。表 5 總結(jié)了方法決策。
Analysis
????????圖 7 顯示了同步動作網(wǎng)絡(luò)。對網(wǎng)絡(luò)中的連接組件進(jìn)行定性分析以評估精度。紫色子圖標(biāo)記了觀察到可疑拉高和轉(zhuǎn)儲計(jì)劃的協(xié)調(diào)帳戶集群。我們發(fā)現(xiàn)了不同的例子許多加密貨幣的方案。
?(圖 7:時間協(xié)調(diào)網(wǎng)絡(luò)。如果節(jié)點(diǎn)(帳戶)在相同的 30 分鐘內(nèi)發(fā)布或轉(zhuǎn)發(fā),則它們被連接。單例被省略。紫色簇中的賬戶和 8 點(diǎn)鐘位置的黃色小簇中的賬戶對運(yùn)行拉高轉(zhuǎn)儲計(jì)劃高度懷疑。顯示了一些推文摘錄;這些推文不再公開。)
????????由于市場波動,股票市場的變化,尤其是那些專注于短期交易的加密貨幣,很難捕捉到。此外,很難將價格變化歸因于單一原因,例如與推高和拋售相關(guān)的 Twitter 活動。這使得定量驗(yàn)證我們的結(jié)果變得困難。然而,在 2017 年 12 月 15 日至 21 日這一周,代幣 Verge (XVG)、Enjin (ENJ) 和 DigiByte (DGB) 均呈每日上漲趨勢。每天,在大量同步推文評論其移動價格后,價格都會飆升。這些趨勢先于這些代幣迄今為止的創(chuàng)紀(jì)錄價格,XVG 的創(chuàng)紀(jì)錄價格為 2017 年 12 月 23 日,ENJ 和 DGB 的創(chuàng)紀(jì)錄價格為 2018 年 1 月 7 日。圖 7 中以黃色突出顯示了大量提取這三種代幣的賬戶集群。
Discussion
????????本文提出的五個案例研究只是說明如何實(shí)施我們提出的方法來尋找協(xié)調(diào)。該方法原則上可以應(yīng)用于除 Twitter 之外的其他社交媒體平臺。例如,圖像協(xié)調(diào)方法可以應(yīng)用于Instagram,而Facebook頁面之間的協(xié)調(diào)可以通過它們共享的內(nèi)容來發(fā)現(xiàn)。
????????相關(guān)工作部分中討論的幾種無監(jiān)督方法,就像這里介紹的我們方法的五個應(yīng)用一樣,側(cè)重于不同類型的協(xié)調(diào)。因此,這些方法不能直接比較。本文的一個關(guān)鍵貢獻(xiàn)是提供了一種靈活且通用的方法來以統(tǒng)一的方案描述這些不同的方法。例如,Debot(Chavoshi、Hamooni 和 Mueen 2016)可以被描述為我們的方法的一個特例,該方法基于保留動態(tài)時間扭曲距離的復(fù)雜時間哈希方案(Keogh 和 Ratanamahatana 2005),而 SynchroTrap(Cao 等人 2014) )通過在時間窗口內(nèi)匹配動作來利用同步信息。 Giglietto 等人的方法。 (2020) 以及 Chen 和 Subramanian (2018) 是使用基于共享鏈接的相似性的特殊情況。 Ahmed 和 Abuaish (2013) 的方法使用了一個列聯(lián)賬戶表,其特征相當(dāng)于我們的二分網(wǎng)絡(luò)。
????????我們的方法旨在識別賬戶之間的協(xié)調(diào),但它并沒有表征協(xié)調(diào)的意圖或真實(shí)性,也不允許發(fā)現(xiàn)潛在的機(jī)制。最近的新聞報(bào)道強(qiáng)調(diào)了一個惡意意圖的例子,該網(wǎng)絡(luò)由青少年組成的協(xié)調(diào)網(wǎng)絡(luò)發(fā)布有關(guān)選舉的虛假敘述。然而,重要的是要記住,協(xié)調(diào)的活動可能是由具有善意意圖的真實(shí)用戶發(fā)起的。例如,社會運(yùn)動參與者以協(xié)調(diào)的方式使用主題標(biāo)簽來提高對其事業(yè)的認(rèn)識。
????????圖 8 顯示了案例研究 1-3 中機(jī)器人分?jǐn)?shù)的分布。 (由于數(shù)據(jù)集中的匿名化,我們無法分析案例 4-5 中的機(jī)器人分?jǐn)?shù)。)我們觀察到,雖然協(xié)調(diào)帳戶更有可能具有較高的機(jī)器人分?jǐn)?shù),但許多協(xié)調(diào)帳戶的分?jǐn)?shù)較低(類似于人類)——大多數(shù)在這三種情況中的兩種情況下。因此,檢測社交機(jī)器人不足以檢測協(xié)調(diào)的活動。
?(可疑和非可疑賬戶的機(jī)器人數(shù)量。我們的方法識別出的可疑帳戶與其他帳戶的機(jī)器人分?jǐn)?shù)直方圖。頂部、中間和底部面板分別代表帳戶句柄共享(案例研究 1)、圖像協(xié)調(diào)(案例研究 2)和主題標(biāo)簽序列(案例研究 3)。案例研究 1 的機(jī)器人分?jǐn)?shù)是從 Botometer 第 3 版獲得的(Yang 等人,2019),收集于 2018 年 5 月至 2019 年 4 月。對于其他兩個案例,機(jī)器人分?jǐn)?shù)是從 BotometerLite 獲得的(Yang 等人,2020)。數(shù)據(jù)集可能包括同一帳戶的多個分?jǐn)?shù)。)
????????盡管這里介紹的案例研究基于不同來源的數(shù)據(jù),但它們并不是為了夸大所提出方法的有效性,也不是為了關(guān)注惡意帳戶。圖 9 顯示案例研究 1 和 3 中分析的帳戶集的機(jī)器人分?jǐn)?shù)分布與從推文隨機(jī)樣本中獲得的分?jǐn)?shù)分布一致。我們注意到這不是一個隨機(jī)的賬戶樣本-它是有偏見的賬戶活動。案例研究2是個例外;我們推測,在香港抗議期間,機(jī)器人被用來發(fā)布大量圖片。
文章來源:http://www.zghlxwxcb.cn/news/detail-624446.html
?(機(jī)器人分?jǐn)?shù)分布。 Q-Q 圖將三個案例研究中的機(jī)器人得分分布與從 24 小時 1% 隨機(jī)推文樣本中獲得的得分分布進(jìn)行比較。機(jī)器人得分的來源如圖 8 所示。所有分布都嚴(yán)重偏向較低的機(jī)器人得分值(即,人類多于機(jī)器人),但案例研究 2 除外,其中機(jī)器人得分較高,且分布接近均勻。)文章來源地址http://www.zghlxwxcb.cn/news/detail-624446.html
到了這里,關(guān)于論文閱讀- Uncovering Coordinated Networks on Social Media:Methods and Case Studies的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!