国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

(WWW2023)論文閱讀-Detecting Social Media Manipulation in Low-ResourceLanguages

這篇具有很好參考價值的文章主要介紹了(WWW2023)論文閱讀-Detecting Social Media Manipulation in Low-ResourceLanguages。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文鏈接:https://arxiv.org/pdf/2011.05367.pdf

摘要

????????社交媒體被故意用于惡意目的,包括政治操縱和虛假信息。大多數(shù)研究都集中在高資源語言上。然而,惡意行為者會跨國家/地區(qū)和語言共享內(nèi)容,包括資源匱乏的語言。

????????在這里,我們調(diào)查是否以及在何種程度上可以在低資源語言設(shè)置中檢測到惡意行為者。我們發(fā)現(xiàn),2016 年美國總統(tǒng)大選后,Twitter 打擊干擾行動的一部分是,大量用他加祿語發(fā)布的賬戶被暫停。

??????? 通過結(jié)合文本嵌入和遷移學(xué)習(xí),我們的框架可以準(zhǔn)確地檢測到用他加祿語發(fā)布的惡意用戶,而無需事先了解該語言的惡意內(nèi)容或?qū)ζ溥M(jìn)行訓(xùn)練

????????我們首先獨(dú)立學(xué)習(xí)每種語言的嵌入模型,即高資源語言(英語)和低資源語言(他加祿語)。

????????然后,我們學(xué)習(xí)兩個潛在空間之間的映射來傳輸檢測模型。

????????我們證明,所提出的方法顯著優(yōu)于包括 BERT 在內(nèi)的最先進(jìn)模型,并且在訓(xùn)練數(shù)據(jù)非常有限的環(huán)境中產(chǎn)生顯著優(yōu)勢——這是處理在線平臺中檢測惡意活動時的常態(tài)。

引言

????????虛假信息和政治操縱由來已久:例如,早在社交媒體時代到來之前的 1984 年,一個聲稱艾滋病毒是美國政府作為生物武器制造的故事在全世界瘋傳。如今,社交媒體以前所未有的速度放大和加速信息傳播。 Twitter 和 Facebook 等在線社交網(wǎng)絡(luò) (OSN) 一直面臨惡意內(nèi)容的大量增長,這破壞了在線話語的真實(shí)性和真實(shí)性 [1, 21, 24, 32, 74, 77]。

????????各種研究表明,OSN 已被用于惡意目的,損害了我們社會的多個組成部分 [42, 75],從地緣政治事件 [22, 27, 44, 58, 63] 到公共衛(wèi)生 [14, 25, 28、52、78]。機(jī)器人和巨魔是社交媒體操縱和虛假信息活動的主要參與者 [3, 11, 26, 45, 62],通常以協(xié)調(diào)一致的方式 [29, 51, 53, 64, 67, 76]。

????????人們特別關(guān)注政治背景下大規(guī)模輿論操縱的風(fēng)險,最好的例子就是2016年美國總統(tǒng)討論選舉中的網(wǎng)絡(luò)干擾[4, 6]。從那時起,OSN 一直在努力打擊濫用行為,并在其平臺上保持信任和健康的對話。盡管付出了努力,巨魔和機(jī)器人的活動似乎仍然存在[36,43,72]。例如,Twitter 識別并暫停了來自不同國家(包括俄羅斯、伊朗、孟加拉國和委內(nèi)瑞拉)的惡意帳戶[71],這表明存在協(xié)調(diào)一致的努力來操縱跨國家和跨語言的在線言論。最近,皮埃里等人[58] 在烏克蘭和俄羅斯之間持續(xù)沖突的背景下記錄了平臺濫用和隨后的 Twitter 干預(yù)的證據(jù) [57]。雖然其他人已經(jīng)探索了高資源語言中惡意用戶的各種策略[41,43,69,70]以實(shí)現(xiàn)他們的檢測[12,13,33,49],但在這里我們提出了一種使用遷移學(xué)習(xí)來檢測惡意用戶的新方法能夠自動識別低資源語言中的行為不當(dāng)帳戶。

這項(xiàng)工作的貢獻(xiàn)

????????我們的目的是調(diào)查文本內(nèi)容是否可以以及在多大程度上可以用作代理來檢測社交媒體上的惡意活動,特別關(guān)注以低資源語言共享消息的帳戶??偟膩碚f,我們的目標(biāo)是回答兩個主要研究問題:

????????RQ1:我們可以僅根據(jù)帳戶共享的內(nèi)容將其歸類為惡意帳戶嗎?我們探索從推文中學(xué)習(xí)單詞表示以識別暫停帳戶的有效性。

????????RQ2:我們可以從高資源語言(英語)學(xué)習(xí)模型并將知識轉(zhuǎn)移到低資源語言(他加祿語)來檢測暫停帳戶嗎?我們研究學(xué)習(xí)兩個獨(dú)立訓(xùn)練的詞嵌入之間的映射是否有利于識別行為不當(dāng)?shù)膸簟?/p>

數(shù)據(jù):美國2016年總統(tǒng)選舉

????????在本研究中,我們使用 Twitter 作為測試平臺來檢測關(guān)注 2016 年美國總統(tǒng)大選的惡意賬戶的活動。該數(shù)據(jù)集由近 600 萬不同用戶發(fā)布了約 4200 萬條推文,由 [6] 首次發(fā)布。通過 Twitter Streaming API 使用 23 個選舉關(guān)鍵詞收集推文(唐納德·特朗普 5 個、希拉里·克林頓 4 個、第三方候選人 3 個,大選任期11)。該收集是在 2016 年 9 月 16 日至 2016 年 10 月 21 日期間進(jìn)行的。從收集的推文集中,刪除了重復(fù)的推文,這些重復(fù)的推文可能是通過對 Twitter API 的意外冗余查詢捕獲的。表 1 列出了最流行的關(guān)鍵詞和相關(guān)推文數(shù)量。雖然所有關(guān)鍵詞都是英文,但也收集了其他語言的推文。

????????我們確定了 60 多種不同的語言,其中用歐洲語言編寫的推文數(shù)量最多。其中,近 500 萬用戶發(fā)布了超過 3760 萬條英文推文。我們發(fā)現(xiàn)大量他加祿語的推文,他加祿語是一種南島語,是菲律賓四分之一人口的第一語言,也是菲律賓一半以上人口的第二語言。按使用人數(shù)計(jì)算,他加祿語是美國第四大常用語言 [73],僅次于英語、西班牙語和中文,按推文數(shù)量計(jì)算,他加祿語是我們數(shù)據(jù)中排名第一的低資源語言。美國也是菲律賓境外菲律賓移民人口最多的國家之一。此外,對其維基百科規(guī)模的分析進(jìn)一步證實(shí)了他加祿語的資源匱乏狀況——維基百科是估計(jì)一種語言的數(shù)字資源量的常用指標(biāo)。他加祿語的維基百科目前按文章數(shù)量排名第 101 位,與其在我們數(shù)據(jù)集中的流行程度形成鮮明對比。因此,我們將注意力集中在他加祿語作為這項(xiàng)工作的目標(biāo)語言。

4 方法論

4.1 詞表示

????????為了學(xué)習(xí)詞嵌入和訓(xùn)練分類模型,我們使用 FastText 框架。 FastText 沒有將單詞視為文本的原子單元,而是將單詞表示為一袋字符 n-gram [8],其中每個 n-gram 都有自己的向量表示,并且單詞表示為其組成字符 n-gram 的總和。這使得模型能夠適應(yīng)形態(tài)豐富、詞匯量大的語言,并能更好地從較小的訓(xùn)練語料庫中進(jìn)行泛化。

????????盡管基于神經(jīng)網(wǎng)絡(luò)的模型在文本分類任務(wù)中取得了相當(dāng)大的成功,但它們的訓(xùn)練和部署成本仍然相當(dāng)昂貴。 FastText 利用分層 softmax 來服務(wù)作為 softmax 分類器的快速近似,用于計(jì)算給定類別的概率分布 [38]。使用特征修剪、量化、散列和再訓(xùn)練來顯著減小模型大小而不犧牲準(zhǔn)確性或速度,這種方法允許在大型文本語料庫上訓(xùn)練模型比基于神經(jīng)網(wǎng)絡(luò)的方法快得多[37]。

4.2 遷移學(xué)習(xí)

????????用于自然語言處理的傳統(tǒng)機(jī)器學(xué)習(xí)方法側(cè)重于為特定任務(wù)訓(xùn)練專用模型。然而,這需要大量數(shù)據(jù),而對于資源匱乏的語言來說,這是很難獲取的。歷史上,這引發(fā)了對高資源語言(主要是歐洲語言)的更多研究,從而為這些語言創(chuàng)建了更多資源,從而促進(jìn)了這一循環(huán)。遷移學(xué)習(xí)最近興起,作為一種利用從源語言(或源任務(wù))學(xué)到的知識并利用它來提高目標(biāo)語言(或目標(biāo)任務(wù))性能的方法。

????????為了解決本工作中分析的目標(biāo)語言數(shù)據(jù)稀缺的問題,我們使用 MUSE,這是一個框架,用于在同一空間中對齊來自不同語言的單語詞嵌入,并允許它們之間的知識轉(zhuǎn)移。 MUSE 使用 Procrustes 對齊來學(xué)習(xí)從源空間到目標(biāo)空間的映射,以最小化兩種語言中相似單詞之間的距離 [40]。它接受兩組預(yù)訓(xùn)練的單語言單詞嵌入(例如 FastText 學(xué)習(xí)的單詞嵌入)作為輸入,每種語言一組,并且可以以監(jiān)督或無監(jiān)督的方式學(xué)習(xí)它們之間的映射。監(jiān)督方法需要使用雙語詞典,通過識別在共享空間中應(yīng)該靠近的相似單詞對來幫助將兩個嵌入對齊在一起。在沒有這樣的字典的情況下,無監(jiān)督替代方案利用逆向訓(xùn)練來初始化源空間和目標(biāo)空間之間的線性映射并生成合成并行字典。 [15]表明,這種方法可以用于執(zhí)行無監(jiān)督單詞翻譯,而無需使用任何并行數(shù)據(jù),其結(jié)果在某些情況下甚至優(yōu)于先前的監(jiān)督方法。

4.3 學(xué)習(xí)任務(wù)

????????單語文本分類。在第一種方法中,我們使用每種語言各自的數(shù)據(jù)集從頭開始訓(xùn)練獨(dú)立的文本分類模型。出于分類目的,我們使用 FastText 框架,它將文本表示為詞袋(BoW),并將它們的單獨(dú)表示平均化為組合文本表示。然后,將該文本表示形式用作具有 softmax 函數(shù)的線性分類器的輸入,該函數(shù)計(jì)算標(biāo)簽類的概率分布以進(jìn)行預(yù)測。文章來源地址http://www.zghlxwxcb.cn/news/detail-651322.html

到了這里,關(guān)于(WWW2023)論文閱讀-Detecting Social Media Manipulation in Low-ResourceLanguages的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 論文閱讀- Uncovering Coordinated Networks on Social Media:Methods and Case Studies

    論文閱讀- Uncovering Coordinated Networks on Social Media:Methods and Case Studies

    鏈接:https://arxiv.org/pdf/2001.05658.pdf 目錄 摘要: 引言 Methods Case Study 1: Account Handle Sharing ?Coordination Detection 分析 Case Study 2: Image Coordination Coordination Detection Analysis Case Study 3: Hashtag Sequences ?Coordination Detection Analysis Case Study 4: Co-Retweets、 Coordination Detection Analysis ?Case Study 5: Synch

    2024年02月14日
    瀏覽(25)
  • 論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文閱讀 - Social bot detection in the age of ChatGPT: Challenges and opportunities

    論文鏈接:https://www.researchgate.net/publication/371661341_Social_bot_detection_in_the_age_of_ChatGPT_Challenges_and_opportunities 目錄 摘要: 引言 1.1. Background on social bots and their role in society 1.2. The rise of AI-generated chatbots like ChatGPT 1.3. The importance of social bot detection 1.4. Scope and objectives of the paper? 2. T

    2024年02月14日
    瀏覽(18)
  • 論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    論文筆記--Learning Political Polarization on Social Media Using Neural Networks

    標(biāo)題:Learning Political Polarization on Social Media Using Neural Networks 作者:LORIS BELCASTRO, RICCARDO CANTINI, FABRIZIO MAROZZO, DOMENICO TALIA AND PAOLO TRUNFIO 日期:2020 期刊:IEEE ??文章提出了一種基于神經(jīng)網(wǎng)絡(luò)對政治兩極化觀點(diǎn)進(jìn)行分析的方法IOM-NN, 基于兩組case的分析結(jié)果表明該方法相比于傳統(tǒng)

    2024年02月03日
    瀏覽(38)
  • 社交媒體中的表情符號結(jié)合大數(shù)據(jù) AI 的研究 Analyzing Emoji Use in Social Media Posts Insights

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 在社交媒體中,由于使用了表情符號表述自己的情感,使得用戶對某類產(chǎn)品或服務(wù)表達(dá)出的態(tài)度更加直觀、生動。在這一領(lǐng)域,研究人員需要收集和分析社交媒體上的文字和圖片數(shù)據(jù),以此探索用戶對于 popular emojis 的態(tài)度傾向及其產(chǎn)生的影響

    2024年02月08日
    瀏覽(46)
  • 【論文閱讀筆記】Detecting AI Trojans Using Meta Neural Analysis

    【論文閱讀筆記】Detecting AI Trojans Using Meta Neural Analysis

    個人閱讀筆記,如有錯誤歡迎指出! 會議:2021 SP????????Detecting AI Trojans Using Meta Neural Analysis | IEEE Conference Publication | IEEE Xplore 問題: ????????當(dāng)前防御方法存在一些難以實(shí)現(xiàn)的假設(shè),或者要求直接訪問訓(xùn)練模型,難以在實(shí)踐中應(yīng)用。 創(chuàng)新: ????????通過元分類器

    2024年01月23日
    瀏覽(34)
  • 論文閱讀 HighlightMe: Detecting Highlights from Human-Centric Videos

    摘要: 我們提出了一種與領(lǐng)域和用戶偏好無關(guān)的方法來檢測以人為中心的視頻中的精彩片段摘錄。我們的方法適用于視頻中多種可觀察到的以人為中心的模態(tài)的基于圖形的表示,例如姿勢和面部。我們使用配備時空圖卷積的自動編碼器網(wǎng)絡(luò)來檢測基于這些模式的人類活動和交

    2024年02月16日
    瀏覽(28)
  • [論文閱讀筆記24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.

    [論文閱讀筆記24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.

    論文: 論文地址 代碼: 代碼地址 作者在這篇文章中直接用GNN對目標(biāo)的軌跡時空特征進(jìn)行建模, 并用時序CNN進(jìn)行預(yù)測, 代替了訓(xùn)練難度較大和速度較慢的RNN類方法. 行人軌跡預(yù)測是一個比較有挑戰(zhàn)性的任務(wù), 有著許多的應(yīng)用. 一個行人的軌跡不僅是由自己決定的, 而且受其周圍目標(biāo)

    2024年02月16日
    瀏覽(18)
  • Exploiting Proximity-Aware Tasks for Embodied Social Navigation 論文閱讀

    Exploiting Proximity-Aware Tasks for Embodied Social Navigation 論文閱讀

    題目 :Exploiting Proximity-Aware Tasks for Embodied Social Navigation 作者 :Enrico Cancelli, Tommaso Campari 來源 :arXiv 時間 :2023 學(xué)習(xí)如何在封閉且空間受限的室內(nèi)環(huán)境中在人類之間導(dǎo)航,是體現(xiàn)主體融入我們社會所需的關(guān)鍵能力。 在本文中,我們提出了一種端到端架構(gòu),該架構(gòu)利用鄰近感

    2024年02月12日
    瀏覽(15)
  • MINT: Detecting Fraudulent Behaviors from Time-series Relational Data論文閱讀筆記

    MINT: Detecting Fraudulent Behaviors from Time-series Relational Data論文閱讀筆記

    2. 問題定義 時間序列關(guān)系數(shù)據(jù)(Time Series Relation Data) 這個數(shù)據(jù)是存放在關(guān)系型數(shù)據(jù)庫中,每一條記錄都是泰永時間搓的行為。 更具體地,每條記錄表示為 x = ( v , t , x 1 , x 2 , … , x m ? 2 ) x = (v,t,x_1,x_2,dots,x_{m-2}) x = ( v , t , x 1 ? , x 2 ? , … , x m ? 2 ? ) ,其中 v v v 代表帶

    2024年04月15日
    瀏覽(37)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包