?目錄
?前言
設(shè)計思路
一、課題背景與意義
二、算法理論原理
2.1 機(jī)器學(xué)習(xí)
2.2 深度學(xué)習(xí)?
三、檢測的實現(xiàn)
3.1 數(shù)據(jù)集
3.3 實驗及結(jié)果分析
最后
前言
? ? ? ???大四是整個大學(xué)期間最忙碌的時光,一邊要忙著備考或?qū)嵙?xí)為畢業(yè)后面臨的就業(yè)升學(xué)做準(zhǔn)備,一邊要為畢業(yè)設(shè)計耗費大量精力。近幾年各個學(xué)校要求的畢設(shè)項目越來越難,有不少課題是研究生級別難度的,對本科同學(xué)來說是充滿挑戰(zhàn)。為幫助大家順利通過和節(jié)省時間與精力投入到更重要的就業(yè)和考試中去,學(xué)長分享優(yōu)質(zhì)的選題經(jīng)驗和畢設(shè)項目與技術(shù)思路。
? ? ? ????對畢設(shè)有任何疑問都可以問學(xué)長哦!
? ? ? ? ?選題指導(dǎo):
? ? ? ? 最新最全計算機(jī)專業(yè)畢設(shè)選題精選推薦匯總
? ? ? ??大家好,這里是海浪學(xué)長畢設(shè)專題,本次分享的課題是
? ? ? ? ??基于機(jī)器學(xué)習(xí)的虛假新聞識別系統(tǒng)
設(shè)計思路
一、課題背景與意義
? ? ? ? 隨著一些電視劇的上映,社交媒體上涌現(xiàn)出大量關(guān)于該劇的褒貶不一的聲音。然而,這種爭議背后存在著一些虛假新聞和水軍行為,導(dǎo)致公眾無法分辨真實的觀點和評論。虛假新聞不僅擾亂了公眾對真實信息的判斷,還對社會穩(wěn)定和民主進(jìn)程產(chǎn)生了負(fù)面影響。所以設(shè)計一個基于機(jī)器學(xué)習(xí)的虛假新聞識別系統(tǒng),可以幫助公眾更好地識別和辨別虛假新聞,提高信息素養(yǎng)和媒體素養(yǎng)。
二、算法理論原理
2.1 機(jī)器學(xué)習(xí)
? ? ? ? SVM是一種具有扎實理論基礎(chǔ)和強(qiáng)大泛化能力的方法,在文本分類、數(shù)據(jù)挖掘等多個領(lǐng)域都得到了廣泛應(yīng)用。文本分類任務(wù)中,SVM常用于將文本數(shù)據(jù)劃分為不同的類別,例如情感分析、垃圾郵件過濾和新聞分類等。SVM通過將文本數(shù)據(jù)映射到高維特征空間,并找到一個最優(yōu)的超平面來實現(xiàn)分類。它的泛化能力強(qiáng),能夠處理高維稀疏數(shù)據(jù),并且對于小樣本數(shù)據(jù)也能表現(xiàn)出色。還可以用于聚類分析、異常檢測、回歸分析等任務(wù)。通過選擇合適的核函數(shù)和調(diào)整超參數(shù),SVM能夠適應(yīng)不同類型的數(shù)據(jù),從而提高挖掘模型的精度和魯棒性。
? ? ? ? 決策樹是一種基于樹的監(jiān)督學(xué)習(xí)分類算法,通過歸納算法生成可讀規(guī)則和決策樹,然后利用決策樹對新數(shù)據(jù)進(jìn)行分類。決策樹由節(jié)點和分支組成,其中節(jié)點包括內(nèi)部節(jié)點和葉子節(jié)點。在生成的決策樹中,每個內(nèi)部節(jié)點表示數(shù)據(jù)集中的一個特征,每個葉子節(jié)點代表數(shù)據(jù)集中的一種類別。決策樹具有易于理解和實現(xiàn)的優(yōu)點,能夠處理各種數(shù)據(jù)類型和屬性,且在較短時間內(nèi)為大型數(shù)據(jù)提供可行的結(jié)果。然而,決策樹在處理連續(xù)預(yù)測和具有時間序列的數(shù)據(jù)時可能面臨困難,需要進(jìn)行大量的預(yù)處理。
? ? ? ? LDA主題模型是一種無監(jiān)督學(xué)習(xí)算法。該模型將文檔集中的多個章節(jié)以概率分布的形式進(jìn)行分類,實現(xiàn)主題的聚類和文檔的主題分析。LDA模型使用三層貝葉斯模型結(jié)構(gòu),包括文檔、主題和詞三部分,通過抽樣過程生成文檔中的主題和詞的概率分布。LDA模型的訓(xùn)練不需要手動標(biāo)記訓(xùn)練集,只需要文檔集和指定的主題數(shù)量。它具有可解釋性強(qiáng)的優(yōu)點,可以為每個主題找到描述性的詞語。LDA是常見的主題模型之一,在文本分析和主題挖掘領(lǐng)域得到廣泛應(yīng)用。
2.2 深度學(xué)習(xí)?
? ? ? ? BERT模型的核心是Transformer編碼器,通過多頭注意力機(jī)制、自注意力機(jī)制和殘差連接操作,將輸入文本中每個詞語的語義向量轉(zhuǎn)換為增強(qiáng)的語義向量。BERT使用MLM(Masked Language Modeling)和NSP(Next Sentence Prediction)兩種預(yù)訓(xùn)練任務(wù),實現(xiàn)多分類任務(wù)的學(xué)習(xí)。作為自然語言處理領(lǐng)域的重要模型,BERT基于先前的模型如ELMo、ULMFiT和GPT,為文本處理帶來了巨大的進(jìn)展。
? ? ? ? LSTM旨在解決循環(huán)神經(jīng)網(wǎng)絡(luò)中的梯度消失和梯度爆炸問題。通過引入門控機(jī)制對循環(huán)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行改進(jìn)。一個LSTM單元包括輸入門、輸出門和遺忘門。遺忘門決定上一時刻的單元狀態(tài)中哪些信息需要丟棄,利用sigmoid激活函數(shù)和輸入進(jìn)行乘積運算;輸入門決定新的信息存入單元狀態(tài)的位置,利用sigmoid激活函數(shù)確定存入位置,并通過tanh函數(shù)生成新的信息;最后,輸出門計算當(dāng)前單元的輸出信息,過程與遺忘門和輸入門類似。LSTM在序列建模方面具有優(yōu)勢,并且具備長期記憶功能。該算法簡單易實現(xiàn),解決了在長序列訓(xùn)練中的梯度問題,但在并行處理方面存在一定的缺點,計算過程相對耗時。
相關(guān)代碼示例:
x = np.array([0.1, 0.2, 0.3, 0.4]) # 輸入向量
h_prev = np.array([0.5, 0.6, 0.7, 0.8]) # 上一時刻的隱藏狀態(tài)
c_prev = np.array([0.9, 1.0, 1.1, 1.2]) # 上一時刻的單元狀態(tài)
# 遺忘門計算
wf = np.random.randn(4, 4) # 遺忘門的權(quán)重矩陣
bf = np.random.randn(4) # 遺忘門的偏置向量
f = sigmoid(np.dot(wf, h_prev) + np.dot(wf, x) + bf) # 遺忘門的輸出
# 輸入門計算
wi = np.random.randn(4, 4) # 輸入門的權(quán)重矩陣
bi = np.random.randn(4) # 輸入門的偏置向量
三、檢測的實現(xiàn)
3.1 數(shù)據(jù)集
? ? ? ? 數(shù)據(jù)集來源包括兩部分:一是公開數(shù)據(jù)集中整理的現(xiàn)有微博謠言數(shù)據(jù),二是從微博平臺未收集的謠言數(shù)據(jù)。公開數(shù)據(jù)集采用了公開的微博謠言數(shù)據(jù)集,該數(shù)據(jù)集包含了從新浪微博社區(qū)管理中心的不實信息板塊采集的謠言信息。然而,由于公開數(shù)據(jù)集中的數(shù)據(jù)主題較為廣泛,不具有針對性,利用爬蟲技術(shù)從新浪微博社區(qū)管理中心的不實信息板塊獲取了最新的謠言數(shù)據(jù)。
?
3.3 實驗及結(jié)果分析
? ? ? ? 微博內(nèi)容的真實性可以從兩個方面進(jìn)行判斷:一是通過微博內(nèi)容本身進(jìn)行分析,二是通過微博發(fā)布者的個人信息進(jìn)行判斷。微博用戶的個人信息包括注冊時填寫的信息以及賬號運營后產(chǎn)生的其他信息。謠言的傳播者可能是水軍、機(jī)器人賬號或微博小號,它們通常信息不完整,缺乏個人描述,粉絲數(shù)、關(guān)注數(shù)和發(fā)布微博數(shù)也較少。從微博用戶中提取了注冊時間、信用情況等12個特征用于分析,具體特征內(nèi)容可參考表格。通過綜合分析微博內(nèi)容和發(fā)布者的個人信息,可以對微博內(nèi)容的真實性進(jìn)行初步判斷。
? ? ? ? 為了增加謠言的傳播力度,謠言制造者通常會通過謠言的文本內(nèi)容來激發(fā)強(qiáng)烈的情緒或負(fù)面情感,以引起更多人的關(guān)注。這類謠言常常使用驚嘆號、問號等標(biāo)點符號以及表情符號,以表達(dá)強(qiáng)烈的情感,如驚訝、憤怒等,并通過@某些微博大V的方式來擴(kuò)大謠言的影響力。基于微博文本內(nèi)容的特征,可以提取表情符號、質(zhì)疑詞等特征。
? ? ? ? 在社交平臺上,一條消息的傳播過程形成了一種樹狀結(jié)構(gòu),被稱為傳播樹,可以表示為T = <V,E>。在傳播樹中,根節(jié)點代表消息的發(fā)帖用戶,其他節(jié)點代表消息在傳播過程中被轉(zhuǎn)發(fā)的用戶。邊表示用戶之間的轉(zhuǎn)發(fā)關(guān)系,例如,從用戶u0到用戶u1存在一條邊,表示用戶u1轉(zhuǎn)發(fā)了用戶u0的消息。
? ? ? ? 通過對1020條謠言原文本數(shù)據(jù)進(jìn)行詞云分析,我們提取了詞頻較高的關(guān)鍵詞,并繪制了詞云圖。從圖中可以觀察到一些引人注目且具有煽動力的詞或詞組,如“垃圾”、“演技差”、“糟糕”等,這些詞引起了廣泛的關(guān)注和大量的討論。特別是在電視劇熱播期間,人們對電視劇的實際情況非常關(guān)注,尤其關(guān)注電視劇的質(zhì)量(例如豆瓣評分)和劇情的發(fā)展趨勢。這說明在電視劇熱播期間,人們對繁花電視劇的質(zhì)量非常關(guān)注,也關(guān)注演員是否能夠還原原著主人公的形象。
? ? ? ? 謠言和非謠言在傳播趨勢方面存在顯著差異。謠言的轉(zhuǎn)發(fā)時間持續(xù)更長,并且存在多個轉(zhuǎn)發(fā)的爆發(fā)點;而非謠言在發(fā)布幾小時內(nèi)會產(chǎn)生轉(zhuǎn)發(fā)的爆發(fā)點,之后轉(zhuǎn)發(fā)量逐漸減小,并且通常不會再次出現(xiàn)爆發(fā)點。
創(chuàng)作不易,歡迎點贊、關(guān)注、收藏。文章來源:http://www.zghlxwxcb.cn/news/detail-785461.html
畢設(shè)幫助,疑難解答,歡迎打擾!文章來源地址http://www.zghlxwxcb.cn/news/detail-785461.html
最后
到了這里,關(guān)于畢業(yè)設(shè)計選題:基于機(jī)器學(xué)習(xí)的虛假新聞識別系統(tǒng)--以繁花為例 人工智能 python的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!