題目可見文章:(20條消息) 如何治理“網(wǎng)絡(luò)暴力” 在人類文明不斷發(fā)展向前的進(jìn)程中,大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而來(lái)。 數(shù)學(xué)建模,90%成品論文,附附件、原題、代碼 注,水平有限,非廣告,僅供交流參考,歡迎朋友們指出問(wèn)題~_區(qū)分a市網(wǎng)民的價(jià)值觀念群體_feiwu小天才的博客-CSDN博客
摘要
隨著互聯(lián)網(wǎng)的普及,廣大網(wǎng)絡(luò)用戶獲得了更方便,更廣泛的表達(dá)渠道。但由于互聯(lián)網(wǎng)的匿名性,使得網(wǎng)絡(luò)社區(qū)也出現(xiàn)了無(wú)序的情緒宣泄和肆意的網(wǎng)絡(luò)暴力。表達(dá)有邊界,流量有底線。盡管如此,互聯(lián)網(wǎng)也并非法外之地。2022 年初,中央網(wǎng)信辦開展了“清朗·2022 年春節(jié)網(wǎng)絡(luò)環(huán)境整治”專項(xiàng)行動(dòng),重點(diǎn)整治的五個(gè)方面任務(wù)中“網(wǎng)絡(luò)暴力、散播謠言等問(wèn)題”首當(dāng)其沖。
某社交平臺(tái)在A市試點(diǎn)抽樣統(tǒng)計(jì)了近一個(gè)月內(nèi)匿名網(wǎng)民在社交平臺(tái)上公開發(fā)表的言論,并對(duì)常用詞條出現(xiàn)的次數(shù)進(jìn)行統(tǒng)計(jì)。另外,在同一個(gè)月內(nèi),該平臺(tái)還對(duì)分享了地理位置的匿名網(wǎng)民的公開言論也以社區(qū)為單位進(jìn)行了統(tǒng)計(jì),題目要求基于二者數(shù)據(jù)進(jìn)行建模研究。
針對(duì)問(wèn)題一,由于有相同的價(jià)值觀的網(wǎng)民其語(yǔ)言的情感色彩往往有趨同性,題目要求根據(jù)數(shù)據(jù)1,建立適當(dāng)?shù)哪P停员銋^(qū)分A市網(wǎng)民的價(jià)值觀念群體。首先基于數(shù)據(jù)類型,判斷應(yīng)選擇Q型聚類,此處以輪廓系數(shù)作為聚類數(shù)量選取標(biāo)準(zhǔn),通過(guò)K-Means聚類方法來(lái)對(duì)數(shù)據(jù)進(jìn)行聚類,再使用PCA方法 將數(shù)據(jù)降維為二維數(shù)據(jù)進(jìn)行數(shù)據(jù)可視化展示,驗(yàn)證得出聚類結(jié)果較好。
針對(duì)問(wèn)題二,題目給出前提“‘鍵盤俠’是相對(duì)少數(shù)存在的群體”,以此為標(biāo)準(zhǔn),根據(jù)問(wèn)題一給出的聚類結(jié)果,將少數(shù)群體判斷為“可能存在的‘鍵盤俠’們”,題目要求構(gòu)建合理算法識(shí)別出可能存在的“鍵盤俠”們,首先將“鍵盤俠”和“非鍵盤俠”分別定義標(biāo)簽“1”、“0”,使用隨機(jī)森林算法進(jìn)行分類訓(xùn)練,所得模型識(shí)別準(zhǔn)確度可達(dá)100%,保存模型,此模型即為所求。同時(shí)題目要求給出“鍵盤俠”們與其他群體不同的詞條,此處通過(guò)主成分分析進(jìn)行主成分提取,即“鍵盤俠”們與其他群體不同的詞條。
針對(duì)問(wèn)題三,每個(gè)社區(qū)由不同群體的網(wǎng)民組成,題目要求基于此,根據(jù)附件2所給數(shù)據(jù),結(jié)合問(wèn)題一中結(jié)果,建立算法分析每個(gè)社區(qū)中不同群體網(wǎng)民的比例。在不存在其他任何因素影響的前提下,將社區(qū)特征屬于某中分類的概率視作社區(qū)中該中網(wǎng)民的比例。根據(jù)問(wèn)題二的結(jié)果,將“鍵盤俠”聚為一類,共41類,與問(wèn)題一中聚類結(jié)果結(jié)合,得到新的聚類結(jié)果,使用隨機(jī)森林分類訓(xùn)練,所得模型識(shí)別準(zhǔn)確度可達(dá)100%,調(diào)用此模型,得到預(yù)測(cè)結(jié)果中分屬每種類別的概率,即該社區(qū)中屬于此網(wǎng)民種類的比例,即可得到不同社區(qū)中不同群體網(wǎng)民的組成比例。
針對(duì)問(wèn)題四,題目要求基于提供的數(shù)據(jù)建立算法,對(duì) A 市進(jìn)行較為合理的功能區(qū)劃分,并針對(duì)劃分的結(jié)果提出治理“網(wǎng)絡(luò)暴力”的解決方案或者建議。假設(shè)同一位置可以同時(shí)具有幾種功能,即同一區(qū)域可分屬不同功能區(qū)。首先采用K-Means方法對(duì)所有社區(qū)進(jìn)行詞條特征聚類,對(duì)于同一類別的社區(qū),采用DBSCAN聚類進(jìn)行空間聚類,即可得到不同的功能區(qū)域劃分?;谝陨?,通過(guò)分析即可給出合理建議。
關(guān)鍵詞:K-Means聚類分析、MAD、PCA、隨機(jī)森林分類預(yù)測(cè)、DBSCAN空間聚類
一、問(wèn)題重述
1.1問(wèn)題背景
? ? ? ?隨著新媒體環(huán)境的到來(lái),網(wǎng)民獲取信息的途徑越來(lái)越多樣化,表達(dá)自己意見的方式更為便捷,但是也產(chǎn)生了諸多問(wèn)題,比如網(wǎng)絡(luò)暴力,其對(duì)社會(huì)的負(fù)面影響不容小覷,“網(wǎng)絡(luò)暴力”與傳統(tǒng)意義中的暴力不同,其發(fā)源于網(wǎng)絡(luò)公共領(lǐng)域,主要通過(guò)非法利用他人信息、散布謠言、惡意炒作、言語(yǔ)攻擊等方式對(duì)網(wǎng)絡(luò)事件當(dāng)事人施暴,甚至將線上暴力轉(zhuǎn)到線下,侵犯當(dāng)事人的個(gè)人隱私甚至威脅到人身安全,踐踏了法律的尊嚴(yán),破壞了和諧健康的社會(huì)環(huán)境。2022 年初,中央網(wǎng)信辦開展了為期 1 個(gè)月的“清朗·2022 年春節(jié)網(wǎng)絡(luò)環(huán)境整治”專項(xiàng)行動(dòng),其中重點(diǎn)整治的五個(gè)方面任務(wù),排在首位的就是“網(wǎng)絡(luò)暴力、散播謠言等問(wèn)題”。
1.2問(wèn)題重述
? ? ? ?在社交平臺(tái)上發(fā)表的言論在一定程度上能夠反映出一個(gè)人的價(jià)值觀,因此有相同的價(jià)值觀的網(wǎng)民其語(yǔ)言的情感色彩往往有趨同性。問(wèn)題一要求我們基于此對(duì)附件1中的數(shù)據(jù)進(jìn)行不同價(jià)值觀念群體的區(qū)分。
? ? ? “鍵盤俠”在網(wǎng)民中是少數(shù)存在的群體,題目二要求我們基于此前提,結(jié)合問(wèn)題一中的結(jié)果,建立識(shí)別算法,可以識(shí)別出潛在于網(wǎng)絡(luò)中的“鍵盤俠”們,同時(shí)給出“鍵盤俠”們與其他群體不同的詞條。
? ? ? ?每個(gè)社區(qū)都是由不同群體的網(wǎng)民組成的。附件2是不同社區(qū)(一個(gè)社區(qū)包含多個(gè)網(wǎng)民)在一個(gè)月內(nèi)的發(fā)言的統(tǒng)計(jì)數(shù)據(jù)。問(wèn)題四要求一句附件2的數(shù)據(jù),同時(shí)結(jié)合問(wèn)題1的結(jié)果,給出每個(gè)社區(qū)不同群體的組成比例。
? ? ? 城市能夠根據(jù)不同的功能劃分為多個(gè)區(qū)域,其中不同的功能區(qū)由附近多個(gè)小的社區(qū)組成,而同一功能區(qū)的網(wǎng)絡(luò)言論往往有一些相似性。問(wèn)題四要求我們基于提供的數(shù)據(jù)建立可以第A市進(jìn)行合理的功能區(qū)劃分的算法,并提出治理“網(wǎng)絡(luò)暴力”的解決方案或者建議。
二、分析方法與過(guò)程
2.1問(wèn)題分析
? ? ? 針對(duì)問(wèn)題一,題目要求對(duì)附件1中的數(shù)據(jù)以不同網(wǎng)民為單位,以不同詞條為不同特征進(jìn)行多特征聚類分析,基于數(shù)據(jù)特征,應(yīng)采用Q型聚類,則選擇K-Means聚類方法來(lái)對(duì)數(shù)據(jù)進(jìn)行聚類。由于不清晰應(yīng)聚類數(shù)量,則選擇輪廓系數(shù)(silhouette_score)作為判斷,繪制輪廓系數(shù)折線圖觀察不同聚類數(shù)量的輪廓系數(shù)結(jié)果,選取折現(xiàn)下降趨勢(shì)趨于穩(wěn)定后的最小值為最優(yōu)聚類數(shù)量,再據(jù)此數(shù)量進(jìn)行聚類分析,得到結(jié)果后用PCA方法將數(shù)據(jù)特征的維度降至2維以方便數(shù)據(jù)聚類后展示。
? ? ? ?針對(duì)問(wèn)題二,題目給出前提“‘鍵盤俠’是相對(duì)少數(shù)存在的群體”,以此為標(biāo)準(zhǔn),根據(jù)問(wèn)題一給出的聚類結(jié)果,將少數(shù)群體判斷為“可能存在的‘鍵盤俠’們”。題目要求構(gòu)建合理算法識(shí)別出可能存在的“鍵盤俠”們,首先將“鍵盤俠”和“非鍵盤俠”分別定義標(biāo)簽“1”、“0”,使用隨機(jī)森林算法進(jìn)行分類訓(xùn)練,所得模型識(shí)別準(zhǔn)確度可達(dá)100%,保存模型,此模型即為所求。同時(shí)題目要求給出“鍵盤俠”們與其他群體不同的詞條,此處要求使用合理的方法提取出對(duì)對(duì)判斷某網(wǎng)民是否為“鍵盤俠”的主要詞條,可以采取主成分分析法,對(duì)標(biāo)簽為“1”的數(shù)據(jù)進(jìn)行主成分分析,得到結(jié)果中,影響較大的詞條即為所求。
? ? ? ?針對(duì)問(wèn)題三,每個(gè)社區(qū)由不同群體的網(wǎng)民組成,題目要求基于此,根據(jù)附件2所給數(shù)據(jù),結(jié)合問(wèn)題一中結(jié)果,建立算法分析每個(gè)社區(qū)中不同群體網(wǎng)民的比例。在不存在其他任何因素影響的前提下,將社區(qū)特征屬于某中分類的概率視作社區(qū)中該中網(wǎng)民的比例。根據(jù)問(wèn)題二的結(jié)果,將“鍵盤俠”聚為一類,與問(wèn)題一中聚類結(jié)果結(jié)合,得到新的聚類結(jié)果,即將問(wèn)題一結(jié)果列表中的所有在第二問(wèn)判斷為“1”的數(shù)據(jù)合并,人數(shù)相加,合成新的類別。使用隨機(jī)森林分類訓(xùn)練,所得模型識(shí)別準(zhǔn)確度依舊可達(dá)100%,調(diào)用此模型,得到預(yù)測(cè)結(jié)果中分屬每種類別的概率,即該社區(qū)中屬于此網(wǎng)民種類的比例,即可得到不同社區(qū)中不同群體網(wǎng)民的組成比例。
? ? ? ?針對(duì)問(wèn)題四,題目要求基于提供的數(shù)據(jù)建立算法,對(duì) A 市進(jìn)行較為合理的功能區(qū)劃分,并針對(duì)劃分的結(jié)果提出治理“網(wǎng)絡(luò)暴力”的解決方案或者建議。假設(shè)同一位置可以同時(shí)具有幾種功能,即同一區(qū)域可分屬不同功能區(qū)。首先采用K-Means方法對(duì)所有社區(qū)進(jìn)行詞條特征聚類,對(duì)于同一類別的社區(qū),采用DBSCAN聚類進(jìn)行空間聚類,即可得到不同的功能區(qū)域劃分?;谝陨希ㄟ^(guò)分析即可給出合理建議。
三、模型假設(shè)
- 假設(shè)僅根據(jù)所給數(shù)據(jù)中的特征,足以判斷某網(wǎng)民是否為“可能存在的‘鍵盤俠’”。
- 假設(shè)在輸入被預(yù)測(cè)值時(shí),輸出的此被預(yù)測(cè)值屬于每個(gè)種類的概率,可以認(rèn)為在社區(qū)中有同等比例的網(wǎng)民屬于該種類。
- 假設(shè)同一社區(qū)可以同屬不同功能區(qū),即同一社區(qū)可以同時(shí)具有不同功能,即同一社區(qū)可同時(shí)歸為不同功能區(qū)內(nèi)。
- 假設(shè)無(wú)任何其他因素對(duì)判斷“鍵盤俠”結(jié)果可能造成影響
四、特征工程
4.1數(shù)據(jù)分析
4.1.1數(shù)據(jù)描述
? ? ? ?附件 1:不同網(wǎng)民在一個(gè)月內(nèi)發(fā)言的統(tǒng)計(jì)數(shù)據(jù)。行代表網(wǎng)民(netizen),共隨機(jī)抽樣了8449個(gè)網(wǎng) 民。列代表詞條(word),共有 17681 個(gè)不同的詞條。數(shù)據(jù)中每一個(gè)元素代表統(tǒng)計(jì)得到的某一個(gè)網(wǎng) 民發(fā)言的某個(gè)詞的個(gè)數(shù)(單位是百)。
? ? ? 附件 2:不同社區(qū)(一個(gè)社區(qū)包含多個(gè)網(wǎng)民)在一個(gè)月內(nèi)的發(fā)言的統(tǒng)計(jì)數(shù)據(jù)。行代表社區(qū)(community) 共統(tǒng)計(jì)了 604 個(gè)社區(qū)的發(fā)言。列代表詞條(word),共有 17681 個(gè)不同的詞條。最后一列(position) 代表該社區(qū)的位置坐標(biāo)(坐標(biāo)是用 x 號(hào)隔開,例如 26.96x7.97 代表(26.96,7.97))。數(shù)據(jù)中每一個(gè)元素代表統(tǒng)計(jì)得到的某一個(gè)社區(qū)內(nèi)的網(wǎng)民發(fā)言的某個(gè)詞的個(gè)數(shù)(單位是百)。
? ? ? ?其中,為了去除詞條的敏感性,該數(shù)據(jù)不提供每一詞條的具體含義。并且為了保護(hù)共享地理位置的 網(wǎng)民隱私,附件 2 只測(cè)量了社區(qū)總體網(wǎng)民發(fā)言的次數(shù)。
4.1.2 描述性統(tǒng)計(jì)
? ? ? ?針對(duì)附件1,首先使用Jupter Notebook軟件對(duì)數(shù)據(jù)進(jìn)行整體查看。得到附件一表格共8449行,17682列,即共有8449名網(wǎng)民參與統(tǒng)計(jì),共統(tǒng)計(jì)了17681個(gè)詞條,和附件1數(shù)據(jù)描述相同,可以進(jìn)行下一步計(jì)算。再調(diào)用describe()函數(shù)計(jì)算出附件1中所給數(shù)據(jù)中的非空值數(shù)(count)、平均值(mean)、標(biāo)準(zhǔn)差(std)、最大值(max)、最小值(min)、(25%、50%、75%)分位數(shù)8個(gè)指標(biāo),由于數(shù)據(jù)量巨大,詳見于附錄—支撐材料—計(jì)算結(jié)果文件—描述性統(tǒng)計(jì)1.csv。
? ? ? 針對(duì)附件2,首先使用Jupter Notebook軟件對(duì)數(shù)據(jù)進(jìn)行整體查看。得到附件一表格共604行,17682列,即共有604個(gè)社區(qū)參與統(tǒng)計(jì),共統(tǒng)計(jì)了17681個(gè)詞條,和附件2數(shù)據(jù)描述相同,可以進(jìn)行下一步計(jì)算。再調(diào)用describe()函數(shù)計(jì)算出附件1中所給數(shù)據(jù)中的非空值數(shù)(count)、平均值(mean)、標(biāo)準(zhǔn)差(std)、最大值(max)、最小值(min)、(25%、50%、75%)分位數(shù)8個(gè)指標(biāo),由于數(shù)據(jù)量巨大,詳見于附錄—支撐材料—計(jì)算結(jié)果文件—描述性統(tǒng)計(jì)2.csv。
4.2數(shù)據(jù)預(yù)處理
4.2.1缺失值處理
? ? ? ? 現(xiàn)實(shí)生活中,很可能由于種種原因,以上數(shù)據(jù)產(chǎn)生缺失。
? ? ? ?針對(duì)附件1,由描述性統(tǒng)計(jì)1結(jié)果可知,所給數(shù)據(jù)中并非缺失數(shù)據(jù)均等于8449,不存在缺失值,所以暫不考慮由缺失值帶來(lái)的影響,即不進(jìn)行缺失值處理操作。
? ? ? ?針對(duì)附件2,由描述性統(tǒng)計(jì)2結(jié)果可知,所給數(shù)據(jù)中并非缺失數(shù)據(jù)均等于604,不存在缺失值,所以暫不考慮由缺失值帶來(lái)的影響,即不進(jìn)行缺失值處理操作。
4.2.2異常值處理
? ? ? 針對(duì)附件1,由描述性統(tǒng)計(jì)可知,所給數(shù)據(jù)中不存在缺失值,現(xiàn)只須對(duì)數(shù)據(jù)盡行異常值處理,因?yàn)閿?shù)據(jù)與時(shí)間并無(wú)關(guān)系,不存在時(shí)間序列,所以選擇進(jìn)行替換極值處理的方法進(jìn)行異常值處理。由于MAD法對(duì)樣本量不敏感,即使是在大規(guī)模數(shù)據(jù)中依然可行,且MAD法對(duì)異常值不敏感,不會(huì)因?yàn)樘厥獾漠惓V刀鴮?dǎo)致估計(jì)的嚴(yán)重偏差,故使用絕對(duì)中位差法進(jìn)行去極值處理,處理方法如下圖所示。
圖1.MAD處理方法
? ? ? ?一般去極值的原理為先確定該項(xiàng)指標(biāo)的上下限,然后找出超出限值的數(shù)據(jù),并將它們的值統(tǒng)統(tǒng)變?yōu)橄拗?,其中離群值及限值演示圖如下所示。
圖2.離群值及限值演示圖
? ? ? ?由于樣本量巨大,暫不在文中展示結(jié)果,數(shù)據(jù)處理結(jié)果詳見于附錄—支撐材料—特征工程計(jì)算結(jié)果—MAD附件1處理后描述性統(tǒng)計(jì).csv。
? ? ? 同理,針對(duì)問(wèn)題二,使用MAD方法進(jìn)行異常值處理,數(shù)據(jù)處理后描述性統(tǒng)計(jì)結(jié)果詳見于附錄—支撐材料—特征工程計(jì)算結(jié)果—MAD附件2處理后描述性統(tǒng)計(jì).csv。
?五、第一問(wèn)模型建立及求解
? ? ? ?由于在社交平臺(tái)上發(fā)表的言論在一定程度上能夠反映出一個(gè)人的價(jià)值觀,所以有相同的價(jià)值觀的網(wǎng)民其語(yǔ)言的情感色彩往往有趨同性。基于此,問(wèn)題一要求我們基于此對(duì)附件1中的數(shù)據(jù)進(jìn)行不同價(jià)值觀念群體的區(qū)分??梢圆捎肒-Means的方法進(jìn)行對(duì)A市網(wǎng)民進(jìn)行聚類。
5.1K-Means算法簡(jiǎn)介
5.1.1K-Means算法
? ? ? ?K-means算法也稱之為均值算法,是聚類分析中比較成熟的方法,其中心思想是在歐幾里得空間中劃分個(gè)數(shù)據(jù)對(duì)象,通過(guò)初始中心策略實(shí)現(xiàn)對(duì)象選擇,使其成為聚類中心。再對(duì)其他對(duì)象計(jì)算和每個(gè)質(zhì)心距離,使用最近的歸類,再次對(duì)每個(gè)簇?cái)?shù)據(jù)平均值進(jìn)行計(jì)算,能夠得到全新聚類中心,對(duì)此過(guò)程反復(fù)進(jìn)行迭代計(jì)算,直到全部聚類收斂,具體算法流程如附錄表1所示。
? ? ? ?一般來(lái)說(shuō),聚類數(shù)的確定是K-means算法的重要部分,很多研究根據(jù)行業(yè)的經(jīng)驗(yàn)來(lái)確定聚類數(shù),但是這種方法帶有主觀性,結(jié)果不一定是數(shù)據(jù)的真實(shí)聚類數(shù),因此研究領(lǐng)域會(huì)使用數(shù)據(jù)自身來(lái)確定真實(shí)的聚類數(shù)。通過(guò)數(shù)據(jù)自身來(lái)確定聚類數(shù)的方法有2種,一種是誤差平方和(SSE)方法,另一種是輪廓系數(shù)法,此處使用輪廓系數(shù)法進(jìn)行聚類數(shù)量確定。
5.1.2輪廓系數(shù)法
? ? ? ?該方法是以確定樣本的輪廓系數(shù)S為目標(biāo),某個(gè)樣本點(diǎn)Xi的輪廓系數(shù)S定義如下式:
? ? ? ?式中,α是Xi與相同簇的其他樣本的平均距離,稱為凝聚度,b是Xi與最近簇中所有樣本的平均距離,稱為分離度。
求出所有樣本的輪廓系數(shù)后再求平均值就得到了平均輪廓系數(shù)。平均輪廓系數(shù)的取值范圍為[-1,1],且簇內(nèi)樣本的距離越近,簇間樣本距離越遠(yuǎn),平均輪廓系數(shù)越大,聚類效果越好。這樣平均輪廓系數(shù)最大的便是最佳聚類數(shù)。本研究同時(shí)使用2種聚類數(shù)的標(biāo)準(zhǔn),并選取其中較為合適的為聚類標(biāo)準(zhǔn)。
5.2最優(yōu)聚類系數(shù)選取
? ? ? ?由于A市網(wǎng)民課分成的類別數(shù)量為未知數(shù),所以并不能在K-Means聚類分析中直接賦予種類數(shù)量,因此選擇一個(gè)衡量聚類結(jié)果好壞的指標(biāo)作為標(biāo)準(zhǔn),從而根據(jù)該指標(biāo)選取合適的聚類數(shù)量是較合理的方法,此處選用輪廓系數(shù)作為評(píng)價(jià)指標(biāo)。
? ? ? 我們采用循環(huán)的方式計(jì)算從2至100類K-Means聚類,同時(shí)計(jì)算出附件1數(shù)據(jù)的輪廓系數(shù),得到最優(yōu)聚類數(shù)量選取圖如下。
圖3.最優(yōu)聚類數(shù)量選取圖?
? ? ? 通過(guò)上圖可以看出,大致最有數(shù)量位于90至100之間,根據(jù)程序,輸出最優(yōu)聚類數(shù)量為94。
5.3模型建立及求解
? ? ? ?得到最優(yōu)聚類數(shù)量之后,對(duì)附件1數(shù)據(jù)進(jìn)行聚類,由于直接計(jì)算得出的結(jié)果數(shù)據(jù)過(guò)于龐大,暫不在文中全部展示,詳見于附錄—支撐材料—計(jì)算結(jié)果文件—new_df最優(yōu)聚類.csv。
表1.部分聚類結(jié)果展示
? ? ? ?為方便展示結(jié)果展示,現(xiàn)將多維特征經(jīng)過(guò)PCA(主成分分析法)算法降至二維,繪制散點(diǎn)圖如下所示。
圖4.最優(yōu)聚類結(jié)果二維展示圖
? ? ? ?由最優(yōu)聚類二維散點(diǎn)圖可以看出,同一類別的居民分布較近,且正相關(guān)趨勢(shì)較大,具有較強(qiáng)可信度。??
六、第二問(wèn)模型建立及求解
? ? ? ?問(wèn)題二要求結(jié)合問(wèn)題1的計(jì)算結(jié)果,識(shí)別可能存在的“鍵盤俠”們,并給出“鍵盤俠”們與其他群體不同的詞條。由于“鍵盤俠”是相對(duì)少數(shù)存在的群體,所以選取聚類后數(shù)量較少的幾個(gè)類別相加,認(rèn)作“可能存在的‘鍵盤俠’”,對(duì)所有“可能存在的‘鍵盤俠’”的詞條分別做主成分分析,即可得出其與其他群體不同的詞條。使用隨機(jī)森林預(yù)測(cè)進(jìn)行模型訓(xùn)練,得到“可能存在的‘鍵盤俠’”預(yù)測(cè)算法。
6.1 “可能存在的‘鍵盤俠’”選取
? ? ? 由問(wèn)題一聚類結(jié)果可以得到不同類別中網(wǎng)民的數(shù)量,制作不同種類網(wǎng)民數(shù)量柱狀圖,如下所示。
圖5.不同種類網(wǎng)民數(shù)量柱狀圖
? ? ? ?現(xiàn)實(shí)生活中,由于人與人之間興趣、愛好、價(jià)值觀等存在偏差,所以鍵盤俠也應(yīng)存在不同種類,且“可能存在的‘鍵盤俠’”為數(shù)量較少的存在,依據(jù)不同種類網(wǎng)民數(shù)量柱狀圖,不難發(fā)現(xiàn)從種類序號(hào)72至55,柱狀圖呈較快下降趨勢(shì),且每個(gè)種類人數(shù)較多,之后柱狀圖成緩慢下降趨勢(shì),且人數(shù)較少,暫取種類58、28、14、24、54、3、80、40、87、32、81、46、53、12、1、57、15、4、62、90、82、33、29、67、52、78、10、42、48、70為“可能存在的‘鍵盤俠’”。設(shè)“可能存在的‘鍵盤俠’”為1,其他群體為0,則“可能存在的‘鍵盤俠’”數(shù)量為1082,普通網(wǎng)民數(shù)量為7367,得到餅狀圖如下。
圖6.潛在“鍵盤俠”與普通網(wǎng)民數(shù)量分布餅狀圖?
6.2識(shí)別模型的建立
6.2.1隨機(jī)森林介紹
2001年Leo Breiman把分類樹組合成隨機(jī)森林(Random Forest,RF),即在變量和數(shù)據(jù)的使用上進(jìn)行隨機(jī)化,得到一定數(shù)量的分類樹,再將分類樹的結(jié)果進(jìn)行匯總,提出隨機(jī)森林算法。
決策樹模型結(jié)構(gòu)與樹的結(jié)構(gòu)類似,分為根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)和葉子節(jié)點(diǎn)。根節(jié)點(diǎn)為全部特征,內(nèi)部節(jié)點(diǎn)為某一特征,葉子節(jié)點(diǎn)為預(yù)測(cè)結(jié)果,通過(guò)不斷分枝和生長(zhǎng)得到最終結(jié)果。
隨機(jī)森林回歸算法以決策樹為基礎(chǔ),從原始訓(xùn)練數(shù)據(jù)集中有放回的隨機(jī)抽取K個(gè)新的數(shù)據(jù)集,生成K顆決策樹,形成隨機(jī)森林,最終預(yù)測(cè)結(jié)果為所有決策樹預(yù)測(cè)結(jié)果的均值。模型的基本流程如圖3,算法基本步驟如下:
- 從原始訓(xùn)練集S中應(yīng)用bootstrap法有放回的隨機(jī)抽取N個(gè)數(shù)據(jù)集,產(chǎn)生N顆決策樹。
- 決策樹采用CART決策樹,每次生長(zhǎng)分支時(shí),從M個(gè)特征屬性中隨機(jī)選取m個(gè)特征(m≤M),衡量分支質(zhì)量的指標(biāo)為均方誤差(mean squared error,MSE),公式如下:
式中,N為樣本數(shù)量;i是一個(gè)數(shù)據(jù)樣本;fi是模型預(yù)測(cè)值;yi是樣本i的實(shí)際值。
? ? 3. 依據(jù)均方誤差選取最優(yōu)特征最大限度分支生長(zhǎng),中間過(guò)程不進(jìn)行剪枝。
? ? 4.?將所有決策樹的預(yù)測(cè)結(jié)果取均值則為最終預(yù)測(cè)結(jié)果,即:
?6.2.2模型的建立
? ? ? 本文使用Jupter Notebook對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行預(yù)測(cè),即識(shí)別“可能存在的‘鍵盤俠’”的合理算法。該算法精確度可達(dá)100%,具體結(jié)果如下表所示。
表2. 問(wèn)題二隨機(jī)森林模型精確度展示表
? ? ? ?訓(xùn)練好的模型保存為“model.pkl”,詳見于附件—支撐材料—第二問(wèn)結(jié)果。
? ? ? ?使用joblib.load()即可調(diào)用此模型,使用predict()函數(shù)即可開始識(shí)別是否為“可能存在的‘鍵盤俠’”(結(jié)果為1即為是,0即為不是)。
七、第三問(wèn)模型建立及求解
? ? ? ?每個(gè)社區(qū)由不同群體的網(wǎng)民組成。問(wèn)題三要求根據(jù)附件2中的數(shù)據(jù),并結(jié)合問(wèn)題1的結(jié)果,建立算法分析每個(gè)社區(qū)中不同群體網(wǎng)民的組成比例。
? ? ? ? ? ?
圖7.整合“鍵盤俠”后個(gè)群體數(shù)量展示玫瑰圖
7.1模型的建立及求解?
? ? ? ?本文使用Jupter Notebook對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行預(yù)測(cè),即不同類別網(wǎng)民的合理算法。該算法精確度可達(dá)100%,具體結(jié)果如下表所示。
表3. 問(wèn)題三隨機(jī)森林模型精確度展示表
precision |
recall |
f1-score |
support |
|
accuracy |
1.00 |
1690 |
||
macro avg |
1.00 |
0.46 |
1.00 |
1690 |
weighted avg |
1.00 |
1.00 |
1.00 |
1690 |
? ? ? 訓(xùn)練好的模型保存為“model3.pkl”,詳見于附件—支撐材料—第二問(wèn)結(jié)果。
? ? ? 使用joblib.load()即可調(diào)用此模型,使用predict()函數(shù)即可開始判斷網(wǎng)民所屬種類。
假設(shè)在輸入被預(yù)測(cè)值時(shí),輸出的此被預(yù)測(cè)值屬于每個(gè)種類的概率,可以認(rèn)為在社區(qū)中有同等比例的網(wǎng)民屬于該種類。調(diào)用sklearn包中的predict_proba()即可得到每各社區(qū)中不同類別人群的比例。詳見于附錄—支撐材料—第三問(wèn)計(jì)算結(jié)果—各社區(qū)不同種類網(wǎng)民比例.csv。
八、第四問(wèn)模型建立及求解
? ? ? ?城市能夠根據(jù)不同的功能劃分為多個(gè)區(qū)域(如大學(xué)城,商業(yè)區(qū)等等),不同的功能區(qū)由附近多個(gè)小的社區(qū)組成。同一功能區(qū)的網(wǎng)絡(luò)言論往往有一些相似性(如大學(xué)城的學(xué)生較多,所發(fā)表的言論也有相似之處)。第四問(wèn)要求基于數(shù)據(jù)建立算法,對(duì) A 市進(jìn)行較為合理的功能區(qū)劃分,并針對(duì)劃分的結(jié)果提出治理“網(wǎng)絡(luò)暴力”的解決方案或者建議。
8.1 數(shù)據(jù)可視化
? ? ? ?將附件2中的position數(shù)據(jù)按分隔符為x進(jìn)行分列,再繪制坐標(biāo)圖如下所示。
圖8.社區(qū)坐標(biāo)圖
8.1 K-Means詞條特征聚類分析
? ? ? 首先應(yīng)進(jìn)行最優(yōu)聚類數(shù)量分析,由圖可知,最優(yōu)數(shù)量接近50,根據(jù)程序得出準(zhǔn)確數(shù)值為48,即以48為聚類數(shù)量可得到較好的聚類結(jié)果。
? ? ? ? ? ? ? ? ??
圖9.社區(qū)最優(yōu)聚類數(shù)量選取圖
圖10.社區(qū)最優(yōu)聚類二維展示圖
8.2 DBSCAN地點(diǎn)特征聚類
? ? ? 按照K-MEANS聚類分析中區(qū)分好的不同類別,將各個(gè)社區(qū)坐標(biāo)散點(diǎn)圖繪制如下。
圖11.社區(qū)不同類別地理位置散點(diǎn)圖
? ? ?因?yàn)槌鞘心軌蚋鶕?jù)不同的功能劃分為多個(gè)區(qū)域(如大學(xué)城,商業(yè)區(qū)等等),不同的功能區(qū)由附近多個(gè)小的社區(qū)組成。假設(shè)同一個(gè)社區(qū)可以同屬多個(gè)功能區(qū),將每一類別單獨(dú)進(jìn)行距離聚類。由于類別較多,現(xiàn)只拿類別0做示例。
圖12.社區(qū)類別0地理位置散點(diǎn)圖
? ? ? ?K-Means聚類后類別0DBSCAN聚類后結(jié)果如下圖所示。
????????圖13.社區(qū)類別0的DBSCAN聚類后地理位置散點(diǎn)圖
? ? ? ?如圖所示,在K-Means聚類后再經(jīng)過(guò)DBSCAN經(jīng)過(guò)空間聚類,即可劃分出2個(gè)功能區(qū),其余聚類詳見附錄—支撐材料—問(wèn)題四計(jì)算結(jié)果—功能區(qū)劃分0-47.csv。
8.3 治理“網(wǎng)絡(luò)暴力”的建議
? ? ? ?1. 完善網(wǎng)絡(luò)法律體系,目前網(wǎng)絡(luò)環(huán)境已發(fā)生重大變化,社交平臺(tái)流量與量激增,原有司法解釋在行為特征、轉(zhuǎn)發(fā)條數(shù)的立案標(biāo)準(zhǔn)等方面,均需做出相應(yīng)修改。應(yīng)當(dāng)根據(jù)、微博等主流社交平臺(tái)的信息發(fā)布模式,設(shè)置新的規(guī)范準(zhǔn)則,尤其是立案標(biāo)準(zhǔn)以及作為公訴案件處理的標(biāo)準(zhǔn),使法律規(guī)范更加適應(yīng)當(dāng)今社會(huì)的發(fā)展變化,同時(shí)也能為司法工作人員明確誹謗罪的公訴界限,維護(hù)自訴程序的獨(dú)立價(jià)值,在公共利益與被害人隱私和個(gè)人意愿中取得平衡。
? ? ? 現(xiàn)階段的技術(shù)手段完全可以達(dá)到高精度識(shí)別,并可以建立不同功能去言論識(shí)別系統(tǒng),對(duì)于異常言論及審核,同時(shí)可以及時(shí)線上私信警告的程度。在系統(tǒng)識(shí)別為某網(wǎng)民為可能的“鍵盤俠”或其發(fā)言存在敏感詞匯,立即發(fā)送信息對(duì)其進(jìn)行警告,若再三警告依舊不改正,則依法處理。
? ? ? 2. 網(wǎng)絡(luò)平臺(tái)應(yīng)主動(dòng)自覺承擔(dān)起監(jiān)管責(zé)任。作為社會(huì)信息傳播的重要媒介,應(yīng)該承擔(dān)起引領(lǐng)社會(huì)正能量的社會(huì)責(zé)任,加強(qiáng)對(duì)網(wǎng)絡(luò)用戶發(fā)布信息進(jìn)行審校和管理,強(qiáng)化針對(duì)平臺(tái)和個(gè)人的懲罰機(jī)制建設(shè)。政府應(yīng)該成為網(wǎng)絡(luò)平臺(tái)監(jiān)督的推動(dòng)者,建立網(wǎng)絡(luò)服務(wù)商和網(wǎng)民自覺協(xié)助配合政府監(jiān)管機(jī)制,共同為凈化網(wǎng)絡(luò)環(huán)境保駕護(hù)航。本題中數(shù)據(jù)即為某平臺(tái)提供,若網(wǎng)絡(luò)平臺(tái)都能有此眾自覺監(jiān)督監(jiān)管的責(zé)任,那么從傳播渠道層面即可減少很多的“網(wǎng)絡(luò)暴力”言論。
? ? ? 3.探索建立網(wǎng)絡(luò)實(shí)名制。網(wǎng)絡(luò)實(shí)名制從網(wǎng)絡(luò)主體入手,約束網(wǎng)民自覺遵守網(wǎng)絡(luò)公共道德,建立網(wǎng)絡(luò)誠(chéng)信,從源頭上規(guī)范網(wǎng)民網(wǎng)絡(luò)行為,畢竟,實(shí)名網(wǎng)民在發(fā)聲前會(huì)考慮自己的身份及影響。網(wǎng)絡(luò)實(shí)名制將虛擬的網(wǎng)絡(luò)行為與真實(shí)的人物身份對(duì)接,實(shí)現(xiàn)虛擬人與現(xiàn)實(shí)人、自由人與責(zé)任人、經(jīng)濟(jì)人與社會(huì)人的和諧統(tǒng)一。通過(guò)加強(qiáng)現(xiàn)實(shí)社會(huì)責(zé)任在網(wǎng)絡(luò)里的延伸,對(duì)預(yù)防網(wǎng)絡(luò)暴力、網(wǎng)絡(luò)犯罪都能起到很好作用。
十、模型評(píng)價(jià)
10.1 模型優(yōu)點(diǎn)
? ? 1.該模型在進(jìn)行“可能存在的‘鍵盤俠’”識(shí)別算法建模后又進(jìn)行了TPE超參數(shù)調(diào)優(yōu),得到的識(shí)別模型精確度得以提升。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-439055.html
10.2 模型缺點(diǎn)
????1.選取“可能存在的‘鍵盤俠’”時(shí),僅考慮了數(shù)量較少的部分,主觀性過(guò)強(qiáng),說(shuō)服性不高。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-439055.html
到了這里,關(guān)于如何治理“網(wǎng)絡(luò)暴力” 在人類文明不斷發(fā)展向前的進(jìn)程中,大數(shù)據(jù)時(shí)代應(yīng)運(yùn)而來(lái)。數(shù)學(xué)建模解題步驟,愚見而已,歡迎指錯(cuò)和探討呀~的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!