国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<mark id="4o4gc"><font id="4o4gc"></font></mark>

垃圾郵件識別（一）：用機器學習做中文郵件內容分類

2年前作者：Yunlord分類：Toy博客閱讀(18)違法舉報

這篇具有很好參考價值的文章主要介紹了垃圾郵件識別（一）：用機器學習做中文郵件內容分類。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

前言

隨著微信的迅速發(fā)展，工作和生活中的交流也更多依賴于此，但是由于郵件的正式性和規(guī)范性，其仍然不可被取代。但是不管是企業(yè)內部工作郵箱，還是個人郵箱，總是收到各種各樣的垃圾郵件，包括商家的廣告、打折促銷信息、澳門博彩郵件、理財推廣信息等等，不管如何進行垃圾郵件分類，總有漏網之魚。最重要的是，不同用戶對于垃圾郵件的定義并不一致。

而且大部分用戶網絡安全意識比較一般，萬一誤點垃圾郵件上鉤，或者因為垃圾郵件淹沒了工作中的關鍵信件，則會給個人或者企業(yè)造成損失。

垃圾郵件識別一直以來都是痛點難點，雖然方法無非是基于貝葉斯學習或者是概率統(tǒng)計還是深度學習的方法，但是由于業(yè)務場景的多樣化，垃圾郵件花樣實在太多了，所以傳統(tǒng)垃圾郵件攔截器總是有點跟不上。

因此打算針對同一數(shù)據(jù)集，逐步嘗試各種方法，來進行垃圾郵件的識別分類——希望假以時日，這種定制化的垃圾郵件識別工具能大幅提升用戶的郵箱使用體驗。

一、整體思路

總的來說，一封郵件可以分為發(fā)送人、接收人、抄送人、主題、時間、內容等要素，所以很自然的可以認為主要通過上述要素中的發(fā)送方、主題以及內容來進行垃圾郵件判斷。

因此我們依次對上述要素進行分析：

垃圾郵件內容分類（通過提取垃圾郵件內容進行判斷）
- 中文垃圾郵件分類
- 英文垃圾郵件分類
垃圾郵件標題分類
垃圾郵件發(fā)送方分類

最終，我們可以根據(jù)這三個維度進行綜合評判，從而實現(xiàn)垃圾郵件的準確分類。本文將根據(jù)郵件內容進行垃圾郵件分類。

二、中文郵件內容分類實現(xiàn)步驟

1.數(shù)據(jù)集介紹

TREC 2006 Spam Track Public Corpora首先我們選擇TREC 2006 Spam Track Public Corpora這一個公開的垃圾郵件語料庫。該語料庫由國際文本檢索會議提供，分為英文數(shù)據(jù)集（trec06p）和中文數(shù)據(jù)集（trec06c），其中所含的郵件均來源于真實郵件保留了郵件的原有格式和內容。

文件目錄形式：delay和full分別是一種垃圾郵件過濾器的過濾機制，full目錄下，是理想的郵件分類結果，我們可以視為研究的標簽。

trec06c
│
└───data
│ ? │ ? 000
│ ? │ ? 001
│ ? │ ? ...
│ ? └───215
└───delay
│ ? │ ? index
└───full
│ ? │ ? index?

2.數(shù)據(jù)加載

2.1 從eml格式中提取郵件要素并且存儲成csv

由于目前數(shù)據(jù)集是存儲成郵件的形式，并且通過索引進行垃圾郵件標注，所以我們先提取每一封郵件的發(fā)件人、收件人、抄送人、主題、發(fā)送時間、內容以及是否垃圾郵件標簽。

mailTable=pd.DataFrame(columns=('Sender','Receiver','CarbonCopy','Subject','Date','Body','isSpam'))
# path='trec06p/full/../data/000/004'
# emlContent= emlAnayalyse(path)
# print(emlContent)
f = open('trec06c/full/index', 'r')
csvfile=open('mailChinese.csv','w',newline='',encoding='utf-8')
writer=csv.writer(csvfile)
for line in f:
    str_list = line.split(" ")
    print(str_list[1])

    # 設置垃圾郵件的標簽為0
    if str_list[0] == 'spam':
        label = '0'
    # 設置正常郵件標簽為1
    elif str_list[0] == 'ham':
        label = '1'
    emlContent= emlAnayalyse('trec06c/full/' + str(str_list[1].split("\n")[0]))
    if emlContent is not None:
        writer.writerow([emlContent[0],emlContent[1],emlContent[2],emlContent[3],emlContent[4],emlContent[5],label])

其中emlAnayalyze函數(shù)利用flanker庫中的mime，可以將郵件中的發(fā)件人、收件人、抄送人、主題、發(fā)送時間、內容等要素提取出來，具體可以參考我的這篇文章python幾行代碼實現(xiàn)郵件解析_Yunlord的博客-CSDN博客_flanker 郵件解析，然后存成csv，方便后續(xù)郵件分析。

2.2 從csv中提取郵件內容進行分類

def get_data(path):
    '''
    獲取數(shù)據(jù)
    :return: 文本數(shù)據(jù)，對應的labels
    '''
    maildf = pd.read_csv(path,header=None, names=['Sender','Receiver','“CarbonCopy','Subject','Date','Body','isSpam'])
    filteredmaildf=maildf[maildf['Body'].notnull()]
    corpus=filteredmaildf['Body']
    
    labels=filteredmaildf['isSpam']
    corpus=list(corpus)
    labels=list(labels)
    return corpus, labels

通過get_data函數(shù)讀取csv格式數(shù)據(jù)，并且提取出內容不為空的數(shù)據(jù)，和對應的標簽。

垃圾郵件識別（一）：用機器學習做中文郵件內容分類

?可以看到一共有40348個數(shù)據(jù)。

from sklearn.model_selection import train_test_split
# 對數(shù)據(jù)進行劃分
train_corpus, test_corpus, train_labels, test_labels = train_test_split(corpus, labels,
                                                  test_size=0.3, random_state=0)

然后通過?sklearn.model_selection庫中的train_test_split函數(shù)劃分訓練集、驗證集。

# 進行歸一化
norm_train_corpus = normalize_corpus(train_corpus)
norm_test_corpus = normalize_corpus(test_corpus)

?然后通過normalize_corpus函數(shù)對數(shù)據(jù)進行預處理。

def textParse(text):
    listOfTokens=jieba.lcut(text)
    newList=[re.sub(r'\W*','',s) for s in listOfTokens]
    filtered_text=[tok for tok in newList if len(tok)>0]
    return filtered_text


def remove_stopwords(tokens):
    filtered_tokens = [token for token in tokens if token not in stopword_list]
    filtered_text = ' '.join(filtered_tokens)
    return filtered_text


def normalize_corpus(corpus, tokenize=False):
    normalized_corpus = []
    for text in corpus:
        filtered_text = textParse(filtered_text)
        filtered_text = remove_stopwords(filtered_text)
        
        normalized_corpus.append(filtered_text)

    return normalized_corpus

里面包括textParse、remove_stopwords這兩個數(shù)據(jù)預處理操作。

textParse函數(shù)先通過jieba進行分詞，然后去除無用字符。

remove_stopwords函數(shù)先是加載stop_words.txt停用詞表，然后去除停用詞。

從而實現(xiàn)數(shù)據(jù)預處理。

2.3?構建詞向量

# 詞袋模型特征
bow_vectorizer, bow_train_features = bow_extractor(norm_train_corpus)
bow_test_features = bow_vectorizer.transform(norm_test_corpus)

# tfidf 特征
tfidf_vectorizer, tfidf_train_features = tfidf_extractor(norm_train_corpus)
tfidf_test_features = tfidf_vectorizer.transform(norm_test_corpus)

其中bow_extractor，tfidf_extractor兩個函數(shù)分別將訓練集轉化為詞袋模型特征和tfidf特征。

from sklearn.feature_extraction.text import CountVectorizer


def bow_extractor(corpus, ngram_range=(1, 1)):
    vectorizer = CountVectorizer(min_df=1, ngram_range=ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features


from sklearn.feature_extraction.text import TfidfTransformer


def tfidf_transformer(bow_matrix):
    transformer = TfidfTransformer(norm='l2',
                                   smooth_idf=True,
                                   use_idf=True)
    tfidf_matrix = transformer.fit_transform(bow_matrix)
    return transformer, tfidf_matrix


from sklearn.feature_extraction.text import TfidfVectorizer


def tfidf_extractor(corpus, ngram_range=(1, 1)):
    vectorizer = TfidfVectorizer(min_df=1,
                                 norm='l2',
                                 smooth_idf=True,
                                 use_idf=True,
                                 ngram_range=ngram_range)
    features = vectorizer.fit_transform(corpus)
    return vectorizer, features

2.4 訓練模型以及評估

對如上兩種不同的向量表示法，分別訓練貝葉斯分類器、邏輯回歸分類器、支持向量機分類器，從而驗證效果。

from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
mnb = MultinomialNB()
svm = SGDClassifier(loss='hinge', n_iter_no_change=100)
lr = LogisticRegression()

# 基于詞袋模型的多項樸素貝葉斯
print("基于詞袋模型特征的貝葉斯分類器")
mnb_bow_predictions = train_predict_evaluate_model(classifier=mnb,
                                                   train_features=bow_train_features,
                                                   train_labels=train_labels,
                                                   test_features=bow_test_features,
                                                   test_labels=test_labels)

# 基于詞袋模型特征的邏輯回歸
print("基于詞袋模型特征的邏輯回歸")
lr_bow_predictions = train_predict_evaluate_model(classifier=lr,
                                                  train_features=bow_train_features,
                                                  train_labels=train_labels,
                                                  test_features=bow_test_features,
                                                  test_labels=test_labels)

# 基于詞袋模型的支持向量機方法
print("基于詞袋模型的支持向量機")
svm_bow_predictions = train_predict_evaluate_model(classifier=svm,
                                                   train_features=bow_train_features,
                                                   train_labels=train_labels,
                                                   test_features=bow_test_features,
                                                   test_labels=test_labels)
joblib.dump(svm, 'svm_bow.pkl')


# 基于tfidf的多項式樸素貝葉斯模型
print("基于tfidf的貝葉斯模型")
mnb_tfidf_predictions = train_predict_evaluate_model(classifier=mnb,
                                                     train_features=tfidf_train_features,
                                                     train_labels=train_labels,
                                                     test_features=tfidf_test_features,
                                                     test_labels=test_labels)
# 基于tfidf的邏輯回歸模型
print("基于tfidf的邏輯回歸模型")
lr_tfidf_predictions=train_predict_evaluate_model(classifier=lr,
                                                     train_features=tfidf_train_features,
                                                     train_labels=train_labels,
                                                     test_features=tfidf_test_features,
                                                     test_labels=test_labels)


# 基于tfidf的支持向量機模型
print("基于tfidf的支持向量機模型")
svm_tfidf_predictions = train_predict_evaluate_model(classifier=svm,
                                                     train_features=tfidf_train_features,
                                                     train_labels=train_labels,
                                                     test_features=tfidf_test_features,
                                                     test_labels=test_labels)

輸出結果如下所示?

垃圾郵件識別（一）：用機器學習做中文郵件內容分類

總結

通過針對郵件內容，并且轉化為兩種不同的詞向量進行不同模型的訓練，從而得到基于tfidf的支持向量機模型效果最好，可以達到98%的準確率。

想要一起從小白到大神，學習自然語言處理的朋友們可以點擊下方鏈接或者訂閱我的自然語言處理從小白到精通專欄，里面涉及到的工程部署以及完整代碼實踐全部免費贈送。

參考：

使用PaddleNLP識別垃圾郵件（一）：準確率98.5%的垃圾郵件分類器 - 飛槳AI Studio - 人工智能學習與實訓社區(qū)文章來源地址http://www.zghlxwxcb.cn/news/detail-481766.html

到了這里，關于垃圾郵件識別（一）：用機器學習做中文郵件內容分類的文章就介紹完了。如果您還想了解更多內容，請在右上角搜索TOY模板網以前的文章或繼續(xù)瀏覽下面的相關文章，希望大家以后多多支持TOY模板網！

本文來自互聯(lián)網用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權，不承擔相關法律責任。如若轉載，請注明出處：如若內容造成侵權/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經查實，立即刪除！

分享到：

領支付寶紅包贊助服務器費用

畢設垃圾郵件(短信)分類算法實現(xiàn) 機器學習深度學習
?? 這兩年開始畢業(yè)設計和畢業(yè)答辯的要求和難度不斷提升，傳統(tǒng)的畢設題目缺少創(chuàng)新和亮點，往往達不到畢業(yè)答辯的要求，這兩年不斷有學弟學妹告訴學長自己做的項目系統(tǒng)達不到老師的要求。為了大家能夠順利以及最少的精力通過畢設，學長分享優(yōu)質畢業(yè)設計項目，今天
2024年01月22日
瀏覽(15)
機器學習-基于樸素貝葉斯的垃圾郵件分類
概率論是許多機器學習算法的基礎，此篇博客會給出一些使用概率論進行分類的方法。首先從一個最簡單的概率分類器開始，然后給出一些假設來學習樸素貝葉斯分類器。我們稱之為“樸素”，是因為整個形式化過程只做最原始、最簡單的假設。我們還將構建另一個分類器
2024年02月02日
瀏覽(25)
計算機競賽垃圾郵件(短信)分類算法實現(xiàn) 機器學習深度學習
?? 優(yōu)質競賽項目系列，今天要分享的是 ?? 垃圾郵件(短信)分類算法實現(xiàn) 機器學習深度學習該項目較為新穎，適合作為競賽課題方向，學長非常推薦！ ??學長這里給一個題目綜合評分(每項滿分5分) 難度系數(shù)：3分工作量：3分創(chuàng)新點：4分 ?? 更多資料, 項目分享： https:
2024年02月11日
瀏覽(29)
機器學習——垃圾郵件識別——SVM、MNB模型使用
本次案例采用SVM、MNB模型進行對比用Accuracy、F1 Score進行評估話不多說直接上代碼包括數(shù)據(jù)集下載 CSDN https://mp.csdn.net/mp_download/manage/download/UpDetailed 運行結果：? 標稱型：標稱型目標變量的結果只在有限目標集中取值，如真與假(標稱型目標變量主要用于分類) 數(shù)值型：數(shù)值型
2024年02月11日
瀏覽(27)
機器學習——使用樸素貝葉斯分類器實現(xiàn)垃圾郵件檢測（python代碼+數(shù)據(jù)集）
機器學習——scikit-learn庫學習、應用機器學習——最小二乘法擬合曲線、正則化機器學習——使用樸素貝葉斯分類器實現(xiàn)垃圾郵件檢測（python代碼+數(shù)據(jù)集）貝葉斯公式： P ( A ∣ B ) = P ( A ) P ( B ∣ A ) P ( B ) P(A mid B)=frac{P(A) P(B mid A)}{P(B)} P ( A ∣ B ) = P ( B ) P ( A ) P ( B ∣ A )
2024年02月10日
瀏覽(29)
基于BERT對中文郵件內容分類
本文是《用BERT做中文郵件內容分類》系列的第二篇，該系列項目持續(xù)更新中。系列的起源是《使用PaddleNLP識別垃圾郵件》項目，旨在解決企業(yè)面臨的垃圾郵件問題，通過深度學習方法探索多語言垃圾郵件的內容、標題提取與分類識別。在本篇文章中，我們使用PaddleNLP的BERT預
2024年01月22日
瀏覽(14)
Python基于深度學習機器學習卷積神經網絡實現(xiàn)垃圾分類垃圾識別系統(tǒng)(GoogLeNet，Resnet，DenseNet，MobileNet，EfficientNet，Shufflent)
文章目錄 1 前言+ 2 卷積神經網絡（CNN）詳解+ 2.1 CNN架構概述+ 2.1.1 卷積層+ 2.1.2 池化層+ 2.1.3 全連接層 2.2 CNN訓練過程+ 2.3 CNN在垃圾圖片分類中的應用 3 代碼詳解+ 3.1 導入必要的庫+ 3.2 加載數(shù)據(jù)集+ 3.3 可視化隨機樣本+ 3.4 數(shù)據(jù)預處理與生成器+ 3.5 構建、編譯和訓練CNN模型+ 3.5.
2024年02月04日
瀏覽(27)
機器學習-樸素貝葉斯過濾垃圾郵件
什么是樸素貝葉斯算法：用貝葉斯定理來預測一個未知類別的樣本屬于各個類別的可能性,選擇可能性最大的一個類別作為該樣本的最終類別。用這個算法處理垃圾郵件就可以理解為：用貝葉斯定理來預測一封由若干個單詞組成的不知道是否為垃圾郵件的郵件，它是垃圾郵件
2024年02月09日
瀏覽(23)
什么是垃圾郵件機器人？垃圾評論和垃圾短信傳播方式有哪些？什么是機器人攻擊？機器人攻擊的方法有哪些？什么是廣告欺詐、憑證填充、內容抓取、數(shù)據(jù)抓取、暴力攻擊、點擊欺詐？有哪些方法防御？
什么是垃圾郵件機器人？垃圾評論和垃圾短信傳播方式有哪些？什么是機器人攻擊？機器人攻擊的方法有哪些？什么是廣告欺詐、憑證填充、內容抓取、數(shù)據(jù)抓取、暴力攻擊、點擊欺詐？有哪些方法防御？垃圾郵件機器人是一種計算機程序，有助于在整個 Internet 傳播垃圾郵
2024年01月21日
瀏覽(20)
競賽深度學習卷積神經網絡垃圾分類系統(tǒng) - 深度學習神經網絡圖像識別垃圾分類算法小程序
?? 優(yōu)質競賽項目系列，今天要分享的是深度學習卷積神經網絡垃圾分類系統(tǒng) 該項目較為新穎，適合作為競賽課題方向，學長非常推薦！ ?? 更多資料, 項目分享： https://gitee.com/dancheng-senior/postgraduate 近年來，隨著我國經濟的快速發(fā)展，國家各項建設都蒸蒸日上，成績顯著。
2024年02月08日
瀏覽(28)