国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<label id="vtud9"><dfn id="vtud9"></dfn></label>

<kbd id="vtud9"><pre id="vtud9"></pre></kbd>

一文詳解8種異常檢測(cè)算法（附Python代碼）

2年前作者：Python數(shù)據(jù)開發(fā)分類：Toy博客閱讀(27)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了一文詳解8種異常檢測(cè)算法（附Python代碼）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

一、異常檢測(cè)簡介

異常檢測(cè)是通過數(shù)據(jù)挖掘方法發(fā)現(xiàn)與數(shù)據(jù)集分布不一致的異常數(shù)據(jù)，也被稱為離群點(diǎn)、異常值檢測(cè)等等。

一文詳解8種異常檢測(cè)算法（附Python代碼）

1.1 異常檢測(cè)適用的場景

異常檢測(cè)算法適用的場景特點(diǎn)有：（1）無標(biāo)簽或者類別極不均衡；（2）異常數(shù)據(jù)跟樣本中大多數(shù)數(shù)據(jù)的差異性較大；（3）異常數(shù)據(jù)在總體數(shù)據(jù)樣本中所占的比例很低。常見的應(yīng)用案例如：

金融領(lǐng)域：從金融數(shù)據(jù)中識(shí)別”欺詐用戶“，如識(shí)別信用卡申請(qǐng)欺詐、信用卡盜刷、信貸欺詐等；安全領(lǐng)域：判斷流量數(shù)據(jù)波動(dòng)以及是否受到攻擊等等；電商領(lǐng)域：從交易等數(shù)據(jù)中識(shí)別”惡意買家“，如羊毛黨、惡意刷屏團(tuán)伙；生態(tài)災(zāi)難預(yù)警：基于天氣指標(biāo)數(shù)據(jù)，判斷未來可能出現(xiàn)的極端天氣；醫(yī)療監(jiān)控：從醫(yī)療設(shè)備數(shù)據(jù)，發(fā)現(xiàn)可能會(huì)顯示疾病狀況的異常數(shù)據(jù)；

一文詳解8種異常檢測(cè)算法（附Python代碼）

1.2 異常檢測(cè)存在的挑戰(zhàn)

異常檢測(cè)是熱門的研究領(lǐng)域，但由于異常存在的未知性、異質(zhì)性、特殊性及多樣性等復(fù)雜情況，整個(gè)領(lǐng)域仍有較多的挑戰(zhàn)：

1）最具挑戰(zhàn)性的問題之一是難以實(shí)現(xiàn)高異常檢測(cè)召回率。由于異常非常罕見且具有異質(zhì)性，因此很難識(shí)別所有異常。

2）異常檢測(cè)模型要提高精確度（precision）往往要深度結(jié)合業(yè)務(wù)特征，否則效果不佳，且容易導(dǎo)致對(duì)少數(shù)群體產(chǎn)生算法偏見。

二、異常檢測(cè)方法

按照訓(xùn)練集是否包含異常值可以劃分為異常值檢測(cè)（outlier detection）及新穎點(diǎn)檢測(cè)（novelty detection），新穎點(diǎn)檢測(cè)的代表方法如one class SVM。

按照異常類別的不同，異常檢測(cè)可劃分為：異常點(diǎn)檢測(cè)(如異常消費(fèi)用戶)，上下文異常檢測(cè)（如時(shí)間序列異常），組異常檢測(cè)（如異常團(tuán)伙）。

按照學(xué)習(xí)方式的不同，異常檢測(cè)可劃分為：有監(jiān)督異常檢測(cè)（Supervised Anomaly Detection）、半監(jiān)督異常檢測(cè)（Semi-Supervised Anomaly Detection）及無監(jiān)督異常檢測(cè)（Unsupervised Anomaly Detection）?，F(xiàn)實(shí)情況的異常檢測(cè)問題，由于收集異常標(biāo)簽樣本的難度大，往往是沒有標(biāo)簽的，所以無監(jiān)督異常檢測(cè)應(yīng)用最為廣泛。

無監(jiān)督異常檢測(cè)按其算法思想大致可分為如下下幾類：

2.1 基于聚類的方法

基于聚類的異常檢測(cè)方法通常依賴下列假設(shè)，1）正常數(shù)據(jù)實(shí)例屬于數(shù)據(jù)中的一個(gè)簇，而異常數(shù)據(jù)實(shí)例不屬于任何簇；2）正常數(shù)據(jù)實(shí)例靠近它們最近的簇質(zhì)心，而異常數(shù)據(jù)離它們最近的簇質(zhì)心很遠(yuǎn)；3）正常數(shù)據(jù)實(shí)例屬于大而密集的簇，而異常數(shù)據(jù)實(shí)例要么屬于小簇，要么屬于稀疏簇；通過將數(shù)據(jù)歸分到不同的簇中，異常數(shù)據(jù)則是那些屬于小簇或者不屬于任何一簇或者遠(yuǎn)離簇中心的數(shù)據(jù)。

將距離簇中心較遠(yuǎn)的數(shù)據(jù)作為異常點(diǎn)：這類方法有 SOM、K-means、最大期望( expectation maximization，EM)及基于語義異常因子( semantic anomaly factor)算法等；
將聚類所得小簇?cái)?shù)據(jù)作為異常點(diǎn)：代表方法有K-means聚類；
將不屬于任何一簇作為異常點(diǎn)：代表方法有 DBSCAN、ROCK、SNN 聚類。

2.2 基于統(tǒng)計(jì)的方法

基于統(tǒng)計(jì)的方法依賴的假設(shè)是數(shù)據(jù)集服從某種分布( 如正態(tài)分布、泊松分布及二項(xiàng)式分布等) 或概率模型，通過判斷某數(shù)據(jù)點(diǎn)是否符合該分布/模型( 即通過小概率事件的判別) 來實(shí)現(xiàn)異常檢測(cè)。根據(jù)概率模型可分為：

1）參數(shù)方法，由已知分布的數(shù)據(jù)中估計(jì)模型參數(shù)( 如高斯模型) ，其中最簡單的參數(shù)異常檢測(cè)模型就是假設(shè)樣本服從一元正態(tài)分布，當(dāng)數(shù)據(jù)點(diǎn)與均值差距大于兩倍或三倍方差時(shí)，則認(rèn)為該點(diǎn)為異常;

2）非參數(shù)方法，在數(shù)據(jù)分布未知時(shí)，可繪制直方圖通過檢測(cè)數(shù)據(jù)是否在訓(xùn)練集所產(chǎn)生的直方圖中來進(jìn)行異常檢測(cè)。還可以利用數(shù)據(jù)的變異程度( 如均差、標(biāo)準(zhǔn)差、變異系數(shù)、四分位數(shù)間距等) 來發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn)數(shù)據(jù)。

2.3 基于深度的方法

該方法將數(shù)據(jù)映射到 k 維空間的分層結(jié)構(gòu)中，并假設(shè)異常值分布在外圍，而正常數(shù)據(jù)點(diǎn)靠近分層結(jié)構(gòu)的中心（深度越高）。

半空間深度法( ISODEPTH 法) ，通過計(jì)算每個(gè)點(diǎn)的深度，并根據(jù)深度值判斷異常數(shù)據(jù)點(diǎn)。
最小橢球估計(jì) ( minimum volume ellipsoid estimator，MVE)法。根據(jù)大多數(shù)數(shù)據(jù)點(diǎn)( 通常為＞ 50% ) 的概率分布模型擬合出一個(gè)實(shí)線橢圓形所示的最小橢圓形球體的邊界，不在此邊界范圍內(nèi)的數(shù)據(jù)點(diǎn)將被判斷為異常點(diǎn)。

一文詳解8種異常檢測(cè)算法（附Python代碼）

孤立森林。上述兩種基于深度的基礎(chǔ)模型隨著特征維度k的增加，其時(shí)間復(fù)雜性呈指數(shù)增長，通常適用于維度k≤3 時(shí)，而孤立森林通過改變計(jì)算深度的方式，也可以適用于高維的數(shù)據(jù)。

孤立森林算法是基于 Ensemble 的異常檢測(cè)方法，因此具有線性的時(shí)間復(fù)雜度。且精準(zhǔn)度較高，在處理大數(shù)據(jù)時(shí)速度快，所以目前在工業(yè)界的應(yīng)用范圍比較廣。其基本思想是：通過樹模型方法隨機(jī)地切分樣本空間，那些密度很高的簇要被切很多次才會(huì)停止切割（即每個(gè)點(diǎn)都單獨(dú)存在于一個(gè)子空間內(nèi)），但那些分布稀疏的點(diǎn)（即異常點(diǎn)），大都很早就停到一個(gè)子空間內(nèi)了。算法步驟為：

1）從訓(xùn)練數(shù)據(jù)中隨機(jī)選擇 Ψ 個(gè)樣本，以此訓(xùn)練單棵樹。

2）隨機(jī)指定一個(gè)q維度（attribute），在當(dāng)前節(jié)點(diǎn)數(shù)據(jù)中隨機(jī)產(chǎn)生一個(gè)切割點(diǎn)p。p切割點(diǎn)產(chǎn)生于當(dāng)前節(jié)點(diǎn)數(shù)據(jù)中指定q維度的最大值和最小值之間。

3）在此切割點(diǎn)的選取生成了一個(gè)超平面，將當(dāng)前節(jié)點(diǎn)數(shù)據(jù)空間切分為2個(gè)子空間：把當(dāng)前所選維度下小于 p 的點(diǎn)放在當(dāng)前節(jié)點(diǎn)的左分支，把大于等于 p 的點(diǎn)放在當(dāng)前節(jié)點(diǎn)的右分支；

4）在節(jié)點(diǎn)的左分支和右分支節(jié)點(diǎn)遞歸步驟 2、3，不斷構(gòu)造新的葉子節(jié)點(diǎn)，直到葉子節(jié)點(diǎn)上只有一個(gè)數(shù)據(jù)（無法再繼續(xù)切割）或樹已經(jīng)生長到了所設(shè)定的高度。（設(shè)置單顆樹的最大高度是因?yàn)楫惓?shù)據(jù)記錄都比較少，其路徑長度也比較低，而我們也只需要把正常記錄和異常記錄區(qū)分開來，因此只需要關(guān)心低于平均高度的部分就好，這樣算法效率更高。）

5）由于每顆樹訓(xùn)練的切割特征空間過程是完全隨機(jī)的，所以需要用 ensemble 的方法來使結(jié)果收斂，即多建立幾棵樹，然后綜合計(jì)算每棵樹切分結(jié)果的平均值。對(duì)于每個(gè)樣本 x，通過下面的公式計(jì)算綜合的異常得分s。

一文詳解8種異常檢測(cè)算法（附Python代碼）

h(x) 為 x 在每棵樹的高度，c(Ψ) 為給定樣本數(shù) Ψ 時(shí)路徑長度的平均值，用來對(duì)樣本 x 的路徑長度 h(x) 進(jìn)行標(biāo)準(zhǔn)化處理。

2.4 基于分類模型

代表方法是One class SVM，其原理是尋找一個(gè)超平面將樣本中的正例圈出來，預(yù)測(cè)就是用這個(gè)超平面做決策，在圈內(nèi)的樣本就認(rèn)為是正樣本。由于核函數(shù)計(jì)算比較耗時(shí)，在海量數(shù)據(jù)的場景用的并不多。

一文詳解8種異常檢測(cè)算法（附Python代碼）

依賴的假設(shè)是：正常數(shù)據(jù)實(shí)例位于密集的鄰域中，而異常數(shù)據(jù)實(shí)例附近的樣例較為稀疏?？梢岳^續(xù)細(xì)分為基于密度/鄰居：

基于密度，該方法通過計(jì)算數(shù)據(jù)集中各數(shù)據(jù)區(qū)域的密度，將密度較低區(qū)域作為離群區(qū)域。經(jīng)典的方法為：局部離群因子( local outlier factor，LOF) 。LOF 法與傳統(tǒng)異常點(diǎn)非彼即此定義不同，將異常點(diǎn)定義局域是異常點(diǎn)，為每個(gè)數(shù)據(jù)賦值一個(gè)代表相對(duì)于其鄰域的 LOF 值，LOF 越大，說明其鄰域密度較低，越有可能是異常點(diǎn)。但在 LOF 中難以確定最小近鄰域，且隨著數(shù)據(jù)維度的升高，計(jì)算復(fù)雜度和時(shí)間復(fù)雜度增加。
基于距離，其基本思想是通過計(jì)算比較數(shù)據(jù)與近鄰數(shù)據(jù)集合的距離來檢測(cè)異常，正常數(shù)據(jù)點(diǎn)與其近鄰數(shù)據(jù)相似，而異常數(shù)據(jù)則有別于近鄰數(shù)據(jù)。

2.6 基于偏差的方法

當(dāng)給定一個(gè)數(shù)據(jù)集時(shí)，可通過基于偏差法找出與整個(gè)數(shù)據(jù)集特征不符的點(diǎn)，并且數(shù)據(jù)集方差會(huì)隨著異常點(diǎn)的移除而減小。該方法可分為逐個(gè)比較數(shù)據(jù)點(diǎn)的序列異常技術(shù)和 OLAP 數(shù)據(jù)立方體技術(shù)。目前該方法實(shí)際應(yīng)用較少。

2.7 基于重構(gòu)的方法

代表方法為PCA。PCA在異常檢測(cè)方面的做法，大體有兩種思路：一種是將數(shù)據(jù)映射到低維特征空間，然后在特征空間不同維度上查看每個(gè)數(shù)據(jù)點(diǎn)跟其它數(shù)據(jù)的偏差；另外一種是將數(shù)據(jù)映射到低維特征空間，然后由低維特征空間重新映射回原空間，嘗試用低維特征重構(gòu)原始數(shù)據(jù)，看重構(gòu)誤差的大小。

2.8 基于神經(jīng)網(wǎng)絡(luò)的方法

代表方法有自動(dòng)編碼器( autoencoder，AE) ，長短期記憶神經(jīng)網(wǎng)絡(luò)（LSTM）等。

LSTM可用于時(shí)間序列數(shù)據(jù)的異常檢測(cè)：利用歷史序列數(shù)據(jù)訓(xùn)練模型，檢測(cè)與預(yù)測(cè)值差異較大的異常點(diǎn)。
Autoencoder異常檢測(cè) Autoencoder本質(zhì)上使用了一個(gè)神經(jīng)網(wǎng)絡(luò)來產(chǎn)生一個(gè)高維輸入的低維表示。Autoencoder與主成分分析PCA類似，但是Autoencoder在使用非線性激活函數(shù)時(shí)克服了PCA線性的限制。算法的基本上假設(shè)是異常點(diǎn)服從不同的分布。根據(jù)正常數(shù)據(jù)訓(xùn)練出來的Autoencoder，能夠?qū)⒄颖局亟ㄟ€原，但是卻無法將異于正常分布的數(shù)據(jù)點(diǎn)較好地還原，導(dǎo)致其基于重構(gòu)誤差較大。當(dāng)重構(gòu)誤差大于某個(gè)閾值時(shí)，將其標(biāo)記為異常值。

一文詳解8種異常檢測(cè)算法（附Python代碼）

小結(jié)：無監(jiān)督異常檢測(cè)方法的要素為選擇相關(guān)的特征以及基于合理假設(shè)選擇合適的算法，可以更好的發(fā)揮異常檢測(cè)效果。

技術(shù)交流

技術(shù)要學(xué)會(huì)分享、交流，不建議閉門造車。

本文技術(shù)由粉絲群小伙伴推薦、討論、分享匯總。有趣使用工具、源碼、數(shù)據(jù)、技術(shù)交流提升，均可加交流群獲取，群友已超過3000人，添加時(shí)最好的備注方式為：來源+興趣方向，方便找到志同道合的朋友。

方式①、添加微信號(hào)：dkl88191，備注：來自CSDN +技術(shù)交流
方式②、微信搜索公眾號(hào)：Python學(xué)習(xí)與數(shù)據(jù)挖掘，后臺(tái)回復(fù)：加群

三、項(xiàng)目實(shí)戰(zhàn)：信用卡反欺詐

項(xiàng)目為kaggle上經(jīng)典的信用卡欺詐檢測(cè)，該數(shù)據(jù)集質(zhì)量高，正負(fù)樣本比例非常懸殊。我們?cè)诖隧?xiàng)目主要用了無監(jiān)督的Autoencoder新穎點(diǎn)檢測(cè)，根據(jù)重構(gòu)誤差識(shí)別異常欺詐樣本。

一文詳解8種異常檢測(cè)算法（附Python代碼）文章來源地址http://www.zghlxwxcb.cn/news/detail-401550.html

#!/usr/bin/env python  
# coding: utf-8  
  
import warnings  
warnings.filterwarnings("ignore")  
  
import pandas as pd  
import numpy as np  
import pickle  
import matplotlib.pyplot as plt  
plt.style.use('seaborn')  
import tensorflow as tf  
import seaborn as sns  
from sklearn.model_selection import train_test_split  
from keras.models import Model, load_model  
from keras.layers import Input, Dense  
from keras.callbacks import ModelCheckpoint  
from keras import regularizers  
from sklearn.preprocessing import StandardScaler  
from sklearn.metrics import roc_curve, auc, precision_recall_curve  
# 安利一個(gè)異常檢測(cè)Python庫 https://github.com/yzhao062/Pyod  
  
# 讀取數(shù)據(jù) ：信用卡欺詐數(shù)據(jù)集地址https://www.kaggle.com/mlg-ulb/creditcardfraud  
d = pd.read_csv('creditcard.csv')  
  
# 查看樣本比例  
num_nonfraud = np.sum(d['Class'] == 0)  
num_fraud = np.sum(d['Class'] == 1)  
plt.bar(['Fraud', 'non-fraud'], [num_fraud, num_nonfraud], color='dodgerblue')  
plt.show()  
  
# 刪除時(shí)間列，對(duì)Amount進(jìn)行標(biāo)準(zhǔn)化  
data = d.drop(['Time'], axis=1)  
data['Amount'] = StandardScaler().fit_transform(data[['Amount']])  
  
# 為無監(jiān)督新穎點(diǎn)檢測(cè)方法，只提取負(fù)樣本，并且按照8:2切成訓(xùn)練集和測(cè)試集  
mask = (data['Class'] == 0)  
X_train, X_test = train_test_split(data[mask], test_size=0.2, random_state=0)  
X_train = X_train.drop(['Class'], axis=1).values  
X_test = X_test.drop(['Class'], axis=1).values  
  
# 提取所有正樣本，作為測(cè)試集的一部分  
X_fraud = data[~mask].drop(['Class'], axis=1).values  
  
# 構(gòu)建Autoencoder網(wǎng)絡(luò)模型  
# 隱藏層節(jié)點(diǎn)數(shù)分別為16，8，8，16  
# epoch為5，batch size為32  
input_dim = X_train.shape[1]  
encoding_dim = 16  
num_epoch = 5  
batch_size = 32  
  
input_layer = Input(shape=(input_dim, ))  
encoder = Dense(encoding_dim, activation="tanh",   
                activity_regularizer=regularizers.l1(10e-5))(input_layer)  
encoder = Dense(int(encoding_dim / 2), activation="relu")(encoder)  
decoder = Dense(int(encoding_dim / 2), activation='tanh')(encoder)  
decoder = Dense(input_dim, activation='relu')(decoder)  
autoencoder = Model(inputs=input_layer, outputs=decoder)  
autoencoder.compile(optimizer='adam',   
                    loss='mean_squared_error',   
                    metrics=['mae'])  
  
# 模型保存為model.h5，并開始訓(xùn)練模型  
checkpointer = ModelCheckpoint(filepath="model.h5",  
                               verbose=0,  
                               save_best_only=True)  
history = autoencoder.fit(X_train, X_train,  
                          epochs=num_epoch,  
                          batch_size=batch_size,  
                          shuffle=True,  
                          validation_data=(X_test, X_test),  
                          verbose=1,   
                          callbacks=[checkpointer]).history  
  
  
# 畫出損失函數(shù)曲線  
plt.figure(figsize=(14, 5))  
plt.subplot(121)  
plt.plot(history['loss'], c='dodgerblue', lw=3)  
plt.plot(history['val_loss'], c='coral', lw=3)  
plt.title('model loss')  
plt.ylabel('mse'); plt.xlabel('epoch')  
plt.legend(['train', 'test'], loc='upper right')  
  
plt.subplot(122)  
plt.plot(history['mae'], c='dodgerblue', lw=3)  
plt.plot(history['val_mae'], c='coral', lw=3)  
plt.title('model mae')  
plt.ylabel('mae'); plt.xlabel('epoch')  
plt.legend(['train', 'test'], loc='upper right')  
  
  
# 讀取模型  
autoencoder = load_model('model.h5')  
  
# 利用autoencoder重建測(cè)試集  
pred_test = autoencoder.predict(X_test)  
# 重建欺詐樣本  
pred_fraud = autoencoder.predict(X_fraud)    
  
# 計(jì)算重構(gòu)MSE和MAE誤差  
mse_test = np.mean(np.power(X_test - pred_test, 2), axis=1)  
mse_fraud = np.mean(np.power(X_fraud - pred_fraud, 2), axis=1)  
mae_test = np.mean(np.abs(X_test - pred_test), axis=1)  
mae_fraud = np.mean(np.abs(X_fraud - pred_fraud), axis=1)  
mse_df = pd.DataFrame()  
mse_df['Class'] = [0] * len(mse_test) + [1] * len(mse_fraud)  
mse_df['MSE'] = np.hstack([mse_test, mse_fraud])  
mse_df['MAE'] = np.hstack([mae_test, mae_fraud])  
mse_df = mse_df.sample(frac=1).reset_index(drop=True)  
  
# 分別畫出測(cè)試集中正樣本和負(fù)樣本的還原誤差MAE和MSE  
markers = ['o', '^']  
markers = ['o', '^']  
colors = ['dodgerblue', 'coral']  
labels = ['Non-fraud', 'Fraud']  
  
plt.figure(figsize=(14, 5))  
plt.subplot(121)  
for flag in [1, 0]:  
    temp = mse_df[mse_df['Class'] == flag]  
    plt.scatter(temp.index,   
                temp['MAE'],    
                alpha=0.7,   
                marker=markers[flag],   
                c=colors[flag],   
                label=labels[flag])  
plt.title('Reconstruction MAE')  
plt.ylabel('Reconstruction MAE'); plt.xlabel('Index')  
plt.subplot(122)  
for flag in [1, 0]:  
    temp = mse_df[mse_df['Class'] == flag]  
    plt.scatter(temp.index,   
                temp['MSE'],    
                alpha=0.7,   
                marker=markers[flag],   
                c=colors[flag],   
                label=labels[flag])  
plt.legend(loc=[1, 0], fontsize=12); plt.title('Reconstruction MSE')  
plt.ylabel('Reconstruction MSE'); plt.xlabel('Index')  
plt.show()  
# 下圖分別是MAE和MSE重構(gòu)誤差，其中橘黃色的點(diǎn)是信用欺詐，也就是異常點(diǎn)；藍(lán)色是正常點(diǎn)。我們可以看出異常點(diǎn)的重構(gòu)誤差整體很高。  
  
# 畫出Precision-Recall曲線  
plt.figure(figsize=(14, 6))  
for i, metric in enumerate(['MAE', 'MSE']):  
    plt.subplot(1, 2, i+1)  
    precision, recall, _ = precision_recall_curve(mse_df['Class'], mse_df[metric])  
    pr_auc = auc(recall, precision)  
    plt.title('Precision-Recall curve based on %s\nAUC = %0.2f'%(metric, pr_auc))  
    plt.plot(recall[:-2], precision[:-2], c='coral', lw=4)  
    plt.xlabel('Recall'); plt.ylabel('Precision')  
plt.show()  
  
# 畫出ROC曲線  
plt.figure(figsize=(14, 6))  
for i, metric in enumerate(['MAE', 'MSE']):  
    plt.subplot(1, 2, i+1)  
    fpr, tpr, _ = roc_curve(mse_df['Class'], mse_df[metric])  
    roc_auc = auc(fpr, tpr)  
    plt.title('Receiver Operating Characteristic based on %s\nAUC = %0.2f'%(metric, roc_auc))  
    plt.plot(fpr, tpr, c='coral', lw=4)  
    plt.plot([0,1],[0,1], c='dodgerblue', ls='--')  
    plt.ylabel('TPR'); plt.xlabel('FPR')  
plt.show()  
# 不管是用MAE還是MSE作為劃分標(biāo)準(zhǔn)，模型的表現(xiàn)都算是很好的。PR AUC分別是0.51和0.44，而ROC AUC都達(dá)到了0.95。  
  
# 畫出MSE、MAE散點(diǎn)圖  
markers = ['o', '^']  
colors = ['dodgerblue', 'coral']  
labels = ['Non-fraud', 'Fraud']  
  
plt.figure(figsize=(10, 5))  
for flag in [1, 0]:  
    temp = mse_df[mse_df['Class'] == flag]  
    plt.scatter(temp['MAE'],   
                temp['MSE'],    
                alpha=0.7,   
                marker=markers[flag],   
                c=colors[flag],   
                label=labels[flag])  
plt.legend(loc=[1, 0])  
plt.ylabel('Reconstruction RMSE'); plt.xlabel('Reconstruction MAE')  
plt.show()

到了這里，關(guān)于一文詳解8種異常檢測(cè)算法（附Python代碼）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

Apollo規(guī)劃模塊代碼學(xué)習(xí)(1): 算法架構(gòu)原理、運(yùn)行機(jī)制一文詳解
Apollo開源自動(dòng)駕駛平臺(tái)中，高清地圖模塊提供了每個(gè)在線模塊都可以訪問的高清地圖。感知和定位模塊提供了必要的動(dòng)態(tài)環(huán)境信息，可以在預(yù)測(cè)模塊中進(jìn)一步用于預(yù)測(cè)未來的環(huán)境狀態(tài)。運(yùn)動(dòng)規(guī)劃模塊考慮所有信息，以生成安全平滑的軌跡，并將其輸入車輛控制模塊。目前Ap
2024年01月25日
瀏覽(19)
Python——一文詳解使用yolov5進(jìn)行目標(biāo)檢測(cè)全流程（無需gpu）
本文按步驟詳細(xì)介紹了使用yolov5進(jìn)行目標(biāo)檢測(cè)的全流程，包括：模型下載、環(huán)境配置、數(shù)據(jù)集準(zhǔn)備和數(shù)據(jù)預(yù)處理、模型調(diào)整、模型訓(xùn)練、進(jìn)行目標(biāo)檢測(cè)和檢測(cè)結(jié)果分析。本文全部流程使用cpu完成（無需gpu），旨在跑通流程，模型訓(xùn)練過程較慢，且未能到達(dá)最優(yōu)結(jié)果。需要 py
2024年03月18日
瀏覽(29)
【機(jī)器學(xué)習(xí) | 異常檢測(cè)】孤立森林（isolation Forest）iForest 算法理論講解及 Python 實(shí)戰(zhàn)
孤立森林（Isolation Forest，簡稱 iForest）是一種無監(jiān)督學(xué)習(xí)算法，用于識(shí)別異常值。其基本原理可以概括為一句話：異常數(shù)據(jù)由于數(shù)量較少且與正常數(shù)據(jù)差異較大，因此在被隔離時(shí)需要較少的步驟。有兩個(gè)假設(shè)：異常的值是非常少的（如果異常值很多，可能被識(shí)別為正常的）
2024年04月23日
瀏覽(27)
Canny 邊緣檢測(cè)算法-python實(shí)現(xiàn)（附代碼）
摘要 : Canny 邊緣檢測(cè)算法由計(jì)算機(jī)科學(xué)家 John F. Canny 于 1986 年提出的。其不僅提供了算法，還帶來了一套邊緣檢測(cè)的理論，分階段的解釋如何實(shí)現(xiàn)邊緣檢測(cè)。Canny 檢測(cè)算法包含下面幾個(gè)階段：圖像灰度化高斯模糊處理圖像梯度、梯度幅值、梯度方向計(jì)算 NMS（非極大值抑制）
2024年02月04日
瀏覽(16)
一文速學(xué)數(shù)模-時(shí)序預(yù)測(cè)模型(三)移動(dòng)平均模型(MA)詳解+Python實(shí)例代碼
目錄前言一、移動(dòng)平均模型(MA) 模型原理自回歸 ?移動(dòng)平均模型
2024年02月06日
瀏覽(30)
損失函數(shù)(Loss Function)一文詳解-分類問題常見損失函數(shù)Python代碼實(shí)現(xiàn)+計(jì)算原理解析
目錄前言一、損失函數(shù)概述二、損失函數(shù)分類 1.分類問題的損失函數(shù)
2023年04月26日
瀏覽(29)
OpenCV-Python實(shí)戰(zhàn)（14）——人臉檢測(cè)詳解（僅需6行代碼學(xué)會(huì)4種人臉檢測(cè)方法）
人臉處理是人工智能中的一個(gè)熱門話題，人臉處理可以使用計(jì)算機(jī)視覺算法從人臉中自動(dòng)提取大量信息，例如身份、意圖和情感。人臉在視覺交流中起著重要作用，這是由于人臉中包含大量非語言信息，因此人臉處理一直以來對(duì)于計(jì)算機(jī)視覺學(xué)習(xí)者來說都是非常有趣的話題，
2024年02月06日
瀏覽(19)
基于LOF算法的異常值檢測(cè)
LOF異常檢測(cè)算法是一種基于密度的異常檢測(cè)算法，基于密度的異常檢測(cè)算法主要思想是：給定的樣本數(shù)據(jù)集，對(duì)于數(shù)據(jù)集中的點(diǎn)，如果其局部領(lǐng)域的點(diǎn)都很密集，那么這個(gè)點(diǎn)大概率為正常的數(shù)據(jù)點(diǎn)；而如果這個(gè)點(diǎn)距離其相鄰的點(diǎn)距離較遠(yuǎn)，也就是在一個(gè)局部領(lǐng)域的點(diǎn)密度較小
2024年02月11日
瀏覽(24)
MATLAB算法實(shí)戰(zhàn)應(yīng)用案例精講-【圖像處理】缺陷檢測(cè)（附python和matlab實(shí)現(xiàn)代碼）
目錄前言算法原理什么是缺陷檢測(cè) 缺陷檢測(cè)任務(wù) 缺陷檢測(cè)的關(guān)鍵問題
2023年04月17日
瀏覽(97)
《異常檢測(cè)——從經(jīng)典算法到深度學(xué)習(xí)》21 Anomaly Transformer：具有關(guān)聯(lián)差異的時(shí)間序列異常檢測(cè)
0 概論 1 基于隔離森林的異常檢測(cè)算法 2 基于LOF的異常檢測(cè)算法 3 基于One-Class SVM的異常檢測(cè)算法 4 基于高斯概率密度異常檢測(cè)算法 5 Opprentice——異常檢測(cè)經(jīng)典算法最終篇 6 基于重構(gòu)概率的 VAE 異常檢測(cè) 7 基于條件VAE異常檢測(cè) 8 Donut: 基于 VAE 的 Web 應(yīng)用周期性 KPI 無監(jiān)督異常檢測(cè)
2024年02月11日
瀏覽(23)

<pre id="vznfd"></pre>

<optgroup id="vznfd"><bdo id="vznfd"></bdo></optgroup>