国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

這篇具有很好參考價(jià)值的文章主要介紹了【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

背景介紹

葡萄酒在人類歷史中扮演著非常重要的角色,它能舒緩疲勞、減輕病痛、消毒殺菌、美容養(yǎng)顏等等直到19世紀(jì)晚期,葡萄酒都是西方醫(yī)學(xué)中不可缺少的用品,適量飲用對人的身體會(huì)有益處。無論是用于交際會(huì)談,還是滋身養(yǎng)顏,優(yōu)良的葡萄酒因其獨(dú)特的風(fēng)味與絕佳的品質(zhì)往往具有高昂的價(jià)格。因而,葡萄酒的質(zhì)量評估成為酒品釀造行業(yè)的重要過程。

通常情況下,我們根據(jù)葡萄酒的理化性質(zhì)及行業(yè)的前導(dǎo)經(jīng)驗(yàn)判斷葡萄酒的品質(zhì)。本次實(shí)驗(yàn),我們基于葡萄酒數(shù)據(jù)集,通過數(shù)據(jù)挖掘的方法實(shí)現(xiàn)了對數(shù)據(jù)集的可視化及數(shù)據(jù)清洗,利用異常檢測的方法篩除劣質(zhì)葡萄酒。

數(shù)據(jù)可視化探索分析

2.1. 數(shù)據(jù)整體情況介紹

數(shù)據(jù)來源于UCI機(jī)器學(xué)習(xí)庫中與葡萄牙“Vinho Verde”葡萄酒的紅白變體(白葡萄酒和紅葡萄酒)有關(guān)的兩個(gè)數(shù)據(jù)集?!癡inho Verde”葡萄酒是葡萄牙米尼奧(西北)地區(qū)的獨(dú)特產(chǎn)品,由于其酒精含量適、新鮮度高等特點(diǎn)受到市場歡迎。

我們得到原始的葡萄酒數(shù)據(jù)集,利用info函數(shù)查看數(shù)據(jù)集基本情況:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

可以得知,總數(shù)據(jù)量為6497條,包含13種屬性,其中葡萄酒種類(type)為object類型,感官評分(quality)為int類型,其余屬性均為float類型。數(shù)據(jù)集中的各屬性描述如表1所示:

Field

Attribute

Description

type

類型

葡萄酒種類:白葡萄酒和紅葡萄酒

fixed acidity

固定酸度

固定酸度是由于葡萄酒中存在非揮發(fā)性酸。例如,酒石酸、檸檬酸或蘋果酸。這種酸結(jié)合了葡萄酒味道的平衡,使味道清新

volatile acidity

揮發(fā)性酸度

揮發(fā)性酸度是葡萄酒中可以通過嗅覺聞到的酸的一部分,是最常見的缺陷之一。葡萄酒中醋酸的含量過高會(huì)導(dǎo)致令人不愉快的醋味

citric acid

檸檬酸

可以用于葡萄酒的酸處理(增加酸度)、收集葡萄酒、清洗過濾器以防真菌和霉菌感染。少量檸檬酸可以增加葡萄酒的“新鮮度”和風(fēng)味

residual sugar

殘?zhí)?/p>

發(fā)酵停止后剩余的糖量

chlorides

氯化物

葡萄酒中部分礦物質(zhì)(例如鹽)的含量

free sulfur dioxide

游離二氧化硫

游離形式的二氧化硫在分子SO?(作為溶解氣體)和亞硫酸氫根離子之間存在平衡;它可以防止微生物的生長和葡萄酒的氧化

total sulfur dioxide

二氧化硫總量

游離和結(jié)合形式的SO?的量;在低濃度下,SO?在葡萄酒中幾乎檢測不到,但在游離SO?濃度超過50ppm時(shí),SO?在酒的鼻子和味道中變得明顯

density

密度

葡萄酒的密度可以小于或大于水,其值主要由酒精濃度和糖的含量決定

pH

酸堿度

描述葡萄酒的酸度或堿度從0(非常酸性)到14(非常堿性)

sulphates

硫酸鹽

一種葡萄酒添加劑,可以促進(jìn)二氧化硫氣體(SO?)水平,作為抗菌劑和抗氧化劑

alcohol

酒精

葡萄酒的酒精含量百分比

quality

基于感官的評分

多名葡萄酒專家根據(jù)個(gè)人感官感受對這些酒做了評分,分?jǐn)?shù)在0(?常差)和10(?常好)之間,僅作為最后預(yù)測效果的參考

表1 葡萄酒數(shù)據(jù)集屬性介紹

作為一種常見的飲品,我國對葡萄酒的理化性質(zhì)有著明確的規(guī)定。根據(jù)國家質(zhì)量監(jiān)督檢驗(yàn)檢疫總局頒布的GB/T 15037-2006 葡萄酒國家標(biāo)準(zhǔn),我們了解到葡萄酒的基本理化要求,明確葡萄酒數(shù)據(jù)字段值范圍的強(qiáng)制要求,方便后續(xù)處理可能的異常值時(shí),能夠較好地根據(jù)酒類學(xué)理論及國標(biāo)對其進(jìn)行處理。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

結(jié)合上述圖表,我們對數(shù)據(jù)集中各字段及酒品的特征要求進(jìn)行分析:

查閱資料可知,葡萄酒的三大基本特征是酸度、酒精和甜味。

酸度可以從兩方面考慮。一方面,酸可分為fixed acidity(固定酸)和volatile acidity(揮發(fā)酸),其總含量反映葡萄酒濃度。其中citric acid(檸檬酸)及揮發(fā)酸的含量能夠較好地反映葡萄酒的健康狀態(tài),幫助我們判斷葡萄酒的質(zhì)量、預(yù)測貯藏的困難程度。另一方面,pH(酸堿度)同樣可以指示酸度,反映葡萄酒品嘗起來口感的濃郁度。

此外,二氧化硫作為酸性氧化物,既能殺菌抗氧、澄清酒液,又對酸度有影響,本數(shù)據(jù)集中有free sulfur dioxide(游離二氧化硫)和total sulfur dioxide(二氧化硫總量)兩個(gè)相關(guān)字段。

酒精即葡萄酒中alcohol(酒精)的含量,大部分葡萄酒的酒精含量都在10-15%之間,酒精濃度過高會(huì)影響葡萄酒的口感;甜味則由葡萄酒中的residual sugar(殘留糖分)決定。

葡萄酒的density(密度)主要由酒精濃度和糖的含量決定,這同樣是葡萄酒酒精及甜味的重要衡量指標(biāo)。

chlorides(氯化物)和sulphates(硫酸鹽)都屬于葡萄酒中的礦物鹽成分,通常情況下含量分別是0.1-0.4g/L和0.25-0.85g/L,且紅葡萄酒所含的礦物質(zhì)多于白葡萄酒。

2.2. 數(shù)據(jù)質(zhì)量分析

2.2.1. 缺失率和覆蓋率

根據(jù)前述的數(shù)據(jù)集基本情況,我們發(fā)現(xiàn)部分字段存在缺失值。我們選擇查看數(shù)據(jù)的缺失率和覆蓋率情況。

繪制缺失值矩陣圖:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖1 葡萄酒數(shù)據(jù)集缺失值矩陣圖

由圖可知原數(shù)據(jù)集的缺失值數(shù)量極少。

統(tǒng)計(jì)各個(gè)字段缺失率和整體的數(shù)據(jù)覆蓋率(如果缺失字段同時(shí)為空,則表示該條數(shù)據(jù)沒有從外部數(shù)據(jù)中獲取到對應(yīng)的實(shí)例數(shù)據(jù),則數(shù)據(jù)未覆蓋該實(shí)例):

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

由結(jié)果可以看出數(shù)據(jù)缺失率較低且覆蓋率為100%。

綜上可知,數(shù)據(jù)集極少存在數(shù)據(jù)字段缺失的情況,數(shù)據(jù)質(zhì)量基本良好,具有開展數(shù)據(jù)挖掘的價(jià)值。

2.2.2. 重復(fù)率

我們認(rèn)為所有屬性值均相同的兩個(gè)實(shí)例數(shù)據(jù)算作重復(fù)數(shù)據(jù),在此基礎(chǔ)上,我們計(jì)算重復(fù)數(shù)據(jù)在整個(gè)數(shù)據(jù)集中的比例大?。?/p>

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖2 葡萄酒數(shù)據(jù)集重復(fù)率餅圖

由圖可以看出,數(shù)據(jù)集中重復(fù)值所占比例較小,數(shù)據(jù)整體可用性較高。

綜上所述,該數(shù)據(jù)集數(shù)據(jù)質(zhì)量較高,具有挖掘潛力。

2.3. 可視化探索分析

2.3.1. 箱線圖分析

箱線圖也稱箱形圖,用于反映一組或多組連續(xù)型定量數(shù)據(jù)分布的中心位置和散布范圍。它不僅能夠分析不同類別數(shù)據(jù)各層次水平差異,還能揭示數(shù)據(jù)間的離散程度、異常值、分布差異等。

基于葡萄酒數(shù)據(jù)集,我們繪制所有屬性的箱型圖進(jìn)行預(yù)覽:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們選擇葡萄酒中比較有代表性的三個(gè)屬性:固定酸度(fixed acidity)、揮發(fā)性酸度(volatile acidity)、檸檬酸(citric acid),繪制箱型圖:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖3 固定酸度、揮發(fā)性酸度、檸檬酸屬性箱型圖

以固定酸度(fixed acidity)的箱線圖為例,我們將該屬性下n條數(shù)據(jù)從小到大進(jìn)行排序,分為四等份。位于第25%(n+1)位置的數(shù)字是第一四分位數(shù)Q1,位于第50%(n+1)位置的數(shù)字是第二四分位數(shù)Q2(即中位數(shù)),位于第75%(n+1)位置的數(shù)字是第三四分位數(shù)Q3。第三四分位數(shù)與第一四分位數(shù)的差值稱為四分位距IQR(IQR=Q3-Q1),IQR表征在箱線圖中即為箱體的長度。

如圖所示,箱體填充部分包含了50%的數(shù)據(jù),箱體的上邊緣線值為Q3+1.5IQR,稱為上限;下邊緣線值為Q1-1.5IQR,稱為下限。上限是非異常范圍的最大值,下限是非異常范圍的最小值,即正常范圍是[Q1-1.5IQR,Q3+1.5IQR]。我們認(rèn)為超過該正常范圍的就是異常值(即圖中黃色方框區(qū)域)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

由圖3可知,固定酸度(fixed acidity)、揮發(fā)性酸度(volatile acidity)、檸檬酸(citric acid)這三個(gè)屬性都有一定數(shù)量的離群值,且其大多集中在較大值一側(cè),數(shù)據(jù)分布呈右偏態(tài)。

查看這三個(gè)屬性的數(shù)據(jù)描述,可以分別得到它們的四分位數(shù)、最大、最小值等重要信息。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

根據(jù)箱線圖,我們進(jìn)一步繪制紅葡萄酒和白葡萄酒(數(shù)據(jù)集中type屬性值分別為red和white)的上述三個(gè)屬性的對比箱線圖,如圖4所示。

以固定酸度(fixed acidity)屬性為例,由圖可以看出,在該屬性下,紅葡萄酒的異常值均集中在較大值一側(cè),而白葡萄酒的異常值則在較大值和較小值兩側(cè)均有分布。此外,紅葡萄酒數(shù)據(jù)在這三個(gè)屬性下的分布區(qū)間長度均大于白葡萄酒。這表明紅葡萄酒的固定酸度、揮發(fā)性酸度屬性的整體數(shù)值較白葡萄酒偏高。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖4 紅葡萄酒和白葡萄酒的固定酸度、揮發(fā)性酸度、檸檬酸屬性對比箱型圖

2.3.2. 數(shù)據(jù)集統(tǒng)計(jì)特征

常見的數(shù)據(jù)統(tǒng)計(jì)特征包括均值(Mean)、標(biāo)準(zhǔn)差(Std)、最小值(Min)、下四分位數(shù)(25%)、中位數(shù)(50%)、上四分位數(shù)(75%)、最大值(Max)等。

經(jīng)過計(jì)算,我們將數(shù)據(jù)集的統(tǒng)計(jì)特征結(jié)果進(jìn)行可視化,結(jié)果如圖5所示。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖5 數(shù)據(jù)集各屬性統(tǒng)計(jì)特征條形圖

2.3.3. 數(shù)據(jù)集數(shù)據(jù)可視化

直方圖是一種統(tǒng)計(jì)報(bào)告圖,由一系列高度不等的縱向條紋或線段表示數(shù)據(jù)分布的情況,用橫軸表示數(shù)據(jù)類型,縱軸表示分布情況。直方圖可以對數(shù)據(jù)集中各屬性的頻數(shù)表進(jìn)行可視化,用于探索各屬性下數(shù)值變量的分布。我們繪制直方圖如下。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖6 數(shù)據(jù)集各屬性直方圖

熱力圖是一種通過對色塊著色來顯示數(shù)據(jù)的統(tǒng)計(jì)圖表。利用熱力圖,我們可以根據(jù)圖中顏色直觀地查看數(shù)據(jù)集中多個(gè)屬性兩兩之間的相似度大小,相似度由皮爾遜相關(guān)系數(shù)度量。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖7 數(shù)據(jù)集各屬性相關(guān)系數(shù)熱力圖

Python中sns.pairplot() 函數(shù)可以探索數(shù)據(jù)集中的多個(gè)成對雙變量的分布,它會(huì)同時(shí)展示出輸入的Dataframe中每對變量的關(guān)系,并在對角線上展示每個(gè)變量自身作為單變量時(shí)的分布情況,有利于幫助我們理解變量間的關(guān)系。

繪圖時(shí),我們按葡萄酒種類(type)進(jìn)行分類。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖8 數(shù)據(jù)集部分屬性成對關(guān)系圖

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖9 數(shù)據(jù)集各屬性成對關(guān)系圖

數(shù)據(jù)清洗

3.1. 缺失值處理

根據(jù)2.2.1節(jié)中的缺失值分析可知,部分?jǐn)?shù)據(jù)的部分字段存在缺失值,可能會(huì)對后續(xù)分析造成影響,因此我們需要對數(shù)據(jù)集中的缺失值進(jìn)行處理。

統(tǒng)計(jì)所有實(shí)例屬性的缺失值情況:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

由于缺失值大于1的實(shí)例數(shù)量極少,我們使用刪除的方法進(jìn)行處理;缺失值小于等于1的實(shí)例有留存及后續(xù)處理的意義,對于缺失值等于1的實(shí)例,我們選用該缺失值所在特征屬性的中位數(shù)進(jìn)行填充:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

經(jīng)過處理,我們實(shí)現(xiàn)了對缺失數(shù)據(jù)的刪除及填充。

3.2. 數(shù)據(jù)去重

由2.2.2節(jié)中的重復(fù)率分析可知,數(shù)據(jù)集中存在小部分重復(fù)的實(shí)例。在本次數(shù)據(jù)分析工作中,重復(fù)值對質(zhì)量評估及異常檢測幾乎沒有影響,因而我們將異常的重復(fù)數(shù)據(jù)進(jìn)行處理,減少無效冗余。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

3.3. 數(shù)據(jù)異常值識(shí)別和處理

異常值通常指與數(shù)據(jù)集中的大多其他數(shù)據(jù)對象有明顯不同或其字段值不符合范圍的數(shù)據(jù)對象。

由于不同類型的酒的風(fēng)味、工藝及評價(jià)標(biāo)準(zhǔn)不同,我們選擇在異常值處理及后續(xù)過程中,根據(jù)酒的類型將原始數(shù)據(jù)集劃分為兩部分。其中,去重后的紅酒數(shù)據(jù)集的實(shí)例數(shù)為1357,去重后的白酒數(shù)據(jù)集的實(shí)例數(shù)為3968.

基于上述兩類數(shù)據(jù)集,我們將異常值的處理分為兩個(gè)步驟:

3.3.1. 異常值挖掘

由于數(shù)據(jù)來源于同一種酒,因而我們認(rèn)為酒的理化性質(zhì)值及其感官評分均表現(xiàn)出一定的穩(wěn)定性,界于某個(gè)合理的范圍內(nèi)。因而,若數(shù)據(jù)某字段值偏大或偏小,則該字段可能存在異常。我們接受部分?jǐn)?shù)據(jù)的部分字段值與其他數(shù)據(jù)的存在差異,但拒絕差距極大的假設(shè)。

在此,我們選用3σ原則發(fā)現(xiàn)異常值。

3σ原則是指我們認(rèn)為服從正態(tài)分布或近似正態(tài)分布的數(shù)據(jù),其值有99.7%的概率集中在(μ-3σ,μ+3σ)區(qū)間內(nèi)(μ為平均值,σ為標(biāo)準(zhǔn)差),超出這個(gè)范圍的可能性僅占0.3%,屬于極個(gè)別的小概率事件,因此我們將超出(μ-3σ,μ+3σ)范圍的值認(rèn)為是異常值。

3σ原則中涉及到的重要數(shù)據(jù)特征為平均值與標(biāo)準(zhǔn)差。此外,數(shù)據(jù)的最大值和最小值也能幫助我們了解數(shù)據(jù)的分布情況。

因而,我們計(jì)算并可視化了去重后的數(shù)據(jù)的關(guān)鍵統(tǒng)計(jì)特征,結(jié)果如圖10和圖11所示:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖10 紅葡萄酒的關(guān)鍵數(shù)據(jù)特征條形圖

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖11 白葡萄酒的關(guān)鍵數(shù)據(jù)特征條形圖

我們根據(jù)紅葡萄酒和白葡萄酒的均值與標(biāo)準(zhǔn)差,對各屬性計(jì)算3σ區(qū)間范圍,并對負(fù)值進(jìn)行歸零處理,獲得3σ區(qū)間向量。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們認(rèn)為數(shù)據(jù)任意字段的屬性值不在3σ區(qū)間內(nèi)則數(shù)據(jù)的該字段值存在異??赡?,我們記錄各類型葡萄酒的各屬性下異常值對應(yīng)的數(shù)據(jù)索引值。以紅葡萄酒為例:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

紅葡萄酒和白葡萄酒的異常字段值的數(shù)據(jù)索引列表如下:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們對上述索引進(jìn)行記錄后,需要根據(jù)相關(guān)的酒類學(xué)理論對這些可能的異常值其進(jìn)行核驗(yàn),確定是否需要處理。

3.3.2. 異常值處理

由于酒品質(zhì)量本身存在差異,葡萄酒的理化性質(zhì)也會(huì)有所不同,數(shù)值有存在較大差異的可能且該差異是我們后續(xù)篩除劣質(zhì)葡萄酒的重要區(qū)分條件,不能粗暴簡單地以所謂的“嚴(yán)重偏離”來定義異常值。

我們假定,在數(shù)據(jù)本身記錄無誤的情況下,我們在此只認(rèn)定不符合食品生產(chǎn)理化要求的數(shù)據(jù)為不符合生產(chǎn)要求的異常值,并予以剔除。

我們根據(jù)2.1中的GB/T 15037-2006 葡萄酒國家標(biāo)準(zhǔn),明確其對葡萄酒的酒精含量、揮發(fā)酸含量及不同甜度下的檸檬酸含量的限制,即:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

依此,我們篩除上述理化要求對應(yīng)的異常值。

首先,根據(jù)3.3.1中的屬性條形圖可知,白葡萄酒和紅葡萄酒數(shù)據(jù)的酒精含量屬性值均高于國標(biāo)閾值7.0,因而該字段不存在異常值。

其次,根據(jù)3.3.1中的屬性條形圖可知,白葡萄酒數(shù)據(jù)的揮發(fā)酸含量屬性正常,紅葡萄酒數(shù)據(jù)則存在異常值,我們利用3.3.1中的索引列表,迅速定位異常值。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

最后,根據(jù)3.3.1中的屬性條形圖可知,數(shù)據(jù)多為殘?zhí)呛康陀?5g/L的非甜葡萄酒,且部分葡萄酒檸檬酸含量高于1g/L。因此,我們基于國標(biāo)對葡萄酒甜度的分類,根據(jù)數(shù)據(jù)的residual sugar(殘?zhí)牵┳侄沃祵Σ煌愋推咸丫频臋幟仕岷窟M(jìn)行分析。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們依據(jù)索引值在對應(yīng)數(shù)據(jù)集中刪除不符合生產(chǎn)要求的實(shí)例,由于白葡萄酒數(shù)據(jù)中沒有不符合理化要求的實(shí)例,我們只對紅葡萄酒數(shù)據(jù)集進(jìn)行處理。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

3.4. 數(shù)據(jù)噪聲識(shí)別和處理

噪聲是指數(shù)據(jù)集中的干擾數(shù)據(jù),對場景描述不準(zhǔn)確的數(shù)據(jù),即測量變量中的隨機(jī)誤差或方差。我們選用箱線圖對數(shù)據(jù)噪聲情況進(jìn)行分析。

首先,我們對不同類型的葡萄酒的各屬性再次繪制箱線圖,結(jié)果如圖12所示。由箱線圖可以看出,紅葡萄酒和白葡萄酒的各屬性均存在噪聲,且數(shù)據(jù)特征間存在較明顯的差異。

但紅葡萄酒數(shù)據(jù)的citric acid(檸檬酸含量)屬性相對白葡萄酒集中,噪聲較少;白葡萄酒數(shù)據(jù)的alcohol(酒精含量)屬性相對紅葡萄酒集中,噪聲較少,即紅葡萄酒的檸檬酸含量和白葡萄酒的酒精含量字段無明顯噪聲。

考慮到算法特性,我們在此不處理這些噪聲數(shù)據(jù)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖12 不同類型葡萄酒的各屬性箱線圖

3.5. 主成分分析

PCA(主成分分析)是一種常見的數(shù)據(jù)降維方法,能夠在“信息”損失較少的前提下,對高維的數(shù)據(jù)進(jìn)行降維,從而減小計(jì)算量,其原理為如下:

基于最小投影距離和最大投影方差的思想,我們通過對n維樣本x(i)求其k維(k<n)主成分,即為求其協(xié)方差矩陣XXT的前k個(gè)特征值對應(yīng)的特征向量矩陣W,然后對樣本x(i)做如下變換z(i)=WTx(i),即可達(dá)到降維目的。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

接下來,我們將利用PCA對紅葡萄酒和白葡萄酒的數(shù)值屬性分別做主成分分析。

我們定義方法PCA:首先計(jì)算每一列的均值向量mean_vector,獲得原始數(shù)據(jù)減掉均值后中心化得到的矩陣normal_data。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

根據(jù)中心化后的數(shù)據(jù),計(jì)算其協(xié)方差矩陣Covmatrix。我們默認(rèn)行為數(shù)據(jù)的基本處理單位,對協(xié)方差矩陣進(jìn)行對角化,計(jì)算出其特征值矩陣eig_val與特征向量矩陣eig_vec。我們利用切片方法,根據(jù)特征值大小從大到小對特征值矩陣進(jìn)行排序,得到eig_val_sorted。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

由PCA原理可知,eig_val_sorted的前k個(gè)特征值對應(yīng)的k個(gè)特征向量即為前k個(gè)主成分。我們計(jì)算各主成分的累計(jì)率及累積貢獻(xiàn)率,了解各主成分對方差的解釋率,從而幫助我們選擇合適的主成分?jǐn)?shù)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們利用numpy中的argsort方法,得到特征值的有序索引列表,以便由此篩選出特征向量,組成用于降維的矩陣eig_tool。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

最后,我們利用矩陣乘法,將中心化后的數(shù)據(jù)進(jìn)行降維,得到降維后的數(shù)據(jù)new_data,并返回用于降維的矩陣、排序后的特征值向量及降維后的矩陣。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

在主函數(shù)中,我們導(dǎo)入數(shù)據(jù)并除去“屬性”和“質(zhì)量”字段,僅保留其余11個(gè)與葡萄酒理化性質(zhì)有關(guān)的字段。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們先隨機(jī)指定任意要降維到的維度,得到各主成分的累積貢獻(xiàn)率??梢钥闯觯皟蓚€(gè)主成分解釋了原數(shù)據(jù)99.5%的方差,所以使用兩個(gè)主成分幾乎可以完全代替原來11個(gè)變量,我們確定紅酒數(shù)據(jù)的主成分?jǐn)?shù)為2。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們指定降維維度dim = 2,調(diào)用PCA方法得到與紅葡萄酒數(shù)據(jù)相關(guān)的各矩陣,其中用于降維的兩個(gè)主成分如下,紅色框向量為第一主成分,藍(lán)色框向量為第二主成分。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

最后,我們利用上述數(shù)據(jù)繪制圖像,得到去除與PCA無關(guān)字段后的特征值-字段索引值折線圖,見圖13。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖13 紅葡萄酒字段索引值-特征值折線圖

同理,利用白葡萄酒數(shù)據(jù),我們可以得到白葡萄酒各主成分的累積貢獻(xiàn)率、前兩個(gè)主成分向量及其特征值-字段索引值折線圖。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

圖14 白葡萄酒字段索引值-特征值折線圖

至此,我們完成了對紅葡萄酒和白葡萄酒數(shù)據(jù)的主成分分析。

3.6. 特征工程

特征工程的目的是最大限度地從原始數(shù)據(jù)中提取特征以供算法和模型使用。特征工程處理流程主要包括四個(gè)方面,我們在此僅關(guān)注特征處理和特征生成這兩方面。

特征工程對數(shù)據(jù)挖掘具有重要的意義。通常情況下,特征越好,其靈活性越強(qiáng),構(gòu)建的模型在參數(shù)非最優(yōu)的條件下仍然可以簡單而性能出色,

由于我們的數(shù)據(jù)集均為數(shù)字特征,因此我們后續(xù)均針對數(shù)字特征選用合適的方法進(jìn)行處理。

3.6.1. 數(shù)字特征處理

在數(shù)據(jù)挖掘過程中,不同評價(jià)指標(biāo)間往往具有不同的量綱和單位,這會(huì)影響到數(shù)據(jù)分析的結(jié)果。為了消除指標(biāo)之間量綱的影響,我們需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,使數(shù)據(jù)指標(biāo)具有可比性。

常見的數(shù)據(jù)標(biāo)準(zhǔn)化處理方法是Z-score,這是一種基于原始數(shù)據(jù)的均值和標(biāo)準(zhǔn)差,通過減去均值然后除以標(biāo)準(zhǔn)差實(shí)現(xiàn)中心化和正態(tài)分布的方法,公式可表示為:

x =(x - μ)/σ

我們利用sklearn庫中的preprocessing對數(shù)據(jù)進(jìn)行處理,得到紅葡萄酒和白葡萄酒的Z-score結(jié)果。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

3.6.2. 數(shù)字特征構(gòu)建

根據(jù)2.1中數(shù)據(jù)的整體情況介紹及查閱到的相關(guān)資料,我們決定基于數(shù)據(jù)的11個(gè)與理化性質(zhì)有關(guān)的字段進(jìn)行新的數(shù)字特征構(gòu)建。

首先,我們選擇將fixed acidity(固定酸度)、volatile acidity(揮發(fā)性酸度)和pH(酸堿度)進(jìn)行合并,構(gòu)建total acidity(總酸度)特征。由于citric acid(檸檬酸)是固定酸中的一種,我們忽略該字段。

其次,我們選擇將residual sugar(殘?zhí)牵?、density(密度)和alcohol(酒精)進(jìn)行合并,構(gòu)建sugar alcohol percent(酒糖比例)特征。

此外,我們選擇將chlorides(氯化物)和sulphates(硫酸鹽)進(jìn)行合并,構(gòu)建mineral salt(礦物鹽)特征。

最后,我們選擇保留total sulfur dioxide(二氧化硫總量)特征和quality(質(zhì)量)特征。由于free sulfur dioxide(游離二氧化硫)是二氧化硫中的一種組分,我們忽略該字段。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

根據(jù)國標(biāo),我們對新的特征定義如下(均基于Z-score標(biāo)準(zhǔn)化后的字段):

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們構(gòu)建的新特征含義如下:

  1. 總酸度特征反映葡萄酒的濃度及酸度,總酸度值越高(低),葡萄酒的口感越(不)酸。

  1. 酒糖比例特征反映葡萄酒的甜度及酒精度數(shù),酒糖比例越高(低),葡萄酒的酒精度數(shù)越高(低),口感越澀(甜)。

  1. 礦物鹽特征反映葡萄酒的礦物質(zhì)含量,礦物鹽量越高(低),葡萄酒的礦物質(zhì)總含量越高(低)。其中,礦物鹽特征的線性組合系數(shù)由原數(shù)據(jù)集兩字段的均值之比經(jīng)規(guī)范化處理后得到。

異常檢測

4.1.相關(guān)原理及概念

4.1.1. 異常檢測的概念

異常是數(shù)據(jù)集中的小比例數(shù)據(jù)對象,也被稱作離群點(diǎn)。

異常檢測也被稱作離群值檢測,即從整個(gè)數(shù)據(jù)集中識(shí)別出不同于大比例數(shù)據(jù)對象的離群對象以便進(jìn)行后續(xù)分析。在本次數(shù)據(jù)挖掘任務(wù)中,我們的目標(biāo)檢測異常為經(jīng)主成分分析后的葡萄酒數(shù)據(jù)中綜合得分較差的數(shù)據(jù),即原數(shù)據(jù)集中的劣質(zhì)葡萄酒。

4.1.2. 異常檢測的原理

異常檢測的原理是基于相似性度量進(jìn)行的相似度分析。

根據(jù)定義,異常是數(shù)據(jù)集中的小比例數(shù)據(jù)對象,它們通常表現(xiàn)為屬性值與多數(shù)對象差異較大或在多維空間中的位置分布與其余數(shù)據(jù)對象距離很遠(yuǎn),即與其他對象數(shù)據(jù)的相似程度比較低。

通常情況下,我們利用相似度指標(biāo)對數(shù)據(jù)進(jìn)行分析,找出與大多數(shù)據(jù)存在明顯差異的離群數(shù)據(jù),實(shí)現(xiàn)異常檢測。

常見的相似度指標(biāo)有歐幾里得距離、余弦相似度、皮爾遜相關(guān)系數(shù)、杰卡德相似度等。在本次數(shù)據(jù)挖掘任務(wù)中,我們得到的二維數(shù)據(jù)可以直觀地表示在二維平面上,用歐氏距離衡量數(shù)據(jù)點(diǎn)間的相似性。距離越近(遠(yuǎn)),數(shù)據(jù)點(diǎn)間的相似度越高(低)。

4.2.算法描述及相關(guān)案例

根據(jù)數(shù)據(jù)在主成分分析后只有兩個(gè)字段及其他特性,我們決定選用DBSCAN方法,利用聚類的思想實(shí)現(xiàn)離群值的檢測。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

4.2.1.算法介紹

DBSCAN是極具代表性的基于密度的聚類算法。它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,是一種非常有效的聚類算法。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

4.2.2.算法描述

DBSCAN算法的核心是“延伸”,其需要確定兩個(gè)參數(shù):

  1. 近鄰距離(Epsilon):一個(gè)點(diǎn)鄰域的半徑。

  1. 數(shù)據(jù)個(gè)數(shù)閾值(MinPts):鄰域內(nèi)至少需要包含數(shù)據(jù)點(diǎn)的個(gè)數(shù)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

根據(jù)以上兩個(gè)參數(shù),結(jié)合近鄰特征,我們把樣本點(diǎn)分成三類:

  1. 核心點(diǎn)(Core point):核心點(diǎn)在其近鄰距離內(nèi)的數(shù)據(jù)點(diǎn)個(gè)數(shù)不少于閾值。

  1. 邊緣點(diǎn)(Border point):邊緣點(diǎn)在其近鄰距離內(nèi)的數(shù)據(jù)點(diǎn)個(gè)數(shù)少于閾值,但其位于核心點(diǎn)的近鄰距離內(nèi)。

  1. 離群點(diǎn)(Outlier):離群點(diǎn)既不是核心點(diǎn)也不是邊緣點(diǎn)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

DBSCAN的一般步驟是(在已知Epsilon和MinPts的前提下):

  1. 選擇一個(gè)在其鄰域內(nèi)至少有MinPts的隨機(jī)點(diǎn),建立一個(gè)簇。

  1. 對核心點(diǎn)鄰域內(nèi)的各點(diǎn)進(jìn)行判斷,確定該點(diǎn)在其自己的鄰域內(nèi)是否有MinPts個(gè)數(shù)據(jù)點(diǎn) (包括點(diǎn)本身)。如果該點(diǎn)滿足標(biāo)準(zhǔn),即為另一個(gè)核心點(diǎn),將其加入本簇內(nèi),該簇得到擴(kuò)展;否則,它為邊緣點(diǎn),同樣將其加入本簇內(nèi)。

  1. 當(dāng)簇被邊緣點(diǎn)包圍時(shí),這個(gè)聚類簇已經(jīng)搜索完全。選擇一個(gè)新的隨機(jī)點(diǎn),重復(fù)以上過程以識(shí)別下一個(gè)簇。

  1. 當(dāng)所有簇均形成時(shí),聚類結(jié)束。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

4.2.3.算法實(shí)現(xiàn)

基于上述算法描述,我們給出實(shí)現(xiàn)DBSCAN的偽代碼:

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

源自網(wǎng)絡(luò)

4.2.4.背景

為實(shí)現(xiàn)“確定輸入?yún)?shù)所需的相關(guān)知識(shí)最少、能夠發(fā)現(xiàn)任意形狀的聚類以及在大型數(shù)據(jù)庫上具有高效性”的目標(biāo),Ester 等人在1996年最初提出DBSCAN 算法,該算法基于密度的聚類概念,旨在發(fā)現(xiàn)任意形狀的聚類。DBSCAN只需要兩個(gè)輸入?yún)?shù)且支持用戶為其確定適當(dāng)?shù)闹怠?/p>

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

DBSCAN 自發(fā)表后受到了學(xué)界的一致推崇,眾多科學(xué)文獻(xiàn)引用該算法,同時(shí)DBSCAN 算法也是 PreDeCon 和 SUBCLU 等聚類算法中的一部分。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

之后,DBSCAN算法不斷得到精進(jìn)與提高。1998年,Sander 和 Ester 提出了適用性更加廣泛的 GDBSCAN 算法;2007年,Birant 提出了用于時(shí)空數(shù)據(jù)處理的 ST-DBSCAN 算法;2010年,Kisilevich 等人提出了通過地理標(biāo)記照片數(shù)據(jù)挖掘地點(diǎn)和事件的P-DBSCAN算法。

2014年的時(shí)候,DBSCAN 算法獲得了2014 SIGKDD Test of Time Award。

4.2.5.應(yīng)用過程

我們將DBSCAN算法應(yīng)用到我們的葡萄酒異常檢測中。首先,我們介紹代碼中涉及到的自定義方法。

我們利用sklearn庫中的datasets模塊,定義loadDataSet方法。該方法可以導(dǎo)入txt格式的數(shù)據(jù)集,方便我們后續(xù)進(jìn)行DBSCAN運(yùn)算。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們利用numpy庫及歐氏距離的公式,定義方法dist,計(jì)算并返回兩個(gè)點(diǎn)之間的歐式距離,該方法的參數(shù)為兩個(gè)元組。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們根據(jù)DBSCAN算法的思路及偽代碼,定義dbscan方法,進(jìn)行聚類,該方法的參數(shù)為數(shù)據(jù)集、指定的近鄰距離及數(shù)據(jù)個(gè)數(shù)閾值。

在聚類過程中,我們借助列表unvisited和visited確定數(shù)據(jù)的訪問情況,并依據(jù)數(shù)據(jù)對象的鄰域數(shù)據(jù)點(diǎn)數(shù)與閾值的大小關(guān)系確定其為核心點(diǎn)、邊緣點(diǎn)還是噪聲點(diǎn)。

我們借助列表C記錄各數(shù)據(jù)索引最終對應(yīng)的簇索引值。對于未被聚類的數(shù)據(jù),其簇標(biāo)簽為-1;否則,其簇標(biāo)簽為非負(fù)整數(shù)k。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們利用歐氏距離公式,定義select_MinPts方法,獲知數(shù)據(jù)集各點(diǎn)的k近鄰距離,以便后續(xù)我們通過繪制k近鄰有序距離圖找到拐點(diǎn)位置,確定DBSCAN參數(shù)的粗略范圍。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

我們借助kneed庫中的KneeLocator模塊,定義knee_point_search方法檢測拐點(diǎn),獲知合理的參數(shù)Epsilon和minPts,以達(dá)到滿足實(shí)際需求的聚類效果。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

在進(jìn)行DBSCAN前,我們首先需要合理地確定兩個(gè)參數(shù)的取值。通常情況下,我們繪制k近鄰有序距離圖,找出平滑曲線的拐點(diǎn)位置,對應(yīng)的距離即為Epsilon的值;對應(yīng)的數(shù)據(jù)個(gè)數(shù)+1即為MinPts的值。確定參數(shù)值的步驟如下:

首先,我們導(dǎo)入數(shù)據(jù)。以紅葡萄酒數(shù)據(jù)集為例,我們使用loadDataSet函數(shù)導(dǎo)入只包含兩個(gè)主成分屬性的紅酒數(shù)據(jù)集redForClustering.txt,借助select_MinPts方法獲知數(shù)據(jù)集的k近鄰距離列表,并按照距離大小從大到小排序。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

通過繪制k近鄰距離排序折線圖,我們可以發(fā)現(xiàn)數(shù)據(jù)點(diǎn)的特性,進(jìn)而了解參數(shù)的粗略范圍。通過縮小折線圖的數(shù)據(jù)范圍,我們可以更加清晰地看到曲線上的數(shù)據(jù)點(diǎn)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

可以看出,數(shù)據(jù)集的拐點(diǎn)位置大致在([10-30],[10-15])間,但我們猶未可知拐點(diǎn)的具體坐標(biāo)值,因而我們選擇數(shù)學(xué)方法,通過計(jì)算得到拐點(diǎn)的精確坐標(biāo)。

利用knee_point_search方法,我們發(fā)現(xiàn)紅酒數(shù)據(jù)集存在拐點(diǎn)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

根據(jù)拐點(diǎn)坐標(biāo),我們選擇合適的Epsilon和minPts作為DBSCAN算法的參數(shù),并用indexList記錄各簇?cái)?shù)據(jù)點(diǎn)的索引值。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

在此基礎(chǔ)上,我們繪制散點(diǎn)圖,用可視化的方法直觀判斷離群點(diǎn)。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

可以看出,黃色的點(diǎn)形成的簇代表理化性質(zhì)正常紅葡萄酒,紫色的點(diǎn)則是我們本次異常檢測的目標(biāo)對象——理化性質(zhì)不符合要求的劣質(zhì)紅葡萄酒及噪聲點(diǎn)。

可以看出,右上角的紫色數(shù)據(jù)點(diǎn)為異常數(shù)據(jù),左下角的紫色點(diǎn)數(shù)據(jù)為噪聲數(shù)據(jù),但其均屬于我們要篩除的不符合要求的數(shù)據(jù)點(diǎn),故在此不作另外區(qū)分。

我們將根據(jù)簇索引值打印劣質(zhì)紅葡萄酒的索引值列表,以便后續(xù)篩選分析。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

同理,我們可以得到白葡萄酒數(shù)據(jù)集的相關(guān)信息。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

其中,右下角的紫色數(shù)據(jù)點(diǎn)為異常數(shù)據(jù),左上角的紫色點(diǎn)數(shù)據(jù)為噪聲數(shù)據(jù),但其同樣均屬于我們要篩除的不符合要求的數(shù)據(jù)點(diǎn),也不作另外區(qū)分。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測
【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

至此,我們通過基于聚類的方法DBSCAN實(shí)現(xiàn)了異常檢測,找到了數(shù)據(jù)集中的離群點(diǎn),挖掘出了不應(yīng)流入市場的劣質(zhì)的紅、白葡萄酒。

4.2.6.結(jié)果分析

在利用DBSCAN進(jìn)行異常檢測的過程中,參數(shù)的選擇是非常重要的。我們根據(jù)k近鄰距離排序折線圖,可以粗略地估計(jì)參數(shù)并繪制散點(diǎn)圖觀察聚類情況,但參數(shù)不合理的算法得到的聚類效果非常不理想。

【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測

由于數(shù)據(jù)集均源自同一類酒,其理化性質(zhì)相對接近,數(shù)值本身不會(huì)存在大規(guī)模的極其明顯的差異,因而在數(shù)據(jù)密集區(qū)域內(nèi)出現(xiàn)多個(gè)簇的現(xiàn)象是不合理的。

我們通過計(jì)算拐點(diǎn),得到最合適的參數(shù)后繪制出的散點(diǎn)圖均只有若干代表“劣質(zhì)葡萄酒”的離群點(diǎn)和代表“正常葡萄酒”的數(shù)據(jù)點(diǎn)形成的單一簇,比較符合數(shù)據(jù)本身的描述。

因而我們可知,本次異常檢測得到的結(jié)果具有較高的可信度,是一次成功的異常檢測。

4.3.未來挑戰(zhàn)

異常檢測面臨著眾多挑戰(zhàn),包括但不限于:

異常的定義問題:現(xiàn)實(shí)生活中的異常通常沒有明確的定義,需要我們根據(jù)實(shí)際情況及應(yīng)用需求進(jìn)行合理定義。但復(fù)雜的現(xiàn)實(shí)因素使得我們很難挖掘并給出真正能夠解決問題的異常定義。此外,我們也缺乏對異常的發(fā)生模式的合理定義。

異常的未知性:異常與許多未知因素有關(guān),很多情況下它們直到真正發(fā)生時(shí)才為人所知,因而我們很難提前預(yù)知異常。例如,未知的突發(fā)行為、恐怖襲擊、詐騙和網(wǎng)絡(luò)入侵等。

異常的異構(gòu)性:異常是不規(guī)則的,一類異??赡鼙憩F(xiàn)出與另一類異常完全不同的異常特征。例如,在視頻監(jiān)控中,搶劫、交通事故和盜竊等異常事件在視覺上有很大差異;

異常的類別不均衡:異常是小比例的數(shù)據(jù)實(shí)例,正常實(shí)例通常占數(shù)據(jù)的絕大部分。因此,收集大量具有標(biāo)簽的異常實(shí)例是困難甚至不可能的。這導(dǎo)致在大多數(shù)情況下,我們無法獲得大規(guī)模的標(biāo)記數(shù)據(jù),異常檢測的難度也會(huì)隨之提高。

異常檢測的性能要求:數(shù)據(jù)包含的噪音會(huì)嚴(yán)重影響異常檢測的算法性能。此外,在時(shí)間序列的異常檢測中,其數(shù)據(jù)通常是非平穩(wěn)、非線性和動(dòng)態(tài)演化的,隨著時(shí)間序列長度的增加,異常檢測的計(jì)算復(fù)雜度也在不斷增長,對相關(guān)軟、硬件的性能提出了很高的要求。

源代碼及數(shù)據(jù):https://github.com/YourHealer/DM-Wine-Quality-Analysis.git文章來源地址http://www.zghlxwxcb.cn/news/detail-440934.html

到了這里,關(guān)于【數(shù)據(jù)挖掘】葡萄酒質(zhì)量分析及異常值檢測的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 基于K近鄰的葡萄酒質(zhì)量檢測項(xiàng)目

    基于K近鄰的葡萄酒質(zhì)量檢測項(xiàng)目

    ?? 項(xiàng)目專欄:【機(jī)器學(xué)習(xí)項(xiàng)目實(shí)戰(zhàn)案例目錄】項(xiàng)目詳解 + 完整源碼 ?? 『精品學(xué)習(xí)專欄導(dǎo)航帖』 ??

    2024年02月03日
    瀏覽(41)
  • 數(shù)據(jù)分析案例-基于PCA主成分分析法對葡萄酒數(shù)據(jù)進(jìn)行分析

    數(shù)據(jù)分析案例-基于PCA主成分分析法對葡萄酒數(shù)據(jù)進(jìn)行分析

    ???♂? 個(gè)人主頁:@艾派森的個(gè)人主頁 ???作者簡介:Python學(xué)習(xí)者 ?? 希望大家多多支持,我們一起進(jìn)步!?? 如果文章對你有幫助的話, 歡迎評論 ??點(diǎn)贊???? 收藏 ??加關(guān)注+ 目錄 1.項(xiàng)目背景 2.項(xiàng)目簡介 2.1分析目標(biāo) 2.2數(shù)據(jù)集介紹 2.3技術(shù)工具 3.算法理論 4.實(shí)驗(yàn)過程

    2024年02月03日
    瀏覽(27)
  • 2012年數(shù)學(xué)建模國賽A題(葡萄酒質(zhì)量評價(jià))優(yōu)秀論文.doc

    本博客下載鏈接包含修改的word版本, 可免費(fèi)下載閱覽學(xué)習(xí), 也可作為數(shù)學(xué)建模相關(guān)課程作業(yè)修改上交: 鏈接:https://pan.baidu.com/s/1JaNsp6aVhl0xLuESsKwv4Q?pwd=qtnc? 提取碼:qtnc 葡萄酒的評價(jià) 摘要 ? ? ?如今葡萄酒逐漸成為人們越來越喜愛的飲品。本文主要針對葡萄酒的評價(jià)問題,利用

    2024年02月11日
    瀏覽(32)
  • 6.1 葡萄酒評論分析報(bào)告

    任務(wù)描述 本關(guān)任務(wù):編寫程序,多維度分析葡萄酒數(shù)據(jù)。 第1關(guān)? 葡萄酒評論分析報(bào)告——國家列表和平均分 代碼如下: 第2關(guān)?葡萄酒評論分析報(bào)告——平均分排序和評分最高 代碼如下: 第3關(guān)?葡萄酒評論分析報(bào)告——價(jià)格最高和葡萄酒評分 代碼如下: 嘗試靜下心來做自

    2024年02月06日
    瀏覽(50)
  • 【數(shù)學(xué)建?!繃愓骖}分析 2012 A題 葡萄酒的評價(jià)

    【數(shù)學(xué)建模】國賽真題分析 2012 A題 葡萄酒的評價(jià)

    優(yōu)秀論文地址: 鏈接:https://pan.baidu.com/s/19WGpybgM6RncxTYhx61JRA?pwd=vl22 提取碼:vl22 –來自百度網(wǎng)盤超級(jí)會(huì)員V6的分享 確定葡萄酒質(zhì)量時(shí)一般是通過聘請一批有資質(zhì)的評酒員進(jìn)行品評。每個(gè)評酒員在對葡萄酒進(jìn)行品嘗后對其分類指標(biāo)打分,然后求和得到其總分,從而確定葡萄酒的

    2024年02月12日
    瀏覽(19)
  • 使用python實(shí)現(xiàn)葡萄酒威士忌風(fēng)味特征分類

    目的和描述: 蘇格蘭威士忌因其復(fù)雜性和多樣化的風(fēng)味而備受推崇。據(jù)信,生產(chǎn)它的蘇格蘭地區(qū)具有獨(dú)特的風(fēng)味特征。在本案例研究中,我們將根據(jù)蘇格蘭威士忌的風(fēng)味特征對其進(jìn)行分類。我們將使用的數(shù)據(jù)集包含來自幾個(gè)釀酒廠的精選蘇格蘭威士忌,我們將嘗試將威士忌聚

    2024年02月01日
    瀏覽(23)
  • 僅記錄我的第一次數(shù)學(xué)建模——葡萄酒的評價(jià)

    僅記錄我的第一次數(shù)學(xué)建?!咸丫频脑u價(jià)

    僅以此來記錄我的數(shù)學(xué)建模課小組作業(yè) ?2022.11.3周四運(yùn)動(dòng)會(huì)放假,終于有時(shí)間做數(shù)學(xué)建模啦(月底就要答辯了,今日數(shù)學(xué)建模小組作業(yè)進(jìn)度2.6666%, ?2022.11.23哈哈哈哈哈哈終于寫完了,但! tm查重30% 要求20%,累了,改不動(dòng)了,開擺(真服了,為啥找個(gè)負(fù)責(zé)有能力的隊(duì)友比世界

    2024年02月12日
    瀏覽(24)
  • 【咕咕送書 | 第四期】需求分析 | AI協(xié)助 | 數(shù)據(jù)挖掘 ? 試試ChatGPT為軟件開發(fā)大幅提高研發(fā)效率和質(zhì)量

    【咕咕送書 | 第四期】需求分析 | AI協(xié)助 | 數(shù)據(jù)挖掘 ? 試試ChatGPT為軟件開發(fā)大幅提高研發(fā)效率和質(zhì)量

    ?? 鴿芷咕 :個(gè)人主頁 ??? 個(gè)人專欄 :《粉絲福利》 《C語言進(jìn)階篇》 ??生活的理想,就是為了理想的生活! ? 參與方式: 關(guān)注 博主、 點(diǎn)贊 、 收藏 、 評論 ,任意評論(每人最多評論三次) ?? 本次送書 1~5 本 【 取決于閱讀量,閱讀量越多,送的越多 】 ?? 活動(dòng)時(shí)間

    2024年02月08日
    瀏覽(29)
  • kaggle新賽:寫作質(zhì)量預(yù)測大賽【數(shù)據(jù)挖掘】

    kaggle新賽:寫作質(zhì)量預(yù)測大賽【數(shù)據(jù)挖掘】

    賽題名稱: Linking Writing Processes to Writing Quality 賽題鏈接: https://www.kaggle.com/competitions/linking-writing-processes-to-writing-quality 寫作過程中存在復(fù)雜的行為動(dòng)作和認(rèn)知活動(dòng),不同作者可能采用不同的計(jì)劃修訂技術(shù)、展示不同的停頓模式或在全過程中策略性地分配時(shí)間,這些都可能影

    2024年02月07日
    瀏覽(25)
  • 關(guān)聯(lián)規(guī)則挖掘(上):數(shù)據(jù)分析 | 數(shù)據(jù)挖掘 | 十大算法之一

    ??????????歡迎來到我的博客?????????? ??作者: 秋無之地 ??簡介:CSDN爬蟲、后端、大數(shù)據(jù)領(lǐng)域創(chuàng)作者。目前從事python爬蟲、后端和大數(shù)據(jù)等相關(guān)工作,主要擅長領(lǐng)域有:爬蟲、后端、大數(shù)據(jù)開發(fā)、數(shù)據(jù)分析等。 ??歡迎小伙伴們 點(diǎn)贊????、收藏

    2024年02月07日
    瀏覽(32)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包