国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【數(shù)據(jù)挖掘】屬性及其類型和數(shù)據(jù)的統(tǒng)計描述四分位數(shù)等詳解(圖文解釋 超詳細)

這篇具有很好參考價值的文章主要介紹了【數(shù)據(jù)挖掘】屬性及其類型和數(shù)據(jù)的統(tǒng)計描述四分位數(shù)等詳解(圖文解釋 超詳細)。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

覺得有幫助請點贊關(guān)注收藏~~~

一、屬性及其類型

屬性:(Attribute)是一個數(shù)據(jù)字段,表示數(shù)據(jù)對象的一個特征。在文獻中,屬性、維(Dimension)、特征(Feature)和變量(Variable)表示相同的含義,可以在不同場合互換使用。

屬性類型:屬性的取值范圍決定了屬性的類型 一類是定性描述的屬性 一類是定量描述的屬性

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

?1. 標稱屬性

標稱屬性(Nominal Attribute)的值是一些符號或事物的名稱。每個值代表某種類別、編碼或狀態(tài),因此標稱屬性又可稱為是分類的(Categorical)。

標稱屬性的值是枚舉的,可以用數(shù)字表示這些符號或名稱。常見的標稱屬性如姓名、籍貫、郵政編碼或婚姻狀態(tài)等。標稱屬性的值不僅僅是不同的名字,它提供了足夠的信息用于區(qū)分對象

2. 二元屬性

二元屬性(Binary Attribute)是標稱屬性的特例,也是一種布爾屬性,對應(yīng)0和1兩個狀態(tài)。

二元屬性分為對稱的和非對稱的。如果屬性的狀態(tài)結(jié)果是同等重要的,如拋硬幣的結(jié)果狀態(tài),則該屬性是對稱的二元屬性。一個非對稱的二元屬性其狀態(tài)的結(jié)果不是同樣重要的,如病毒檢測的陽性和陰性結(jié)果。為了方便,用1對重要結(jié)果(通常是稀有的)編碼,另一個用0編碼。

3. 序數(shù)屬性

序數(shù)屬性(Ordinal Attribute)的可能值之間存在有意義的序或秩評定,但是相繼值之間的差是未知的。

常見的序數(shù)屬性如上衣的尺寸有S、M、L、XL,可以用數(shù)字如1、2、3、4分別對應(yīng)屬性的取值。由于序數(shù)屬性是有序的,它的中位數(shù)是有意義的,因此序數(shù)屬性的中心趨勢度量可以是眾數(shù)和中位數(shù)。

4. 數(shù)值屬性

數(shù)值屬性(Numeric Attribute)是可以度量的量,用整數(shù)或?qū)崝?shù)值表示,常見的數(shù)值屬性如年齡。數(shù)值屬性可以是區(qū)間標度的或比率標度的。

區(qū)分區(qū)間標度和比率標度的原則是該屬性是否有固有的零點,如攝氏溫度沒有固定的零點,其比值沒有意義。所以是區(qū)間標度屬性,而開式溫度有固有的零點,比值有意義,是比率標度屬性。

二、數(shù)據(jù)的基本統(tǒng)計描述

把握數(shù)據(jù)的分布對于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的?;镜臄?shù)據(jù)統(tǒng)計描述可以識別數(shù)據(jù)的性質(zhì),并凸顯哪些數(shù)據(jù)應(yīng)被視為噪聲或離群點。

把握數(shù)據(jù)的分布對于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的。基本的數(shù)據(jù)統(tǒng)計描述可以識別數(shù)據(jù)的性質(zhì),并凸顯哪些數(shù)據(jù)應(yīng)被視為噪聲或離群點。

中心趨勢度量:在統(tǒng)計學(xué)中是指一組數(shù)據(jù)向某一中心值靠攏的程度,它反映了一組數(shù)據(jù)中心點的位置所在。中心趨勢度量就是尋找數(shù)據(jù)水平的代表值或中心值。中心趨勢度量包括均值、中位數(shù)、眾數(shù)和中列數(shù)。

1.均值:數(shù)據(jù)集“中心”的最常用的數(shù)值度量是(算術(shù))均值。

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

均值是描述數(shù)據(jù)集的最常用統(tǒng)計量,但它并非度量數(shù)據(jù)中心的最佳方法,主要原因是均值對噪聲數(shù)據(jù)很敏感。

2. 中位數(shù):中位數(shù)(Median)又稱中點數(shù)或中值

在概率論與統(tǒng)計學(xué)中,中位數(shù)一般用于數(shù)值型數(shù)據(jù)。在數(shù)據(jù)挖掘中可以把中位數(shù)推廣到序數(shù)型數(shù)據(jù)中。

當數(shù)據(jù)量很大時,中位數(shù)的計算開銷會很大,此時可以采用近似估計的方法。假定數(shù)據(jù)可以根據(jù)數(shù)值劃分為區(qū)間,并且知道每個區(qū)間的數(shù)據(jù)個數(shù),可以使用如下公式計算中位數(shù):

?二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析?

?例:某企業(yè)50名工人加工零件的數(shù)據(jù)如表3-1所示,計算加工零件數(shù)值的中位數(shù)。

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

可以算出中位數(shù)的位置是25 在120-125這一組 由上面公式可以近似計算得到中位數(shù)為123.31

?3. 眾數(shù):眾數(shù)(Mode)是一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的數(shù)值。 具有一個、兩個或三個眾數(shù)的數(shù)據(jù)集分別稱為單峰(Unimodal)、雙峰(Bimodal)和三峰(Trimodal)。一般具有兩個或以上眾數(shù)的數(shù)據(jù)集是多峰的(Multimodal)。在極端情況下,如果每個數(shù)值只出現(xiàn)一次則它沒有眾數(shù)。

對于非對稱的單峰型數(shù)據(jù)集,一般有下面的經(jīng)驗關(guān)系:

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

4. 中列數(shù):中列數(shù)(Midrange)是數(shù)據(jù)集中的最大值和最小值的平均值,也可以度量數(shù)值數(shù)據(jù)的中心趨勢。

利用pandas統(tǒng)計中位數(shù)、均值和眾數(shù)

import pandas as pd
df=pd.DataFrame([[1,2],[7.-4],[3,9],[4,-4],[1,3]].columns=['one','two']
print(df.median())
print(df.max(axis=1))
print(df.mode())

?數(shù)據(jù)散布度量用于評估數(shù)值數(shù)據(jù)散布或發(fā)散的程度。散布度量的測定是對統(tǒng)計資料分散狀況的測定,即找出各個變量值與集中趨勢的偏離程度通過度量散布趨勢。

數(shù)據(jù)散布度量包括極差、分位數(shù)、四分位數(shù)、百分位數(shù)和四分位數(shù)極差。方差和標準差也可以描述數(shù)據(jù)分布的散布。

極差、四分位數(shù)和四分位數(shù)極差

極差(Range)又稱范圍誤差或全距,是一組觀測值的最大值與最小值之間的差距。極差是標志值變動的最大范圍,它是測定標志變動的最簡單的指標。

四分位數(shù)是將一組數(shù)據(jù)由小到大(或由大到小)排序后,用3個點將全部數(shù)據(jù)分為4等份,與這3個點位置上相對應(yīng)的數(shù)值稱為四分位數(shù),分別記為Q1(第一四分位數(shù)),說明數(shù)據(jù)中有25%的數(shù)據(jù)小于或等于Q1,Q2(第二四分位數(shù),即中位數(shù))說明數(shù)據(jù)中有50%的數(shù)據(jù)小于或等于Q2、Q3(第三四分位數(shù))說明數(shù)據(jù)中有75%的數(shù)據(jù)小于或等于Q3。其中,Q3到Q1之間的距離的差的一半又稱為分半四分位差,記為(Q3-Q1)/2。

第1個和第3個分位數(shù)之間的距離為四分位數(shù)極差

統(tǒng)計數(shù)據(jù)的分位數(shù)等統(tǒng)計量 調(diào)用describe函數(shù)即可

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

?五數(shù)概括、盒圖與離群點

五數(shù)概括法即用下面的五個數(shù)來概括數(shù)據(jù),分別是最小值、第1 四分位數(shù)(Q1)、中位數(shù)(Q2)、第3 四分位數(shù)(Q3)和最大值

二元屬性,數(shù)據(jù)挖掘,人工智能,python,數(shù)據(jù)挖掘,數(shù)據(jù)分析

盒圖的邊界分別為第一四分位數(shù)和第三四分位數(shù)

在箱體上中位數(shù)即第二四分數(shù)處畫垂線

虛線被稱為觸須線,觸須線的端點為最小值和最大值

利用四分位數(shù)間距IQR = Q3-Q1,找到界限,超出即為異常值

IQR左 = Q1 - 1.5×IQR IQR右 = Q3 + 1.5×IQR?

創(chuàng)作不易 覺得有幫助請點贊關(guān)注收藏~~~文章來源地址http://www.zghlxwxcb.cn/news/detail-763411.html

到了這里,關(guān)于【數(shù)據(jù)挖掘】屬性及其類型和數(shù)據(jù)的統(tǒng)計描述四分位數(shù)等詳解(圖文解釋 超詳細)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包