国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

這篇具有很好參考價(jià)值的文章主要介紹了使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

大家好,描述性統(tǒng)計(jì)分析主要是指求一組數(shù)據(jù)的平均值、中位數(shù)、眾數(shù)、極差、方差和標(biāo)準(zhǔn)差等指標(biāo),通過這些指標(biāo)來發(fā)現(xiàn)這組數(shù)據(jù)的分布狀態(tài)、數(shù)字特征等內(nèi)在規(guī)律。在Python中進(jìn)行描述性統(tǒng)計(jì)分析,可以借助Numpy、Pandas、SciPy等科學(xué)計(jì)算模塊計(jì)算出指標(biāo),然后用繪圖模塊Matplotlib繪制出數(shù)據(jù)的分布狀態(tài)和頻率及頻數(shù)直方圖,以更直觀的方式展示數(shù)據(jù)分析的結(jié)果。

一、描述性統(tǒng)計(jì)指標(biāo)計(jì)算

用describe()函數(shù)可以計(jì)算出以下值,代碼如下:

import pandas as pd
data= pd.read_excel('D:/shujufenxi/jjj.xlsx',index_col='序號')
data1=data.describe()
print(data1)
使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

除了此函數(shù)計(jì)算范圍此外,還可以計(jì)算以下值,代碼演示如下:

import pandas as pd
from numpy import mean,median,ptp,var,std
from scipy.stats import mode
data= pd.read_excel('D:/shujufenxi/jjj.xlsx',index_col='序號')
median=median(data['月薪(元)'])# 計(jì)算中位數(shù)
mode= mode(data['月薪(元)'])[0][0]#計(jì)算眾數(shù)
ptp=ptp(data['月薪(元)'])#極差
var=var(data['月薪(元)'])#方差
std=std(data['月薪(元)'])#標(biāo)準(zhǔn)差
print('中位數(shù):'+str(median))
print('眾數(shù):'+str(mode))
print('極差:'+str(ptp))
print('方差:'+str(var))
print('標(biāo)準(zhǔn)差:'+str(std))
使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

二、數(shù)據(jù)的分布

根據(jù)數(shù)據(jù)的分布是否對稱,數(shù)據(jù)的分布狀態(tài)可分為正態(tài)分布與偏態(tài)分布。偏態(tài)分布又分為正偏態(tài)分布與負(fù)偏態(tài)分布;若眾數(shù)<中位數(shù)<均值則為正偏態(tài)分布;若均值<中位數(shù)<眾數(shù),則為負(fù)偏態(tài)分布;由此可見,根據(jù)上面我們所得出的結(jié)果,屬于正偏態(tài)分布。接下來引申兩個(gè)概念:

  • 偏度--是指數(shù)據(jù)分布的偏斜方向和程度的度量,常用于衡量隨機(jī)分布的不均衡性。如果數(shù)據(jù)對稱分布,如標(biāo)準(zhǔn)正態(tài)分布,則偏度為0;如數(shù)據(jù)偏左分布,則偏度<0;如果數(shù)據(jù)右偏分布,則偏度>0

  • 峰度--是用來描述數(shù)據(jù)分布陡峭情況或平滑的情況,可以理解為數(shù)據(jù)分布的高矮程度。我們來繪制標(biāo)準(zhǔn)正態(tài)分布圖和月薪分布圖,我們將Matolotlib模塊和Seaborn模塊結(jié)合使用,代碼如下:

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
standard_normal=pd.Series(np.random.normal(0,1,size=1000000))
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
sns.kdeplot(standard_normal,fill=True,label='標(biāo)準(zhǔn)正態(tài)分布')
sns.kdeplot(data['月薪(元)'],label='月薪分布')
plt.show()
使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

三、數(shù)據(jù)的頻數(shù)與頻率分析

頻數(shù)是指數(shù)據(jù)中的類別變量的每種取值出現(xiàn)的次數(shù)。頻率是指每個(gè)類別變量的頻數(shù)與總次數(shù)的比值,通常用百分比表示。

演示如下:

import pandas as pd
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
frequency=data['月薪(元)'].value_counts()#value_counts()函數(shù)用來計(jì)算數(shù)據(jù)的頻數(shù)
percentage=frequency/len(data['月薪(元)'])# len()函數(shù)用來計(jì)算所選數(shù)據(jù)列的長度
print(frequency.head())
print(percentage.head())
使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

接下來,使用Matplotlib模塊中的hist()函數(shù)繪制頻數(shù)分布直方圖,演示代碼如下:

import pandas as pd
import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
data= pd.read_excel('D:/shujufenxi/jjj.xlsx')
plt.hist(data['月薪(元)'],bins=8,density=False,color='g',edgecolor='k',alpha=0.75)#bins參數(shù)用于指定繪制直方圖柱子的個(gè)數(shù),density參數(shù)為False時(shí)表示繪制頻數(shù)直方圖,反之則為頻率直方圖,alph用于設(shè)置柱子透明度
plt.xlabel('月薪')
plt.ylabel('頻數(shù)')
plt.title('月薪頻數(shù)分布直方圖')
plt.show()
使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析

從直方圖中可以很清晰地看出所實(shí)驗(yàn)數(shù)據(jù)中,月薪在6000-7000元區(qū)間內(nèi)的人數(shù)最多,從之前的分析中也可以看出月薪均值、中位數(shù)、眾數(shù)分別約為7564、6340、4646。大家亦可找實(shí)例進(jìn)行練習(xí)。文章來源地址http://www.zghlxwxcb.cn/news/detail-470849.html

到了這里,關(guān)于使用Python進(jìn)行數(shù)據(jù)分析——描述性統(tǒng)計(jì)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 第3章-指標(biāo)體系與數(shù)據(jù)可視化-3.2-描述性統(tǒng)計(jì)分析與繪圖

    目錄 變量的度量類型 變量的分布類型 正態(tài)分布 對數(shù)正態(tài)分布? 伽馬分布

    2024年02月07日
    瀏覽(28)
  • 使用Python進(jìn)行數(shù)據(jù)分析——方差分析

    使用Python進(jìn)行數(shù)據(jù)分析——方差分析

    大家好,方差分析可以用來判斷幾組觀察到的數(shù)據(jù)或者處理的結(jié)果是否存在顯著差異。本文介紹的方差分析(Analysis of Variance,簡稱ANOVA)就是用于檢驗(yàn)兩組或者兩組以上樣本的均值是否具備顯著性差異的一種數(shù)理統(tǒng)計(jì)方法。 根據(jù)影響試驗(yàn)條件的因素個(gè)數(shù)可以將方差分析分為

    2024年02月15日
    瀏覽(25)
  • 使用Python進(jìn)行數(shù)據(jù)分析——線性回歸分析

    使用Python進(jìn)行數(shù)據(jù)分析——線性回歸分析

    大家好,線性回歸是確定兩種或兩種以上變量之間互相依賴的定量關(guān)系的一種統(tǒng)計(jì)分析方法。根據(jù)自變量的個(gè)數(shù),可以將線性回歸分為一元線性回歸和多元線性回歸分析。 一元線性回歸:就是只包含一個(gè)自變量,且該自變量與因變量之間的關(guān)系是線性關(guān)系。例如通過廣告費(fèi)這

    2023年04月10日
    瀏覽(41)
  • 使用Python批量進(jìn)行數(shù)據(jù)分析

    使用Python批量進(jìn)行數(shù)據(jù)分析

    知識延伸 1、sort_value()是pandas模塊中DataFrame對象的函數(shù),用于將數(shù)據(jù)區(qū)域按照某個(gè)字段的數(shù)據(jù)進(jìn)行排序,這個(gè)字段可以是行字段,也可以是列字段。 語法格式: sort_value(by=\\\'##\\\',axis=0,ascending=True,inplace=False,na_position=\\\'last\\\') 參數(shù) 說明 by 要排序的列名或索引值 axis 如果省略或者為

    2024年02月10日
    瀏覽(25)
  • 如何使用Python進(jìn)行數(shù)據(jù)分析?

    要使用Python進(jìn)行數(shù)據(jù)分析,可以按照以下步驟進(jìn)行: 安裝Python:首先,你需要安裝Python解釋器。可以從Python官方網(wǎng)站下載并安裝適合你操作系統(tǒng)的Python版本。 安裝數(shù)據(jù)分析庫:Python有許多強(qiáng)大的數(shù)據(jù)分析庫,如NumPy、Pandas和Matplotlib。使用pip命令或包管理工具安裝這些庫。 導(dǎo)

    2024年02月10日
    瀏覽(21)
  • PART 4 描述性統(tǒng)計(jì)分析

    PART 4 描述性統(tǒng)計(jì)分析

    · 分布剖析 有兩條法則可以告訴你: 大部分?jǐn)?shù)據(jù)落在概率分布中的哪個(gè)區(qū)域。 經(jīng)驗(yàn)法則 ——適用于 符合 正態(tài)分布 的任何數(shù)據(jù) 集。表明:幾乎所有的數(shù)據(jù)都位于距離均值3個(gè)標(biāo)準(zhǔn)差的范圍內(nèi)。具體: 大約68%的數(shù)值位于距離均值1個(gè)標(biāo)準(zhǔn)差的范圍內(nèi); 大約95%的數(shù)值位于距離均

    2024年02月08日
    瀏覽(37)
  • Python小知識 -  使用Python進(jìn)行數(shù)據(jù)分析

    Python小知識 - 使用Python進(jìn)行數(shù)據(jù)分析

    使用Python進(jìn)行數(shù)據(jù)分析 數(shù)據(jù)分析簡介 數(shù)據(jù)分析,又稱為信息分析,是指對數(shù)據(jù)進(jìn)行綜合處理、歸納提煉、概括總結(jié)的過程,是數(shù)據(jù)處理的第一步。 數(shù)據(jù)分析的目的是了解數(shù)據(jù)的內(nèi)在規(guī)律,為數(shù)據(jù)挖掘,并應(yīng)用于商業(yè)決策、科學(xué)研究等提供決策依據(jù)。 數(shù)據(jù)分析的基本方法 數(shù)

    2024年02月10日
    瀏覽(22)
  • 使用Python進(jìn)行健身手表數(shù)據(jù)分析

    使用Python進(jìn)行健身手表數(shù)據(jù)分析

    健身手表(Fitness Watch)數(shù)據(jù)分析涉及分析健身可穿戴設(shè)備或智能手表收集的數(shù)據(jù),以深入了解用戶的健康和活動(dòng)模式。這些設(shè)備可以跟蹤所走的步數(shù)、消耗的能量、步行速度等指標(biāo)。本文將帶您完成使用Python進(jìn)行Fitness Watch數(shù)據(jù)分析的任務(wù)。 Fitness Watch數(shù)據(jù)分析是健康和保健領(lǐng)域

    2024年02月10日
    瀏覽(19)
  • 使用Python對物流行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

    使用Python對物流行業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

    Excel適合處理低量級數(shù)據(jù),當(dāng)數(shù)據(jù)量過高,Excel只能展現(xiàn)部分?jǐn)?shù)據(jù),不利于后續(xù)的數(shù)據(jù)分析,此時(shí)使用Python進(jìn)行數(shù)據(jù)分析更加方便,有效。 先使用info()函數(shù)查看數(shù)據(jù)信息 從圖中可以看出該物流數(shù)據(jù)共有1160條數(shù)據(jù),每條數(shù)據(jù)有10列,其中 訂單號 、 貨品交貨狀況 和 數(shù)量 列存在

    2024年02月10日
    瀏覽(22)
  • Python 2.x 中如何使用pandas模塊進(jìn)行數(shù)據(jù)分析

    Python 2.x 中如何使用pandas模塊進(jìn)行數(shù)據(jù)分析 概述: 在數(shù)據(jù)分析和數(shù)據(jù)處理過程中,pandas是一個(gè)非常強(qiáng)大且常用的Python庫。它提供了數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具,可以實(shí)現(xiàn)快速高效的數(shù)據(jù)處理和分析。本文將介紹如何在Python 2.x中使用pandas進(jìn)行數(shù)據(jù)分析,并為讀者提供一些代碼示例

    2024年02月13日
    瀏覽(29)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包