国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

這篇具有很好參考價(jià)值的文章主要介紹了【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

在進(jìn)行統(tǒng)計(jì)分析時(shí),pandas提供了多種工具來幫助我們理解數(shù)據(jù)。
pandas提供了多個(gè)聚合函數(shù),其中包括均值、標(biāo)準(zhǔn)差、最大值、最小值等等。
此外,pandas還可以進(jìn)行基于列的統(tǒng)計(jì)分析,例如通過groupby()函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合,并計(jì)算每組的統(tǒng)計(jì)分析結(jié)果。

除了基本的統(tǒng)計(jì)分析之外,pandas還可以進(jìn)行更高級(jí)的分析,例如基于時(shí)間序列的分析等。
總之,pandas是一個(gè)非常強(qiáng)大的數(shù)據(jù)處理工具,可以幫助我們更輕松地進(jìn)行數(shù)據(jù)分析和探索。

1. 一般統(tǒng)計(jì)

拿到數(shù)據(jù)之后,第一步我們會(huì)通過一些常用的統(tǒng)計(jì)信息來大體了解下數(shù)據(jù)的整體情況。
pandas中常用的統(tǒng)計(jì)函數(shù)有:

  1. .sum():計(jì)算對(duì)象的總和
  2. .mean():計(jì)算對(duì)象的平均值
  3. .median():計(jì)算對(duì)象的中位數(shù)
  4. .max():計(jì)算對(duì)象的最大值
  5. .min():計(jì)算對(duì)象的最小值
  6. .count():計(jì)算對(duì)象數(shù)量
  7. .std():計(jì)算對(duì)象標(biāo)準(zhǔn)差
  8. .var():計(jì)算對(duì)象方差

通過agg函數(shù)可以一次將所有的統(tǒng)計(jì)信息分析出來。

import pandas as pd

df = pd.DataFrame(
    {
        "數(shù)學(xué)": [100, 88, 94, 76, 84],
        "語文": [98, 80, 86, 76, 90],
        "英語": [95, 91, 86, 95, 83],
    },
    index=["小紅", "小明", "小汪", "小李", "小張"],
)

df.agg(["sum", "mean", "median","max", "min", "count", "std", "var"])

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

2. 分組統(tǒng)計(jì)

如果要分析的數(shù)據(jù)集中不同的多個(gè)行存在同屬于一個(gè)分類時(shí),可以先分組之后再用上面的統(tǒng)計(jì)分析方法。
比如下面的示例,按年級(jí)分組統(tǒng)計(jì)的是同一個(gè)年級(jí)中所有學(xué)生的成績(jī)情況,而按學(xué)生分組統(tǒng)計(jì)的則是該學(xué)生在各個(gè)年級(jí)階段的成績(jī)情況。

按年級(jí)分組統(tǒng)計(jì):
agg函數(shù)除了可以指定統(tǒng)計(jì)函數(shù),還可以指定統(tǒng)計(jì)的列,下面的示例只統(tǒng)計(jì)了語文和數(shù)學(xué)情況)

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明", "小汪", "小汪"],
        "年級(jí)": ["初二", "初一", "初一", "初二", "初一", "初二"],
        "數(shù)學(xué)": [100, 88, 94, 76, 84, 78],
        "語文": [98, 80, 86, 76, 90, 88],
        "英語": [95, 91, 86, 95, 83, 65],
    },
)

agg_funcs = ["max", "min", "mean"]
df.groupby(by="年級(jí)").agg({"語文": agg_funcs, "數(shù)學(xué)": agg_funcs})

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

按學(xué)生分組統(tǒng)計(jì):

df.groupby(by="姓名").agg({"語文": agg_funcs, "數(shù)學(xué)": agg_funcs})

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

3. 透視表

pandas透視表(Pivot Table)是數(shù)據(jù)分析中的一種非常強(qiáng)大的功能,可以實(shí)現(xiàn)數(shù)據(jù)的按列匯總、按行匯總、按列和行同時(shí)匯總、數(shù)據(jù)透視和數(shù)據(jù)分析等功能。

同樣使用上一節(jié)中的示例數(shù)據(jù),原始數(shù)據(jù)中,年級(jí),姓名和分?jǐn)?shù)混在一起,要看按人或者按年級(jí)查看成績(jī)情況的時(shí)候,需要進(jìn)行過濾和排序等操作。
【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

如果使用透視表的話,可以將原始數(shù)據(jù)中的某些列的值作為新的索引,某些列的值作為新的列,那么數(shù)據(jù)會(huì)更加一目了然。
另外,透視表的結(jié)果用來繪制折線圖,柱狀圖等也非常方便。

年級(jí)作為索引,姓名作為列名的透視表:

df = pd.DataFrame(
    {
        "姓名": ["小紅", "小明", "小紅", "小明", "小汪", "小汪"],
        "年級(jí)": ["初二", "初一", "初一", "初二", "初一", "初二"],
        "數(shù)學(xué)": [100, 88, 94, 76, 84, 78],
        "語文": [98, 80, 86, 76, 90, 88],
        "英語": [95, 91, 86, 95, 83, 65],
    },
)

pd.pivot_table(df, values=["數(shù)學(xué)", "語文", "英語"], index=["年級(jí)"], columns=["姓名"])

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

姓名作為索引,年級(jí)作為列名的透視表:

pd.pivot_table(df, values=["數(shù)學(xué)", "語文", "英語"], index=["姓名"], columns=["年級(jí)"])

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

4. 同比和環(huán)比

同比和環(huán)比是統(tǒng)計(jì)中經(jīng)常用到的概念,用來評(píng)估數(shù)據(jù)的變化情況。
同比一般指跟上一年度同一時(shí)期統(tǒng)計(jì)的數(shù)據(jù)的比較,環(huán)比一般指跟上一次統(tǒng)計(jì)的數(shù)據(jù)的比較。

原始數(shù)據(jù)如下(某同學(xué)初中三年每學(xué)期的平均分):

df = pd.DataFrame(
    {
        "年級(jí)": ["初一上", "初一下", "初二上", "初二下", "初三上", "初三下"],
        "平均分": [90, 85, 86, 80, 90, 88],
    },
)

df

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)

環(huán)比就是看每個(gè)學(xué)期比上個(gè)學(xué)期是否進(jìn)步:

df["平均分環(huán)比"] = df["平均分"].pct_change(periods=1)
df

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)
第一條數(shù)據(jù)是NaN,因?yàn)樗鼪]有上一條數(shù)據(jù)可以參考。
pct_change 得出的數(shù)值就是同比增長(zhǎng)的百分比,負(fù)數(shù)表示下降的百分比。

同比就是比較每個(gè)學(xué)年同學(xué)期的成績(jī)變化,比如初二上初一上比較,初三下初二下比較等等。

df["平均分同比"] = df["平均分"].pct_change(periods=2)
df

【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)
我們觀察這個(gè)示例數(shù)據(jù),同比環(huán)比的差別僅僅在于:同比是隔一個(gè)數(shù)據(jù)比較,而環(huán)比是相鄰的數(shù)據(jù)比較。

所以,用pct_change來計(jì)算同比的時(shí)候,只要設(shè)置periods參數(shù)為2即可。
periods參數(shù)默認(rèn)為1,所以其實(shí)計(jì)算環(huán)比的時(shí)候也可以不設(shè)置periods參數(shù)。

5. 總結(jié)回顧

本篇介紹的數(shù)據(jù)統(tǒng)計(jì)時(shí)常用的幾種方法,其中分組統(tǒng)計(jì)透視表是使用比較頻繁的。
上面的示例主要介紹統(tǒng)計(jì)的函數(shù),假造的數(shù)據(jù)非常簡(jiǎn)單,其實(shí)在數(shù)據(jù)統(tǒng)計(jì)時(shí),統(tǒng)計(jì)前清理數(shù)據(jù),排序數(shù)據(jù)等才是耗費(fèi)時(shí)間最長(zhǎng)的過程。文章來源地址http://www.zghlxwxcb.cn/news/detail-474368.html

到了這里,關(guān)于【pandas基礎(chǔ)】--數(shù)據(jù)統(tǒng)計(jì)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 【SAS應(yīng)用統(tǒng)計(jì)分析】數(shù)據(jù)的描述性統(tǒng)計(jì)分析

    【SAS應(yīng)用統(tǒng)計(jì)分析】數(shù)據(jù)的描述性統(tǒng)計(jì)分析

    聲明:本文知識(shí)參考內(nèi)容來自網(wǎng)絡(luò),如有侵權(quán)請(qǐng)聯(lián)系刪除。本文還參照了B站up主莊7的課程內(nèi)容【公開課】數(shù)據(jù)分析與SAS【15課】 目錄 實(shí)驗(yàn)原理 描述性統(tǒng)計(jì)量 1.反映數(shù)據(jù)集中趨勢(shì)的特征量 2.反映數(shù)據(jù)離散程度的特征量 3.反映數(shù)據(jù)分布形狀的特征量 數(shù)據(jù)的圖形描述 直方圖 箱線

    2024年02月01日
    瀏覽(24)
  • 【數(shù)據(jù)分析】統(tǒng)計(jì)量

    【數(shù)據(jù)分析】統(tǒng)計(jì)量

    1. 均值、眾數(shù)描述數(shù)據(jù)的集中趨勢(shì)度量,四分位差、極差描述數(shù)據(jù)的離散程度。 2. 標(biāo)準(zhǔn)差、四分位差、異眾比率度量離散程度,協(xié)方差是度量相關(guān)性。 ?期望值分別為E[X]與E[Y]的兩個(gè)實(shí)隨機(jī)變量X與Y之間的協(xié)方差Cov(X,Y)定義為: 從直觀上來看,協(xié)方差表示的是兩個(gè)變量總體誤

    2024年02月11日
    瀏覽(28)
  • 用Python做數(shù)據(jù)分析之?dāng)?shù)據(jù)統(tǒng)計(jì)

    接下來說說數(shù)據(jù)統(tǒng)計(jì)部分,這里主要介紹數(shù)據(jù)采樣,標(biāo)準(zhǔn)差,協(xié)方差和相關(guān)系數(shù)的使用方法。 1、數(shù)據(jù)采樣 Excel 的數(shù)據(jù)分析功能中提供了數(shù)據(jù)抽樣的功能,如下圖所示。Python 通過 sample 函數(shù)完成數(shù)據(jù)采樣。 2、數(shù)據(jù)抽樣 Sample 是進(jìn)行數(shù)據(jù)采樣的函數(shù),設(shè)置 n 的數(shù)量就可以了。函

    2024年02月07日
    瀏覽(21)
  • 數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)、商業(yè)分析

    數(shù)據(jù)科學(xué)、統(tǒng)計(jì)學(xué)、商業(yè)分析是在各方面有著不同的側(cè)重和方向的領(lǐng)域。 ?1.專業(yè)技能 數(shù)據(jù)科學(xué)(Data Science):數(shù)據(jù)科學(xué)涉及從大量數(shù)據(jù)中提取有價(jià)值的信息、模式和洞察力的領(lǐng)域。它使用多種技術(shù)和領(lǐng)域知識(shí),如統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)管理、數(shù)據(jù)可視化等,進(jìn)行數(shù)據(jù)清

    2024年02月15日
    瀏覽(27)
  • 【大數(shù)據(jù)學(xué)習(xí)篇6】 Spark操作統(tǒng)計(jì)分析數(shù)據(jù)操作

    通過前面的文章安裝好環(huán)境下面我們就可以開始來操作 使用MySQL的root用戶對(duì)數(shù)據(jù)庫(kù)進(jìn)行修改以下設(shè)置

    2024年02月05日
    瀏覽(51)
  • R語言 | 數(shù)據(jù)分析——統(tǒng)計(jì)繪圖

    R語言 | 數(shù)據(jù)分析——統(tǒng)計(jì)繪圖

    目錄 一、分類數(shù)據(jù)的圖形描述 1.1 條形圖barplot()函數(shù) 1.2 餅圖pie()函數(shù) ?二、量化數(shù)據(jù)的圖形描述 2.1 點(diǎn)圖與dotchart()函數(shù) 2.2 繪圖函數(shù)plot() ?2.2.1 繪制時(shí)間數(shù)列對(duì)象 ?2.2.2 向量數(shù)據(jù)與plot()函數(shù) 2.2.3 數(shù)據(jù)框數(shù)據(jù)與plot()函數(shù) 2.2.4? 因子型數(shù)據(jù)與plot()函數(shù) ?2.2.5 使用lines()函數(shù)繪制回

    2024年02月04日
    瀏覽(25)
  • 數(shù)據(jù)的統(tǒng)計(jì)描述和分析——假設(shè)檢驗(yàn)

    對(duì)總體X的分布律或分布參數(shù)作某種假設(shè),根據(jù)抽取的樣本觀察值,運(yùn)用數(shù)理統(tǒng)計(jì)的分析方法,檢驗(yàn)這種假設(shè)是否正確,從而決定接受假設(shè)或拒絕假設(shè). 1. 參數(shù)檢驗(yàn) :如果觀測(cè)的分布函數(shù)類型已知,這時(shí)構(gòu)造出的統(tǒng)計(jì)量依賴于總體的分布函數(shù),這種檢驗(yàn)稱為參數(shù)檢驗(yàn).參數(shù)檢驗(yàn)

    2024年02月14日
    瀏覽(23)
  • 數(shù)據(jù)挖掘與數(shù)據(jù)分析之統(tǒng)計(jì)知識(shí)篇

    數(shù)據(jù)挖掘與數(shù)據(jù)分析之統(tǒng)計(jì)知識(shí)篇

    統(tǒng)計(jì)學(xué)上, 自由度 是指當(dāng)以樣本的 統(tǒng)計(jì)量 估計(jì) 總體 的參數(shù)時(shí), 樣本中獨(dú)立或能自由變化的數(shù)據(jù)個(gè)數(shù)叫自由度 。一般來說,自由度等于獨(dú)立變量減掉其衍生量數(shù)。舉例來說,變異數(shù)的定義是樣本減平均值(一個(gè)由樣本決定的衍生量),因此對(duì)N個(gè)隨機(jī)樣本而言,其自由度為N

    2024年02月11日
    瀏覽(25)
  • 數(shù)據(jù)庫(kù)性能測(cè)試實(shí)踐:慢查詢統(tǒng)計(jì)分析

    數(shù)據(jù)庫(kù)性能測(cè)試實(shí)踐:慢查詢統(tǒng)計(jì)分析

    查看是否開啟慢查詢 mysql show variables like \\\'%slow%’; 如圖所示: 系統(tǒng)變量log_slow_admin_statements 表示是否將慢管理語句例如ANALYZE TABLE和ALTER TABLE等記入慢查詢?nèi)罩?啟用log_slow_extra系統(tǒng)變量 (從MySQL 8.0.14開始提供)將導(dǎo)致服務(wù)器將幾個(gè)額外字段寫入日志 Log_slow_slave_statements 從庫(kù)默認(rèn)

    2024年02月07日
    瀏覽(15)
  • 【hadoop】汽車銷售數(shù)據(jù)統(tǒng)計(jì)分析項(xiàng)目(部分)

    來源:《hadoop大數(shù)據(jù)開發(fā)實(shí)戰(zhàn)》 實(shí)驗(yàn)一:統(tǒng)計(jì)乘用車輛和商用車輛的數(shù)量和銷售額分布 設(shè)計(jì)思路: 首先,寫一個(gè)Mapper來映射輸出所有乘用車輛(feiyingyun)和商用車輛(yingyun)的記錄。 然后,寫一個(gè)reduce統(tǒng)計(jì)出乘用車輛和商用車輛各自的數(shù)量,寫一個(gè)map的映射集合中,其中

    2024年02月09日
    瀏覽(97)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包