国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

用Python做數(shù)據(jù)分析之數(shù)據(jù)篩選及分類匯總

這篇具有很好參考價值的文章主要介紹了用Python做數(shù)據(jù)分析之數(shù)據(jù)篩選及分類匯總。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

1、按條件篩選(與,或,非)
為數(shù)據(jù)篩選,使用與,或,非三個條件配合大于,小于和等于對數(shù)據(jù)進行篩選,并進行計數(shù)和求和。與 excel 中的篩選功能和 countifs 和 sumifs 功能相似。
Excel 數(shù)據(jù)目錄下提供了“篩選”功能,用于對數(shù)據(jù)表按不同的條件進行篩選。Python 中使用 loc 函數(shù)配合篩選條件來完成篩選功能。配合 sum 和 count 函數(shù)還能實現(xiàn) excel 中 sumif 和 countif 函數(shù)的功能。

1)使用“與”條件進行篩選
條件是年齡大于 25 歲,并且城市為 beijing。篩選后只有一條數(shù)據(jù)符合要求。
1#使用“與”條件進行篩選
2df_inner.loc[(df_inner[‘a(chǎn)ge’] > 25) & (df_inner[‘city’] == ‘beijing’), [‘id’,‘city’,‘a(chǎn)ge’,‘category’,‘gender’]]

2)使用“或”條件進行篩選
年齡大于 25 歲或城市為 beijing。篩選后有 6 條數(shù)據(jù)符合要求。
1#使用“或”條件篩選
2df_inner.loc[(df_inner[‘a(chǎn)ge’] > 25) | (df_inner[‘city’] == ‘beijing’), [‘id’,‘city’,‘a(chǎn)ge’,‘category’,‘gender’]].sort
3([‘a(chǎn)ge’])

3)求和
在前面的代碼后增加 price 字段以及 sum 函數(shù),按篩選后的結果將 price 字段值進行求和,相當于 excel 中 sumifs 的功能。
1 #對篩選后的數(shù)據(jù)按 price 字段進行求和
2 df_inner.loc[(df_inner[‘a(chǎn)ge’] > 25) | (df_inner[‘city’] == ‘beijing’),
3 [‘id’,‘city’,‘a(chǎn)ge’,‘category’,‘gender’,‘price’]].sort([‘a(chǎn)ge’]).price.sum()

4)使用“非”條件進行篩選
城市不等于 beijing。符合條件的數(shù)據(jù)有 4 條。將篩選結果按 id 列進行排序。
1#使用“非”條件進行篩選
2df_inner.loc[(df_inner[‘city’]
!= ‘beijing’), [‘id’,‘city’,‘a(chǎn)ge’,‘category’,‘gender’]].sort([‘id’])

在前面的代碼后面增加 city 列,并使用 count 函數(shù)進行計數(shù)。相當于 excel 中的 countifs 函數(shù)的功能。
1#對篩選后的數(shù)據(jù)按 city 列進行計數(shù)
2df_inner.loc[(df_inner[‘city’]
!= ‘beijing’), [‘id’,‘city’,‘a(chǎn)ge’,‘category’,‘gender’]].sort([‘id’]).city.count()

還有一種篩選的方式是用 query 函數(shù)。下面是具體的代碼和篩選結果。
1#使用 query 函數(shù)進行篩選
2df_inner.query(‘city == [‘beijing’, ‘shanghai’]’)

在前面的代碼后增加 price 字段和 sum 函數(shù)。對篩選后的 price 字段進行求和,相當于 excel 中的 sumifs 函數(shù)的功能。
1 #對篩選后的結果按 price 進行求和
2 df_inner.query(‘city == [‘beijing’, ‘shanghai’]’).price.sum()
3 12230

2、數(shù)據(jù)匯總
接下來是對數(shù)據(jù)進行分類匯總,Excel 中使用分類匯總和數(shù)據(jù)透視可以按特定維度對數(shù)據(jù)進行匯總,python 中使用的主要函數(shù)是 groupby 和 pivot_table。下面分別介紹這兩個函數(shù)的使用方法。

1)分類匯總
Excel 的數(shù)據(jù)目錄下提供了“分類匯總”功能,可以按指定的字段和匯總方式對數(shù)據(jù)表進行匯總。Python 中通過 Groupby 函數(shù)完成相應的操作,并可以支持多級分類匯總。
Groupby 是進行分類匯總的函數(shù),使用方法很簡單,制定要分組的列名稱就可以,也可以同時制定多個列名稱,groupby 按列名稱出現(xiàn)的順序進行分組。同時要制定分組后的匯總方式,常見的是計數(shù)和求和兩種。
1 #對所有列進行計數(shù)匯總
2 df_inner.groupby(‘city’).count()

可以在 groupby 中設置列名稱來對特定的列進行匯總。下面的代碼中按城市對 id 字段進行匯總計數(shù)。
1 #對特定的 ID 列進行計數(shù)匯總
2 df_inner.groupby(‘city’)[‘id’].count()
3 city
4 beijing 2
5 guangzhou 1
6 shanghai 2
7 shenzhen 1
8 Name: id, dtype: int64

在前面的基礎上增加第二個列名稱,分布對 city 和 size 兩個字段進行計數(shù)匯總。
1 #對兩個字段進行匯總計數(shù)
2 df_inner.groupby([‘city’,‘size’])[‘id’].count()
3 city size
4 beijing A 1
5 F 1
6 guangzhou A 1
7 shanghai A 1
8 B 1
9 shenzhen C 1
10 Name: id, dtype: int64

除了計數(shù)和求和外,還可以對匯總后的數(shù)據(jù)同時按多個維度進行計算,下面的代碼中按城市對 price 字段進行匯總,并分別計算 price 的數(shù)量,總金額和平均金額。
1 #對 city 字段進行匯總并計算 price 的合計和均值。
2 df_inner.groupby(‘city’)[‘price’].agg([len,np.sum, np.mean])

2)數(shù)據(jù)透視
Excel 中的插入目錄下提供“數(shù)據(jù)透視表”功能對數(shù)據(jù)表按特定維度進行匯總。Python 中也提供了數(shù)據(jù)透視表功能。通過 pivot_table 函數(shù)實現(xiàn)同樣的效果。
數(shù)據(jù)透視表也是常用的一種數(shù)據(jù)分類匯總方式,并且功能上比 groupby 要強大一些。下面的代碼中設定 city 為行字段,size 為列字段,price 為值字段。分別計算 price 的數(shù)量和金額并且按行與列進行匯總。
1 #數(shù)據(jù)透視表
2pd.pivot_table(df_inner,index=[‘city’],values=[‘price’],columns=[‘size’],aggfunc=[len,np.sum],fill_value=0,margins=True)

文章來源:網(wǎng)絡 版權歸原作者所有
上文內容不用于商業(yè)目的,如涉及知識產(chǎn)權問題,請權利人聯(lián)系小編,我們將立即處理文章來源地址http://www.zghlxwxcb.cn/news/detail-728291.html

到了這里,關于用Python做數(shù)據(jù)分析之數(shù)據(jù)篩選及分類匯總的文章就介紹完了。如果您還想了解更多內容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權,不承擔相關法律責任。如若轉載,請注明出處: 如若內容造成侵權/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領支付寶紅包贊助服務器費用

相關文章

  • 程序員崗位招聘信息數(shù)據(jù)可視化分析全屏大屏系統(tǒng)設計與實現(xiàn)(python的django框架)

    ?博主介紹 :黃菊華老師《Vue.js入門與商城開發(fā)實戰(zhàn)》《微信小程序商城開發(fā)》圖書作者,CSDN博客專家,在線教育專家,CSDN鉆石講師;專注大學生畢業(yè)設計教育和輔導。 所有項目都配有從入門到精通的基礎知識視頻課程,免費 項目配有對應開發(fā)文檔、開題報告、任務書、

    2024年02月05日
    瀏覽(35)
  • 數(shù)據(jù)分析時,進行數(shù)據(jù)建模該如何篩選關鍵特征?

    數(shù)據(jù)分析時,進行數(shù)據(jù)建模該如何篩選關鍵特征?

    1.為什么要做關鍵特征篩選? 在數(shù)據(jù)量與日俱增的時代,我們收集到的數(shù)據(jù)越來越多,能運用到數(shù)據(jù)分析挖掘的數(shù)據(jù)也逐漸豐富起來,但同時,我們也面臨著如何從龐大的數(shù)據(jù)中篩選出與我們業(yè)務息息相關的數(shù)據(jù)。(大背景)從數(shù)據(jù)中挖掘潛在的規(guī)律,輔助我們在實際業(yè)務中

    2023年04月13日
    瀏覽(22)
  • 【python】數(shù)據(jù)挖掘分析清洗——離群點(異常值)處理方法匯總

    【python】數(shù)據(jù)挖掘分析清洗——離群點(異常值)處理方法匯總

    本文鏈接:https://blog.csdn.net/weixin_47058355/article/details/129949060?spm=1001.2014.3001.5501 異常值處理的意義在于提高數(shù)據(jù)分析的準確性和可靠性。異常值往往會影響數(shù)據(jù)的統(tǒng)計特征,如平均值、方差等,從而導致錯誤的結論或預測結果。此外,異常值還可能干擾模型的擬合效果,使得模

    2024年02月08日
    瀏覽(27)
  • 5.Python數(shù)據(jù)分析項目之文本分類-自然語言處理

    5.Python數(shù)據(jù)分析項目之文本分類-自然語言處理

    預測類數(shù)據(jù)分析項目 流程 具體操作 基本查看 查看缺失值(可以用直接查看方式isnull、圖像查看方式查看缺失值missingno)、查看數(shù)值類型特征與非數(shù)值類型特征、一次性繪制所有特征的分布圖像 預處理 缺失值處理(填充)拆分數(shù)據(jù)(獲取有需要的值) 、統(tǒng)一數(shù)據(jù)格式、特征

    2024年02月03日
    瀏覽(46)
  • python數(shù)據(jù)分析之利用多種機器學習方法實現(xiàn)文本分類、情感預測

    python數(shù)據(jù)分析之利用多種機器學習方法實現(xiàn)文本分類、情感預測

    ? ? ? ?大家好,我是帶我去滑雪! ? ? ? ?文本分類是一種機器學習和自然語言處理(NLP)任務,旨在將給定的文本數(shù)據(jù)分配到預定義的類別或標簽中。其目標是為文本數(shù)據(jù)提供自動分類和標注,使得可以根據(jù)其內容或主題進行組織、排序和分析。文本分類在各種應用場景

    2024年02月11日
    瀏覽(31)
  • Python數(shù)據(jù)分析案例33——新聞文本主題多分類(Transformer, 組合模型) 模型保存

    Python數(shù)據(jù)分析案例33——新聞文本主題多分類(Transformer, 組合模型) 模型保存

    對于海量的新聞,我們可能需要進行文本的分類。模型構建很重要,現(xiàn)在對于自然語言處理基本都是神經(jīng)網(wǎng)絡的方法了。 本次這里正好有一組質量特別高的新聞數(shù)據(jù),涉及? \\\'教育\\\' \\\'科技\\\' \\\'社會\\\' \\\'時政\\\' \\\'財經(jīng)\\\' \\\'房產(chǎn)\\\' \\\'家居\\\' ?七大主題,基本涵蓋了所有的常見的新聞類型。每個

    2024年01月17日
    瀏覽(21)
  • 泰坦尼克號沉船數(shù)據(jù)分析與可視化、數(shù)據(jù)建模與分類預測【Python | 機器學習-Sklearn】

    泰坦尼克號沉船數(shù)據(jù)分析與可視化、數(shù)據(jù)建模與分類預測【Python | 機器學習-Sklearn】

    前言:泰坦尼克號,不只是卡梅隆導演的經(jīng)典電影,它是一個真實存在的悲劇,也是電影的故事背景與題材。作為一個IT人,分析事實還得看數(shù)據(jù),了解到泰坦尼克號沉船幸存者多為老人、小孩和婦女,而犧牲者多為年輕的男士,這樣的歷史數(shù)據(jù),讓我感受到了人性之美與善

    2024年02月02日
    瀏覽(28)
  • 廣電用戶畫像分析之根據(jù)用戶行為數(shù)據(jù)進行篩選與標簽添加

    廣電用戶畫像分析之根據(jù)用戶行為數(shù)據(jù)進行篩選與標簽添加

    在數(shù)據(jù)處理和分析領域,我們經(jīng)常需要根據(jù)用戶的行為數(shù)據(jù)進行篩選和標簽添加,以便更好地理解用戶行為和偏好。在本篇博客中,我們將介紹兩個示例,展示如何根據(jù)用戶的收視行為數(shù)據(jù)和訂單信息進行數(shù)據(jù)處理和分析。 數(shù)據(jù)集分析: 廣電用戶畫像分析之探索各個表中的

    2024年02月11日
    瀏覽(18)
  • IT運維:使用數(shù)據(jù)分析平臺監(jiān)控PowerStore存儲

    IT運維:使用數(shù)據(jù)分析平臺監(jiān)控PowerStore存儲

    存儲在企業(yè)中一直承擔著重要的角色,保證數(shù)據(jù)的安全性更是重中之重。存儲的運行是否正常?我們的數(shù)據(jù)是否安全?存儲管理人員的操作是否規(guī)范?這些都是企業(yè)需要關注的問題。那么該如何確保這些問題能夠有效的解決?我們的選擇是鴻鵠數(shù)據(jù)平臺。通過鴻鵠將存儲的安

    2024年02月13日
    瀏覽(19)
  • 【2023程序員必看】大數(shù)據(jù)行業(yè)分析

    【2023程序員必看】大數(shù)據(jù)行業(yè)分析

    1、政策重點扶持,市場前景廣闊 2014年,大數(shù)據(jù)首次寫入政府工作報告,大數(shù)據(jù)逐漸成為各級政府關注的熱點。 2015年9月,國務院發(fā)布《促進大數(shù)據(jù)發(fā)展的行動綱要》,大數(shù)據(jù)正式上升至國家戰(zhàn)略層面,十九大報告提出要推動大數(shù)據(jù)與實體經(jīng)濟的深度融合。 在2021年發(fā)布的“

    2024年02月08日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領取紅包,優(yōu)惠每天領

二維碼1

領取紅包

二維碼2

領紅包