国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<kbd id="zmik4"></kbd>

<li id="zmik4"><small id="zmik4"></small></li>

_{<li id="zmik4"><noframes id="zmik4">}

<style id="zmik4"></style>

<kbd id="zmik4"></kbd>

Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas

2年前作者：三耳01分類：Toy博客閱讀(96)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

來(lái)源于這里。

很多情況下用的是pandas而不是numpy，因?yàn)榍罢呤窃诤笳叩幕A(chǔ)上又封裝了一些操作，相當(dāng)于做了函數(shù)簡(jiǎn)化。pandas主要是數(shù)據(jù)預(yù)處理用的比較多。

十八 Pandas

1 文件讀取

1.1 讀取csv

任意一種格式，只要是以，為分隔符，就可以用read_csv讀取：

import pandas as pd
excel = pd.read_csv('excel.csv')

先把文件打印出來(lái)看看結(jié)果：

print(excel)
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      e      NaN
6      9.0         NaN      j      NaN
7      8.0         NaN      i      NaN

Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas
結(jié)果是和表格一致的，而且打印出來(lái)的在表格左側(cè)加上了行號(hào)。而沒(méi)有內(nèi)容的地方用NaN表示。忽略了前面的空行，但是內(nèi)部的空行不忽略。

接著我們看看這個(gè)文件的格式：

print(type(excel))
>>> <class 'pandas.core.frame.DataFrame'>

pandas的格式是DataFrame，數(shù)據(jù)流。通過(guò)read_csv之后，就是數(shù)據(jù)流格式，這是pandas里面最為核心也是最常用的格式。這個(gè)格式跟矩陣是差不多的，也是由行和列來(lái)組成。

我們?cè)倏纯次募?nèi)部的格式：

print(excel.dtypes)
>>> number1       float64
	Unnamed: 1    float64
	letter         object
	number2       float64
	dtype: object

可以看到，基本是由int、float、object組成的。
值得一提的是，文件number1這一列存在浮點(diǎn)數(shù)（NaN被認(rèn)為是浮點(diǎn)數(shù)），則類型就是float64。

1.2 讀取txt

1.1說(shuō)過(guò)了：任意一種格式，只要是以，為分隔符，就可以用read_csv讀取。因此用逗號(hào)分隔的txt格式也是一樣的方法：
Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas

import pandas as pd
excel = pd.read_csv('word_new.txt')
print(excel)

>>> 
   number    word
0       1      my
1  2 name     NaN
2       3    is  
3  4\tnxy     NaN
4       5     \t?

print(type(excel))
>>> <class 'pandas.core.frame.DataFrame'>

print(excel.dtypes)
>>> number    object
	word      object
	dtype: object

最前面的空行同樣被忽略了→
csv和txt都是用pd.read_csv()讀取，用逗號(hào)來(lái)分隔，所以這兩個(gè)文件都忽略了前面的空行，但是內(nèi)容中間的空行不能忽略。

第一行有內(nèi)容的行被認(rèn)為是表頭

number,word和1,my行都是被,分隔的，所以很順利的占據(jù)兩列

2 name沒(méi)有逗號(hào)，認(rèn)為是一列的，所以在后面補(bǔ)NaN

3, is 里面is左右各有兩個(gè)空格，所以可以看到結(jié)果里面is沒(méi)有和同一列其它元素一樣向右對(duì)齊

最后兩行是用了tab

1.3 讀取excel（xlsx）

pandas里面同樣包含讀取最普遍的 excel 的xlsx格式的方式：
Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas

import pandas as pd
excel = pd.read_excel('excel.xlsx')
print(excel)
>>>    
   Unnamed: 0  Unnamed: 1 Unnamed: 2 Unnamed: 3
0         NaN         NaN        NaN        NaN
1         NaN         NaN        NaN        NaN
2     number1         NaN     letter    number2
3           1         NaN          a        0.1
4           3         NaN          c        0.5
5           4         NaN          b        0.2
6           2         NaN          d        NaN
7         NaN         NaN        NaN        NaN
8           5         NaN          j        NaN
9           9         NaN          h        NaN
10          8         NaN        NaN        NaN

print(type(excel))
>>> <class 'pandas.core.frame.DataFrame'>

print(excel.dtypes)
>>> Unnamed: 0     object
	Unnamed: 1    float64
	Unnamed: 2     object
	Unnamed: 3     object
	dtype: object

這里就沒(méi)有忽略前面的空行。
$\quad$

2 內(nèi)容讀取

這里的excel代表的是'excel.csv'：

   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      e      NaN
6      9.0         NaN      j      NaN
7      8.0         NaN      i      NaN

2.1 讀取行

.head()讀取前面幾行：

print(excel.head(3))
>>> 
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2

print(excel.head())  # 默認(rèn)5行
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN

.tail()讀取后面幾行：

print(excel.tail())
>>>
   number1  Unnamed: 1 letter  number2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      j      NaN
6      9.0         NaN      h      NaN
7      8.0         NaN    NaN      NaN

.loc[]讀取特定行：

print(excel.loc[3])
>>> number1       2.0
	Unnamed: 1    NaN
	letter          d
	number2       NaN
	Name: 3, dtype: object

print(excel.loc[3:6])
>>>
   number1  Unnamed: 1 letter  number2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      j      NaN
6      9.0         NaN      h      NaN

print(excel.loc[[2,4,7]])
>>>
   number1  Unnamed: 1 letter  number2
2      4.0         NaN      b      0.2
4      NaN         NaN    NaN      NaN
7      8.0         NaN    NaN      NaN

2.2 讀取列

直接文件名+列名：

print(excel['number1'])
>>> 0    1.0
	1    3.0
	2    4.0
	3    2.0
	4    NaN
	5    5.0
	6    9.0
	7    8.0
	Name: number1, dtype: float64

'''讀取多列要再加一個(gè)[]'''
print(excel[['number1', 'letter']].head())
>>>
   number1 letter
0      1.0      a
1      3.0      c
2      4.0      b
3      2.0      d
4      NaN    NaN

如果要讀取列的表頭：

print(excel.columns)
>>> Index(['number1', 'Unnamed: 1', 'letter', 'number2'], dtype='object')

這樣出來(lái)的是名稱和類型，但是有時(shí)候只想要列表模式的名稱就行，所以在上面的代碼還要再加上.tolist()：

columns_names = excel.columns.tolist()
print(columns_names)
>>> ['number1', 'Unnamed: 1', 'letter', 'number2']

這時(shí)候其實(shí)可以針對(duì)列名來(lái)篩選列，比如篩選數(shù)字列：

new = []
for i in columns_names:
    if 'number' in i:
        new.append(i)
        
print(new)  # 這就是篩選出的列名
>>> ['number1', 'number2']

print(excel[new].head())
>>>
   number1  number2
0      1.0      0.1
1      3.0      0.5
2      4.0      0.2
3      2.0      NaN
4      NaN      NaN

或者篩選末尾有特定字符的列名（比如末尾都有某種計(jì)量單位），在這里篩選末尾都是1的列：

new = []
for i in columns_names:
    if i.endswith('1'):
        new.append(i)
        
print(new)  # 這就是篩選出的列名
>>> ['number1', 'Unnamed: 1']

print(excel[new].head())
>>>
   number1  Unnamed: 1
0      1.0         NaN
1      3.0         NaN
2      4.0         NaN
3      2.0         NaN
4      NaN         NaN

3 數(shù)據(jù)處理

3.1 加減乘除

要保證運(yùn)算的是相同元素?。?！

3.1.1 列與元素

對(duì)于全為NaN的空列，不管怎么運(yùn)算，結(jié)果都還是NaN，且類型為float：

print(excel['Unnamed: 1'].head() + 10)
print(excel['Unnamed: 1'].head() - 10)
print(excel['Unnamed: 1'].head() * 10)
print(excel['Unnamed: 1'].head() / 10)

print(excel['Unnamed: 1'].head() + '10ab')
print(excel['Unnamed: 1'].head() - '10ab')
print(excel['Unnamed: 1'].head() * '10ab')
print(excel['Unnamed: 1'].head() / '10ab')

'''結(jié)果全都一樣'''
>>> 0   NaN
	1   NaN
	2   NaN
	3   NaN
	4   NaN
	Name: Unnamed: 1, dtype: float64

float、int、str + 元素：

print(excel['number1'].head() + 10)  # 數(shù)字+數(shù)字
>>> 0    11.0
	1    13.0
	2    14.0
	3    12.0
	4     NaN
	Name: number1, dtype: float64

print(excel['letter'].head() + '012ab')  # 字符串+字符串
>>> 0    a012ab
	1    b012ab
	2    c012ab
	3    d012ab
	4       NaN
	Name: letter, dtype: object

float、int、str - 元素：

print(excel[['number1', 'number2']].head() - 10)  # 數(shù)字-數(shù)字
>>> 
   number1  number2
0     -9.0     -9.9
1     -7.0     -9.5
2     -6.0     -9.8
3     -8.0      NaN
4      NaN      NaN

float、int、str ×、÷ 元素：
×、÷里面的元素只能是數(shù)字！

print(excel[['number1', 'letter']] * 10)
>>>
   number1      letter
0     10.0  aaaaaaaaaa
1     30.0  cccccccccc
2     40.0  bbbbbbbbbb
3     20.0  dddddddddd
4      NaN         NaN
5     50.0  jjjjjjjjjj
6     90.0  hhhhhhhhhh
7     80.0         NaN

print(excel[['number1']] / 10)
>>> 
   number1
0      0.1
1      0.3
2      0.4
3      0.2
4      NaN
5      0.5
6      0.9
7      0.8

3.1.2 列與列

列與列 的運(yùn)算中，哪一列的行更多，結(jié)果的行就取決于哪一列。

對(duì)于全為NaN的空列，不管怎么運(yùn)算，結(jié)果都還是NaN，但是類型會(huì)變：

print(excel['number1'].head() + excel['Unnamed: 1'].head())
print(excel['number1'].head() - excel['Unnamed: 1'].head())
print(excel['number1'].head() * excel['Unnamed: 1'].head())
print(excel['number1'].head() / excel['Unnamed: 1'].head())
>>> 0   NaN
	1   NaN
	2   NaN
	3   NaN
	4   NaN
	dtype: float64

print(excel['letter'].head() + excel['Unnamed: 1'].head())
print(excel['letter'].head() - excel['Unnamed: 1'].head())
print(excel['letter'].head() * excel['Unnamed: 1'].head())
print(excel['letter'].head() / excel['Unnamed: 1'].head())
>>> 0    NaN
	1    NaN
	2    NaN
	3    NaN
	4    NaN
	dtype: object

類型取決于與Unnamed列運(yùn)算的那一列。
$\quad$

float、int 加減乘除 float、int：

'''與自己運(yùn)算，就會(huì)給出列名和類型'''
print(excel['number1'].head() + excel['number1'])
>>> 0    2.0
	1    6.0
	2    8.0
	3    4.0
	4    NaN
	Name: number1, dtype: float64

'''與別人運(yùn)算，只會(huì)給類型'''
print(excel['number1'].head() - excel['number2'])
>>> 0    0.9
	1    2.5
	2    3.8
	3    NaN
	4    NaN
	5    NaN
	6    NaN
	7    NaN
	dtype: float64

'''總行數(shù)取決于行數(shù)最多的那個(gè)'''
print(excel['number1'].head() * excel['number2'])
>>> 0    0.1
	1    1.5
	2    0.8
	3    NaN
	4    NaN
	5    NaN
	6    NaN
	7    NaN
	dtype: float64

print(excel['number1'].head() / excel['number2'].head())
>>> 0    10.0
	1     6.0
	2    20.0
	3     NaN
	4     NaN
	dtype: float64

$\quad$

float、int 與 str的列不能運(yùn)算
str + str（只有這一種）

print(excel['letter'].head() + excel['letter'].head())
>>> 0     aa
	1     cc
	2     bb
	3     dd
	4    NaN
	Name: letter, dtype: object

3.2 最值、總和、歸一化

print(excel['number1'].max(), excel['number1'].min(), excel['number1'].sum())
>>> 9.0 1.0 32.0

歸一化：除以最大值

print(excel['number1'] / excel['number1'].max())

>>> 0    0.111111
	1    0.333333
	2    0.444444
	3    0.222222
	4         NaN
	5    0.555556
	6    1.000000
	7    0.888889
	Name: number1, dtype: float64

3.3 `.sort_values()`排序

用法：DataFrame.sort_values(by='##',axis=0,ascending=True, inplace=False, na_position='last')

by=''：針對(duì)列：指定列名 by='number1'（一般為了偷懶都直接寫(xiě)列名）
針對(duì)行：指定索引 by=1

axis=0：若axis=0或'index'，則按列排序；
若axis=1或'columns'，則按指定索引行排序

ascending=True：排列順序，默認(rèn)升序排列
inplace=False：是否用排序后的數(shù)據(jù)集替換原來(lái)的數(shù)據(jù)，默認(rèn)不替換

na_position='last'：{'first','last'}，設(shè)定缺失值的顯示位置（開(kāi)始還是末尾）

'number1',按列排序,升序排列,不替換,缺失值末尾顯示

print(excel.sort_values('number1'))
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
3      2.0         NaN      d      NaN
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
5      5.0         NaN      j      NaN
7      8.0         NaN    NaN      NaN
6      9.0         NaN      h      NaN
4      NaN         NaN    NaN      NaN

可以看到，行與行之間按照排序重新?lián)Q了位置。

此時(shí)索引發(fā)生了變化，我們可以重新安排索引：

sorted_excel = excel.sort_values('number1')  # 排序后的
sorted_excel_reindexed = sorted_excel.reset_index(drop=True)  # 把之前的index給drop掉
print(sorted_excel_reindexed)
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      2.0         NaN      d      NaN
2      3.0         NaN      c      0.5
3      4.0         NaN      b      0.2
4      5.0         NaN      j      NaN
5      8.0         NaN    NaN      NaN
6      9.0         NaN      h      NaN
7      NaN         NaN    NaN      NaN

'letter',按列排序,降序排列,不替換,缺失值顯示在開(kāi)始

print(excel.sort_values('letter', ascending=False, na_position='first'))
>>>
   number1  Unnamed: 1 letter  number2
4      NaN         NaN    NaN      NaN
7      8.0         NaN    NaN      NaN
5      5.0         NaN      j      NaN
6      9.0         NaN      h      NaN
3      2.0         NaN      d      NaN
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
0      1.0         NaN      a      0.1

按第7行排序,升序排列,不替換,缺失值顯示在開(kāi)頭

print(excel.sort_values(by=7, axis='columns', na_position='first'))
>>>
   Unnamed: 1 letter  number2  number1
0         NaN      a      0.1      1.0
1         NaN      c      0.5      3.0
2         NaN      b      0.2      4.0
3         NaN      d      NaN      2.0
4         NaN    NaN      NaN      NaN
5         NaN      j      NaN      5.0
6         NaN      h      NaN      9.0
7         NaN    NaN      NaN      8.0

這里是按照最后一行排序，可以看到，所有列都隨著第七行變化了順序。

3.4 缺失值處理

首先要找到缺失值：

number1 = excel['number1']
number1_isnull = pd.isnull(number1)  # 判斷是否NaN
print(number1_isnull)  # 布爾類型
>>> 0    False
	1    False
	2    False
	3    False
	4     True
	5    False
	6    False
	7    False
	Name: number1, dtype: bool
	
print(number1[number1_isnull])  # 輸出True的
>>> 4   NaN
	Name: number1, dtype: float64

然后找出好的值：

good_number1 = number1[number1_isnull==False]
print(good_number1)  # 輸出不為缺失值的，也就是好的
>>> 0    1.0
	1    3.0
	2    4.0
	3    2.0
	5    5.0
	6    9.0
	7    8.0
	Name: number1, dtype: float64

print(sum(good_number1) / len(good_number1))  # 均值
>>> 4.571428571428571

上面是求均值，其實(shí)已經(jīng)有函數(shù)直接解決了：

print(excel['number1'].mean())
>>> 4.571428571428571

4 常用函數(shù)

4.1 pivot_table 找出特定索引對(duì)應(yīng)的特定值

換一個(gè)表格：

import pandas as pd
excel = pd.read_csv('new.csv')
print(excel)
>>>
   Survived  Pclass  Age     Fare Embarked
0         0       3   22   7.2500        S
1         1       1   38  71.2833        C
2         1       2   26   7.9250        S
3         0       1   35  53.1000        S
4         1       3   35   8.0500        S
5         0       2   28   7.2000        C

Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas

找出特定索引對(duì)應(yīng)的特定值：

# 統(tǒng)計(jì)各個(gè)等級(jí)的船艙（Pclass）中，獲救的幾率，按平均值計(jì)算
passenger_survival = excel.pivot_table(index='Pclass', values='Survived', aggfunc=np.mean)
print(passenger_survival)
>>>
        Survived
Pclass          
1            0.5
2            0.5
3            0.5

# 統(tǒng)計(jì)各個(gè)船艙中乘客的年齡
passenger_age = excel.pivot_table(index='Pclass', values='Age')  # aggfunc沒(méi)寫(xiě)，就是默認(rèn)mean
print(passenger_age)
>>>
Pclass      
1       36.5
2       27.0
3       28.5

# 統(tǒng)計(jì)不同登船地點(diǎn)（C、S）的價(jià)格和存活人數(shù)
port_stats = excel.pivot_table(index='Embarked', values=['Fare', 'Survived'], aggfunc=np.sum)
print(port_stats)
>>>
             Fare  Survived
Embarked                   
C         78.4833         1
S         76.3250         2

4.2 刪去缺失值多的那列或行

原始表格：

import pandas as pd
import numpy as np
excel = pd.read_csv('excel.csv')
print(excel)
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      j      NaN
6      9.0         NaN      h      NaN
7      8.0         NaN    NaN      NaN

刪除列中含有 NaN 值較多的列：

# thresh 參數(shù)表示一個(gè)列中至少要有多少個(gè)非 NaN 值，否則該列將被刪除。
# 上面代碼中的 thresh=len(df)*0.8 表示一個(gè)列中非 NaN 值數(shù)量至少要占該列總數(shù)量的 80% 才會(huì)保留，這可以根據(jù)實(shí)際情況進(jìn)行調(diào)整。
drop1_excel = excel.dropna(thresh=len(excel)*0.7, axis='columns')
print(drop1_excel)
>>>
   number1 letter
0      1.0      a
1      3.0      c
2      4.0      b
3      2.0      d
4      NaN    NaN
5      5.0      j
6      9.0      h
7      8.0    NaN

刪掉指定列中，含有NaN的行：

drop1_excel = excel.dropna(axis=0, subset = ['letter', 'number2'])
print(drop1_excel)
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2

4.3 定位

# 定位第7號(hào)樣本的number1是什么內(nèi)容
location = excel.loc[7, 'number1']
print(location)  # 8.0

4.4 自定義函數(shù)apply

# 自定義一個(gè)想實(shí)現(xiàn)的功能的函數(shù)
def find(x):  # 尋找第3行的樣本
    a = x.loc[3]
    return a

my = excel.apply(find)
print(my)
>>>
number1       2.0
Unnamed: 1    NaN
letter          d
number2       NaN
dtype: object

def not_null_count(x):  # 統(tǒng)計(jì)每一列的缺失值
    y = pd.isnull(x)  # 函數(shù)用于判斷一個(gè) DataFrame 或 Series 中每個(gè)元素是否為空值，返回一個(gè)由 True/False 構(gòu)成的布爾型 DataFrame/Series
    null = x[y]  # 取出為 True 的元素
    return len(null)

print(excel.apply(not_null_count))  # 打印出每個(gè)列有多少個(gè)缺失值
>>>
number1       1
Unnamed: 1    8
letter        2
number2       5
dtype: int64

def is_adult(x):  # 判斷是否是成年人，表格是new
    if x['Age'] > 18:
        return True
    else:
        return False

print(excel.apply(is_adult, axis=1))
>>>
0    True
1    True
2    True
3    True
4    True
5    True
dtype: bool

5 Series 結(jié)構(gòu)

參考：Pandas庫(kù)中的Series結(jié)構(gòu)

Series對(duì)象可以理解為由一列索引和一列值，共兩列數(shù)據(jù)組成的結(jié)構(gòu)。而DataFrame就是由一列索引和多列值組成的結(jié)構(gòu)，其中，在DataFrame中的每一列都是一個(gè)Series對(duì)象。

Series(collection of values)
DataFrame(collection of Series objects)

5.1 從表格中提取 Series 結(jié)構(gòu)

import pandas as pd
excel = pd.read_csv('excel.csv')
print(excel)
>>>
   number1  Unnamed: 1 letter  number2
0      1.0         NaN      a      0.1
1      3.0         NaN      c      0.5
2      4.0         NaN      b      0.2
3      2.0         NaN      d      NaN
4      NaN         NaN    NaN      NaN
5      5.0         NaN      j      NaN
6      9.0         NaN      h      NaN
7      8.0         NaN    NaN      NaN

series_letter = excel['letter']
print(type(series_letter))
>>> <class 'pandas.core.series.Series'>

# 作為 Series 結(jié)構(gòu)直接提取
print(series_letter[0:5])
>>>
0      a
1      c
2      b
3      d
4    NaN
Name: letter, dtype: object

# 也可以作為 DataFrame 結(jié)構(gòu)
print(series_letter.loc[2])
>>> b

5.2 自己造一個(gè) Series 結(jié)構(gòu)

from pandas import Series
series_letter = excel['letter'].values
series_number1 = excel['number1'].values

series_new = Series(series_number1, index=series_letter)  # 索引是number1，值是letter
print(series_new)
>>>
a      1.0
c      3.0
b      4.0
d      2.0
NaN    NaN
j      5.0
h      9.0
NaN    8.0
dtype: float64

print(series_new[['b', 'j']])  # 相當(dāng)于額外造了一個(gè)索引，之前的索引一樣能用
>>> 
b    4.0
j    5.0
dtype: float64

print(series_new[0:5])
>>>
a      1.0
c      3.0
b      4.0
d      2.0
NaN    NaN
dtype: float64

照樣可以進(jìn)行排序等操作，參考Pandas庫(kù)中的Series結(jié)構(gòu)就行。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-424434.html

到了這里，關(guān)于Python初學(xué)小知識(shí)（十四）：數(shù)據(jù)分析處理庫(kù)Pandas的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

100天精通Python（數(shù)據(jù)分析篇）——第48天：數(shù)據(jù)分析入門(mén)知識(shí)
近兩年來(lái)，數(shù)據(jù)分析師的崗位需求非常大，90%的崗位技能需要掌握Python作為數(shù)據(jù)分析工具。Python語(yǔ)言的易學(xué)性、快速開(kāi)發(fā)，擁有豐富強(qiáng)大的擴(kuò)展庫(kù)和成熟的框架等特性很好地滿足了數(shù)據(jù)分析師的職業(yè)技能要求。數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計(jì)分析的方法對(duì)收集來(lái)的大量數(shù)據(jù)進(jìn)行分
2024年02月02日
瀏覽(30)
python大數(shù)據(jù)分析處理
Python在大數(shù)據(jù)分析處理方面有著廣泛的應(yīng)用，其豐富的庫(kù)和生態(tài)系統(tǒng)讓Python更加易于使用和定制。本文將介紹Python在大數(shù)據(jù)分析處理方面的示例。首先，我們需要導(dǎo)入一些核心的Python庫(kù)，例如numpy、pandas和matplotlib。這些庫(kù)不僅提供基本的數(shù)組、表格和繪圖功能，還能幫助處理
2024年02月08日
瀏覽(21)
Matplotlib繪圖知識(shí)小結(jié)--Python數(shù)據(jù)分析學(xué)習(xí)
一、Pyplot子庫(kù)繪制2D圖表 1、Matplotlib Pyplot Pyplot 是 Matplotlib 的子庫(kù)，提供了和 MATLAB 類似的繪圖 API。 Pyplot 是常用的繪圖模塊，能很方便讓用戶繪制 2D 圖表。 Pyplot 包含一系列繪圖函數(shù)的相關(guān)函數(shù)，每個(gè)函數(shù)會(huì)對(duì)當(dāng)前的圖像進(jìn)行一些修改，例如：給圖像加上標(biāo)記，生新的圖像，
2024年02月12日
瀏覽(25)
Python數(shù)據(jù)分析處理報(bào)告--實(shí)訓(xùn)小案例
目錄 1、實(shí)驗(yàn)一 1.1、題目總覽 1.2、代碼解析 2、實(shí)現(xiàn)二 2.1、題目總覽 2.2、代碼解析 3、實(shí)驗(yàn)三 3.1、題目總覽 3.2、代碼解析 4、實(shí)驗(yàn)四 3.1、題目總覽 3.2、代碼解析哈嘍~ 今天學(xué)習(xí)記錄的是數(shù)據(jù)分析實(shí)訓(xùn)小案例。就用這個(gè)案例來(lái)好好鞏固一下 python 數(shù)據(jù)分析三劍客。前期準(zhǔn)備
2024年02月10日
瀏覽(24)
基于Python的微信聊天記錄分析——數(shù)據(jù)處理與分析
本篇為《基于Python的微信聊天記錄分析》系列的第二篇，主要講解獲取到聊天記錄數(shù)據(jù)之后，在Python環(huán)境下對(duì)其進(jìn)行數(shù)據(jù)處理、分析和可視化，涉及庫(kù)的安裝、相關(guān)操作的Python代碼等內(nèi)容。希望和大家多多交流，共同進(jìn)步！數(shù)據(jù)分析的基礎(chǔ)是“數(shù)據(jù)”，俗話說(shuō)基礎(chǔ)不牢，地動(dòng)
2024年02月19日
瀏覽(89)
Python數(shù)據(jù)分析之特征處理筆記三——特征預(yù)處理（特征選擇）
書(shū)接上文，進(jìn)行數(shù)據(jù)清洗過(guò)程后，我們得到了沒(méi)有空值、異常值、錯(cuò)誤值的數(shù)據(jù)，但想要用海量的數(shù)據(jù)來(lái)建立我們所需要的算法模型，僅僅是數(shù)據(jù)清洗的過(guò)程是不夠的，因?yàn)橛械臄?shù)據(jù)類型是數(shù)值，有的是字符，怎樣將不同類型的數(shù)據(jù)聯(lián)系起來(lái)？以及在保證最大化信息量的前提
2024年02月02日
瀏覽(37)
【數(shù)據(jù)分析】Python:處理缺失值的常見(jiàn)方法
在數(shù)據(jù)分析和機(jī)器學(xué)習(xí)中，缺失值是一種常見(jiàn)的現(xiàn)象。在實(shí)際數(shù)據(jù)集中，某些變量的某些條目可能沒(méi)有可用的值。處理缺失值是一個(gè)重要的數(shù)據(jù)預(yù)處理步驟。在本文中，我們將介紹如何在 Pandas 中處理缺失值。我們將探討以下內(nèi)容：什么是缺失值；如何在 Pandas 中識(shí)別缺失值
2024年02月03日
瀏覽(50)
Python 數(shù)據(jù)處理與分析之 Pandas 庫(kù)
Pandas（Python Data Analysis Library）是一個(gè)流行的 Python 第三方庫(kù)，是數(shù)據(jù)處理和數(shù)據(jù)分析中不可或缺的工具之一，用于數(shù)據(jù)處理和數(shù)據(jù)分析。它提供了高效的數(shù)據(jù)分析方法和靈活且高效的數(shù)據(jù)結(jié)構(gòu)。相比于其他的數(shù)據(jù)處理庫(kù)，pandas更適用于處理具有關(guān)系型數(shù)據(jù)或者帶標(biāo)簽數(shù)據(jù)的情
2024年02月05日
瀏覽(54)
【100天精通Python】Day56：Python 數(shù)據(jù)分析_Pandas數(shù)據(jù)清洗和處理
目錄數(shù)據(jù)清洗和處理 1.處理缺失值 1.1 刪除缺失值： 1.2? 填充缺失值： 1.3 插值： 2 數(shù)據(jù)類型轉(zhuǎn)換 2.1 數(shù)據(jù)類型轉(zhuǎn)換 2.2 日期和時(shí)間的轉(zhuǎn)換： 2.3 分類數(shù)據(jù)的轉(zhuǎn)換： 2.4 自定義數(shù)據(jù)類型的轉(zhuǎn)換： 3 數(shù)據(jù)去重 4 數(shù)據(jù)合并和連接數(shù)據(jù)清洗和處理 ????????在數(shù)據(jù)清洗和處理方面，
2024年02月09日
瀏覽(38)
【Python】數(shù)據(jù)預(yù)處理之將類別數(shù)據(jù)轉(zhuǎn)換為數(shù)值的方法（含Python代碼分析）
在進(jìn)行Python數(shù)據(jù)分析的時(shí)候，首先要進(jìn)行數(shù)據(jù)預(yù)處理。但是有時(shí)候不得不處理一些非數(shù)值類別的數(shù)據(jù)，遇到這類問(wèn)題時(shí)該怎么解決呢？目前為止，總結(jié)了三種方法，這里分享給大家。這種方法是屬于映射字典將類標(biāo)轉(zhuǎn)換為整數(shù)，不過(guò)這種方法適用范圍有限。我們首先創(chuàng)建一
2024年02月09日
瀏覽(26)