機器學(xué)習(xí)是通過研究數(shù)據(jù)和統(tǒng)計信息使計算機學(xué)習(xí)的過程。機器學(xué)習(xí)是邁向人工智能(AI)的一步。機器學(xué)習(xí)是一個分析數(shù)據(jù)并學(xué)會預(yù)測結(jié)果的程序。
數(shù)據(jù)集
在計算機的思維中,數(shù)據(jù)集是任何數(shù)據(jù)的集合。它可以是從數(shù)組到完整數(shù)據(jù)庫的任何東西。
數(shù)組的示例:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
數(shù)據(jù)庫的示例:
Carname Color Age Speed AutoPass
BMW red 5 99 Y
Volvo black 7 86 Y
VW gray 8 87 N
VW white 7 88 Y
Ford white 2 111 Y
VW white 17 86 Y
Tesla red 2 103 Y
BMW black 9 87 Y
Volvo gray 4 94 N
Ford white 11 78 N
Toyota gray 12 77 N
VW white 9 85 N
Toyota blue 6 86 Y
通過查看數(shù)組,我們可以猜測平均值可能在80到90之間,我們還能夠確定最高值和最低值,但我們還能做什么?
通過查看數(shù)據(jù)庫,我們可以看到最受歡迎的顏色是白色,而最老的車輛為17歲,但如果我們能夠通過查看其他值來預(yù)測車輛是否具有AutoPass呢?
這就是機器學(xué)習(xí)的用途!分析數(shù)據(jù)并預(yù)測結(jié)果!
在機器學(xué)習(xí)中,通常需要處理非常大的數(shù)據(jù)集。在本教程中,我們將盡量讓您盡可能容易地理解機器學(xué)習(xí)的不同概念,并使用易于理解的小型數(shù)據(jù)集。
數(shù)據(jù)類型
要分析數(shù)據(jù),重要的是要知道我們正在處理的數(shù)據(jù)類型。
我們可以將數(shù)據(jù)類型分為三個主要類別:
- 數(shù)值
- 分類
- 順序
數(shù)值數(shù)據(jù)是數(shù)字,并且可以分為兩個數(shù)值類別:
- 離散數(shù)據(jù) - 限制為整數(shù)的數(shù)字。示例:汽車經(jīng)過的數(shù)量。
- 連續(xù)數(shù)據(jù) - 有無限值的數(shù)字。示例:物品的價格或大小。
分類數(shù)據(jù)是不能相互比較的值。示例:顏色值或任何是/否值。
順序數(shù)據(jù)類似于分類數(shù)據(jù),但可以相互比較。示例:學(xué)校成績,其中A好于B等等。
通過了解數(shù)據(jù)源的數(shù)據(jù)類型,您將能夠知道在分析數(shù)據(jù)時使用哪種技術(shù)。
您將在接下來的章節(jié)中了解更多有關(guān)統(tǒng)計學(xué)和數(shù)據(jù)分析的內(nèi)容。
機器學(xué)習(xí) - 均值、中位數(shù)、眾數(shù)
在觀察一組數(shù)字時,我們可以學(xué)到什么?
在機器學(xué)習(xí)(以及數(shù)學(xué))中,通常有三個值引起我們的興趣:
- 均值 - 平均值
- 中位數(shù) - 中間值
- 眾數(shù) - 出現(xiàn)最頻繁的值
示例:我們已經(jīng)記錄了13輛車的速度:
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
這些速度的平均值、中間值和最常見的速度值是多少呢?
均值
均值是平均值。
要計算均值,找到所有值的總和,并將總和除以值的數(shù)量:
(99+86+87+88+111+86+103+87+94+78+77+85+86) / 13 = 89.77
NumPy模塊有一個用于此目的的方法。了解有關(guān)NumPy模塊的信息,請查看我們的NumPy教程。
示例:使用NumPy的mean()方法找到平均速度:
import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.mean(speed)
print(x)
中位數(shù)
中位數(shù)是排列所有值后位于中間的值:
77, 78, 85, 86, 86, 86, 87, 87, 88, 94, 99, 103, 111
在找到中位數(shù)之前,需要確保對數(shù)字進行排序。
NumPy模塊有一個用于此目的的方法:
示例:使用NumPy的median()方法找到中間值:
import numpy
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
如果中間有兩個數(shù)字,將這些數(shù)字的總和除以2。
77, 78, 85, 86, 86, 86, 87, 87, 94, 98, 99, 103
(86 + 87) / 2 = 86.5
示例:使用NumPy模塊:
import numpy
speed = [99,86,87,88,86,103,87,94,78,77,85,86]
x = numpy.median(speed)
print(x)
眾數(shù)
眾數(shù)是出現(xiàn)最頻繁的值:
99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86 = 86
SciPy模塊有一個用于此目的的方法。了解有關(guān)SciPy模塊的信息,請查看我們的SciPy教程。
示例:使用SciPy的mode()方法找到出現(xiàn)最頻繁的數(shù)字:
from scipy import stats
speed = [99,86,87,88,111,86,103,87,94,78,77,85,86]
x = stats.mode(speed)
print(x)
最后
為了方便其他設(shè)備和平臺的小伙伴觀看往期文章:公眾號搜索Let us Coding
,或者掃描下方二維碼,關(guān)注公眾號,即可獲取最新文章。
看完如果覺得有幫助,歡迎點贊、收藏和關(guān)注文章來源:http://www.zghlxwxcb.cn/news/detail-745946.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-745946.html
到了這里,關(guān)于Python 機器學(xué)習(xí)入門:數(shù)據(jù)集、數(shù)據(jù)類型和統(tǒng)計學(xué)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!