国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）

2年前作者：陸沙分類：Toy博客閱讀(60)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

問題描述

數(shù)據(jù)來源：California Housing Prices dataset from the StatLib repository，1990年加州的統(tǒng)計(jì)數(shù)據(jù)。

要求：預(yù)測(cè)任意一個(gè)街區(qū)的房價(jià)中位數(shù)

縮小問題：superwised multiple regressiong(用到人口、收入等特征) univariate regression（只預(yù)測(cè)一個(gè)數(shù)據(jù)）plain batch learning（數(shù)據(jù)量不大+不咋變動(dòng)）

準(zhǔn)備數(shù)據(jù)

下載數(shù)據(jù)

可以去github，也可以自動(dòng)下載。

import os
import tarfile
import urllib.request
import pandas as pd

down_root = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = "datasets"
HOUSING_URL = down_root + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

查看數(shù)據(jù)

def load_housing_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, "housing.csv")
    return pd.read_csv(csv_path)

housing = load_housing_data()
# housing.head() 默認(rèn)打印前5行信息，中間列可能省略
# housing.info() 打印行列信息、類型等

housing.info()可以簡單查看數(shù)據(jù)情況?？梢钥吹剑瑃otal_bedrooms里有數(shù)據(jù)缺失，而ocean_proximity的類型是object。因?yàn)槲募莄sv格式，所以肯定是字符串類型。

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20640 entries, 0 to 20639
Data columns (total 10 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   longitude           20640 non-null  float64
 1   latitude            20640 non-null  float64
 2   housing_median_age  20640 non-null  float64
 3   total_rooms         20640 non-null  float64
 4   total_bedrooms      20433 non-null  float64
 5   population          20640 non-null  float64
 6   households          20640 non-null  float64
 7   median_income       20640 non-null  float64
 8   median_house_value  20640 non-null  float64
 9   ocean_proximity     20640 non-null  object 
dtypes: float64(9), object(1)
memory usage: 1.6+ MB
None

打印一下ocean_proximity的分類及統(tǒng)計(jì)，可以看到是標(biāo)簽，category

print(housing["ocean_proximity"].value_counts())

<1H OCEAN     9136
INLAND        6551
NEAR OCEAN    2658
NEAR BAY      2290
ISLAND           5
Name: ocean_proximity, dtype: int64

housing.describe()可以計(jì)算各個(gè)數(shù)值列的count，mean，std，min，25%、50%和75%（中位數(shù)）、max。計(jì)算時(shí)null會(huì)被忽略。

也可以通過繪制柱形圖觀察數(shù)據(jù)。

import matplotlib.pyplot as plt
housing.hist(bins=50, figsize=(20,15))
plt.show()

機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）
要看柱形圖是因?yàn)槟承C(jī)器學(xué)習(xí)算法更適合用正態(tài)數(shù)據(jù)，如果是tail-heavy（左偏）需要通過一些方法修正。

劃分測(cè)試集與訓(xùn)練集

最簡單的是直接隨機(jī)挑選。但是要設(shè)置seed，因?yàn)槿绻辉O(shè)置的話，每次運(yùn)行得到的訓(xùn)練集不一樣，時(shí)間長了整個(gè)訓(xùn)練集都是已知了，那測(cè)試集就失去意義了。

import numpy as np
def get_train_set(data, ratio=0.2):
    # 可以先設(shè)置seed以保持shuffled不變
    np.random.seed(42)
    shuffled = np.random.permutation(len(data))
    test_set_size = int(len(data) * ratio)
    test_indices = shuffled[:test_set_size]
    train_indices = shuffled[test_set_size:]
    return data.iloc[train_indices], data.iloc[test_indices]

同時(shí)scikit learn也提供了方法：random_state就跟前面設(shè)seed的功能一樣。

from sklearn.model_selection import train_test_split
# random_state是隨機(jī)種子，如果兩次設(shè)置相同，則劃分結(jié)果相同
train_set, test_set = train_test_split(housing, test_size=0.2, random_state=42)

但是，隨機(jī)挑選的數(shù)據(jù)可以不夠有代表性。假設(shè)median income是一個(gè)重要的特性，需要對(duì)它進(jìn)行分層抽樣。先看一下數(shù)據(jù)分布：

housing["income_cat"] = pd.cut(housing["median_income"], 
                               bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                               labels=[1,2,3,4,5])
housing["income_cat"].hist()
plt.show()

機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）
使用scikit learn帶的分層抽樣函數(shù)進(jìn)行分層：

from sklearn.model_selection import StratifiedShuffleSplit

# n_splits 參數(shù)指定了要生成的劃分?jǐn)?shù)量. 1就是生成1種隨機(jī)劃分
split = StratifiedShuffleSplit(n_splits=1, test_size=0.2, random_state=42)
for train_index, test_index in split.split(housing, housing["income_cat"]):
    strat_train_set = housing.loc[train_index]
    strat_test_set = housing.loc[test_index]
print(strat_test_set)

此時(shí)可以看到，

       longitude  latitude  ...  ocean_proximity  income_cat
5241     -118.39     34.12  ...        <1H OCEAN           5
17352    -120.42     34.89  ...        <1H OCEAN           4
3505     -118.45     34.25  ...        <1H OCEAN           3
7777     -118.10     33.91  ...        <1H OCEAN           3
14155    -117.07     32.77  ...       NEAR OCEAN           3
...          ...       ...  ...              ...         ...
12182    -117.29     33.72  ...        <1H OCEAN           2
7275     -118.24     33.99  ...        <1H OCEAN           2
17223    -119.72     34.44  ...        <1H OCEAN           4
10786    -117.91     33.63  ...        <1H OCEAN           4
3965     -118.56     34.19  ...        <1H OCEAN           3

[4128 rows x 11 columns]

驗(yàn)證一下是否正確分層抽樣了：

print(strat_test_set["income_cat"].value_counts() / len(strat_test_set))

3    0.350533
2    0.318798
4    0.176357
5    0.114341
1    0.039971
Name: income_cat, dtype: float64

最終函數(shù)為：

def get_train_test_split(data, test_size):
    # 完全隨機(jī)分類
    # from sklearn.model_selection import train_test_split
    # random_state是隨機(jī)種子，如果兩次設(shè)置相同，則劃分結(jié)果相同
    # test_size是測(cè)試集所占的比例 0-1
    # train_set, test_set = train_test_split(data, test_size=test_size, random_state=42)
    # return train_set, test_set

    # 需要對(duì)某一列進(jìn)行分層抽樣
    # 先創(chuàng)造一個(gè)新列，根據(jù)某列內(nèi)容，給各行打上標(biāo)簽
    data["income_cat"] = pd.cut(housing["median_income"],
                                bins=[0., 1.5, 3.0, 4.5, 6., np.inf],
                                labels=[1, 2, 3, 4, 5])
    from sklearn.model_selection import StratifiedShuffleSplit
    # n_splits 參數(shù)指定了要生成的劃分?jǐn)?shù)量
    split = StratifiedShuffleSplit(n_splits=1, test_size=test_size, random_state=42)
    for train_index, test_index in split.split(data, data["income_cat"]):
        strat_train_set = data.loc[train_index]
        strat_test_set = data.loc[test_index]
    # 刪除剛才創(chuàng)造的新列
    for set_ in (strat_train_set, strat_test_set):
        # axis=1表示刪除列
        set_.drop("income_cat", axis=1, inplace=True)
    return strat_train_set, strat_test_set

數(shù)據(jù)可視化

	train_set, test_set = get_train_test_split(housing, 0.2)
	visual_data = train_set.copy()
    # alpha=0是透明，1是實(shí)心
    visual_data.plot(kind="scatter", x="longitude", y="latitude", alpha=0.1)
    plt.show()

機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）
換一種包含信息更多的方式：令散點(diǎn)的直徑大小表示人口，顏色表示房價(jià)中位值。

	# s是指定散點(diǎn)圖中點(diǎn)的大小，figsize默認(rèn)(6.4, 4.8)格式(width, height)
    # c是散點(diǎn)圖中點(diǎn)的顏色
    # cmp是將數(shù)據(jù)映射到顏色的方式. jet 是一種常用的 colormap，但是它在一些情況下可能會(huì)導(dǎo)致誤導(dǎo)性
    # 的視覺效果，例如在顏色變化過程中的亮度或暗度變化不均勻。因此，在科學(xué)可視化領(lǐng)域，已經(jīng)不推薦使用
    # jet 了。相反，viridis、plasma、magma 等 colormap 更適合用于科學(xué)可視化。
    # 具體來說，viridis 可以在不失真的情況下傳達(dá)數(shù)據(jù)的漸變，
    # 而 plasma 和 magma 可以在強(qiáng)調(diào)數(shù)據(jù)的變化時(shí)保持不同的亮度和暗度。
    visual_data.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
                     s=visual_data["population"]/100, label="population",
                     c="median_house_value", cmap=plt.get_cmap("viridis"),
                     colorbar=True,
                     figsize=(10,7))
    plt.legend()
    plt.show()

機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）
關(guān)于幾種colormap代表的顏色如下圖所示：
文章來源地址http://www.zghlxwxcb.cn/news/detail-418279.html

到了這里，關(guān)于機(jī)器學(xué)習(xí)入門實(shí)例-加州房價(jià)預(yù)測(cè)-1（數(shù)據(jù)準(zhǔn)備與可視化）的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

【Python機(jī)器學(xué)習(xí)】決策樹、K近鄰、神經(jīng)網(wǎng)絡(luò)等模型對(duì)Kaggle房價(jià)預(yù)測(cè)實(shí)戰(zhàn)（附源碼和數(shù)據(jù)集）
需要源碼和數(shù)據(jù)集請(qǐng)點(diǎn)贊關(guān)注收藏后評(píng)論區(qū)留言私信~~~ 超參數(shù)調(diào)優(yōu)需要依靠試驗(yàn)的方法，以及人的經(jīng)驗(yàn)。對(duì)算法本身的理解越深入，對(duì)實(shí)現(xiàn)算法的過程了解越詳細(xì)，積累了越多的調(diào)優(yōu)經(jīng)驗(yàn)，就越能夠快速準(zhǔn)確地找到最合適的超參數(shù) 試驗(yàn)的方法，就是設(shè)置了一系列超參數(shù)之后
2024年02月03日
瀏覽(25)
機(jī)器學(xué)習(xí) 波士頓房價(jià)預(yù)測(cè) Boston Housing
目錄一：前言二：模型預(yù)測(cè)(KNN算法) 三：回歸模型預(yù)測(cè)比對(duì) 波士頓房價(jià) 是機(jī)器學(xué)習(xí)中很常用的一個(gè) 解決回歸問題的數(shù)據(jù)集數(shù)據(jù)統(tǒng)計(jì)于1978年，包括506個(gè)房價(jià)樣本，每個(gè)樣本包括波士頓不同郊區(qū)房屋的13種特征信息，比如：住宅房間數(shù)、城鎮(zhèn)教師和學(xué)生比例等標(biāo)簽值是每棟
2024年02月03日
瀏覽(33)
數(shù)據(jù)分析（以kaggle上的加州房價(jià)為例）
數(shù)據(jù)來源：House Prices - Advanced Regression Techniques 參考文獻(xiàn)： Comprehensive data exploration with Python 偏度（Skewness）是一種衡量隨機(jī)變量概率分布的偏斜方向和程度的度量，是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征。偏度可以用來反映數(shù)據(jù)分布相對(duì)于對(duì)稱分布的偏斜程度。偏度的取值范
2024年02月09日
瀏覽(19)
【大廠AI課學(xué)習(xí)筆記】【2.2機(jī)器學(xué)習(xí)開發(fā)任務(wù)實(shí)例】（3）數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理
項(xiàng)目開始，首先要進(jìn)行數(shù)據(jù)準(zhǔn)備和數(shù)據(jù)預(yù)處理。數(shù)據(jù)準(zhǔn)備的核心是找到這些數(shù)據(jù)，觀察數(shù)據(jù)的問題。數(shù)據(jù)預(yù)處理就是去掉臟數(shù)據(jù)。缺失值的處理，格式轉(zhuǎn)換等。延伸學(xué)習(xí)：在人工智能（AI）的眾多工作流程中，數(shù)據(jù)準(zhǔn)備與預(yù)處理占據(jù)著舉足輕重的地位。這兩個(gè)步驟不僅影響
2024年02月19日
瀏覽(29)
機(jī)器學(xué)習(xí)(三)：基于線性回歸對(duì)波士頓房價(jià)預(yù)測(cè)
? 作者簡介： i阿極，CSDN Python領(lǐng)域新星創(chuàng)作者，專注于分享python領(lǐng)域知識(shí)。 ? 本文錄入于《機(jī)器學(xué)習(xí)案例》，本專欄精選了經(jīng)典的機(jī)器學(xué)習(xí)算法進(jìn)行講解，針對(duì)大學(xué)生、初級(jí)數(shù)據(jù)分析工程師精心打造?
2023年04月25日
瀏覽(54)
【機(jī)器學(xué)習(xí)】P25 隨機(jī)森林算法（2）實(shí)現(xiàn) “波士頓房價(jià)” 預(yù)測(cè)
隨機(jī)森林（Random Forest）算法是一種集成學(xué)習(xí)（Ensemble Learning）方法，它由多個(gè)決策樹組成，是一種分類、回歸和特征選擇的機(jī)器學(xué)習(xí)算法。在隨機(jī)森林中，每個(gè)決策樹都是獨(dú)立地訓(xùn)練的，每棵樹的建立都是基于隨機(jī)選取的特征子集和隨機(jī)選取的訓(xùn)練樣本集。在分類問題
2024年02月01日
瀏覽(40)
python 導(dǎo)入fetch_california_housing 加州房價(jià)數(shù)據(jù)集報(bào)錯(cuò)解決
1 導(dǎo)入加州房價(jià)數(shù)據(jù)集顯示 HTTP Error 403：Forbidden 2 處理方法? ①手工下載數(shù)據(jù)集? 打開_california_housing.py 文件，里面有數(shù)據(jù)集的下載地址，不知道_california_housing.py文件地址的可以看報(bào)錯(cuò)中提示的位置 ?_california_housing.py文件中43行，有數(shù)據(jù)集的下載地址（https://www.dcc.fc.up.pt/~l
2024年02月07日
瀏覽(26)
機(jī)器學(xué)習(xí)之利用線性回歸預(yù)測(cè)波士頓房價(jià)和可視化分析影響房價(jià)因素實(shí)戰(zhàn)（python實(shí)現(xiàn) 附源碼超詳細(xì)）
數(shù)據(jù)集和源碼請(qǐng)點(diǎn)贊關(guān)注收藏后評(píng)論區(qū)留下QQ郵箱或者私信線性回歸是利用最小二乘函數(shù)對(duì)一個(gè)或多個(gè)因變量之間關(guān)系進(jìn)行建模的一種回歸分析，這種函數(shù)是一個(gè)或多個(gè)稱為回歸系數(shù)的模型參數(shù)的線性組合。只有一個(gè)變量的稱為一元回歸，大于一個(gè)變量的情況叫做多元回歸。
2024年01月21日
瀏覽(28)
機(jī)器學(xué)習(xí)之支持向量回歸（SVR）預(yù)測(cè)房價(jià)—基于python
? ? ? 大家好，我是帶我去滑雪！ ? ? ? 本期使用爬取到的有關(guān)房價(jià)數(shù)據(jù)集data.csv，使用支持向量回歸（SVR）方法預(yù)測(cè)房價(jià)。該數(shù)據(jù)集中“y1”為響應(yīng)變量，為房屋總價(jià)，而x1-x9為特征變量，依次表示房屋的臥室數(shù)量、客廳數(shù)量、面積、裝修情況、有無電梯、、房屋所在樓層位
2024年02月04日
瀏覽(29)
機(jī)器學(xué)習(xí)基礎(chǔ)10-審查回歸算法(基于波士頓房價(jià)的數(shù)據(jù)集)
上一節(jié)介紹了如何審查分類算法，并介紹了六種不同的分類算法，還用同一個(gè)數(shù)據(jù)集按照相同的方式對(duì)它們做了審查，本章將用相同的方式對(duì)回歸算法進(jìn)行審查。在本節(jié)將學(xué)到：如何審查機(jī)器學(xué)習(xí)的回歸算法。如何審查四種線性分類算法。如何審查三種非線性分類算法。
2024年02月11日
瀏覽(20)