国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

1.Python數(shù)據(jù)分析項目——二手車價格預(yù)測

這篇具有很好參考價值的文章主要介紹了1.Python數(shù)據(jù)分析項目——二手車價格預(yù)測。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報違法"按鈕提交疑問。

1.總結(jié)

流程 具體操作
基本查看 查看缺失值、查看重復(fù)值、查看數(shù)值類型
預(yù)處理 缺失值處理(確定是否處理后,使用篩選方式刪除)拆分?jǐn)?shù)據(jù) 、標(biāo)簽的特征處理(處理成0/1格式)、特征工程(one-hot編碼)
數(shù)據(jù)分析 groupby分組求最值數(shù)據(jù)、seaborn可視化
預(yù)測 拆分?jǐn)?shù)據(jù)集、建立模型、訓(xùn)練模型、預(yù)測、評估模型

數(shù)量查看:條形圖
占比查看:餅圖
數(shù)據(jù)分區(qū)分布查看:概率密度函數(shù)圖

2.數(shù)據(jù)預(yù)處理

2.1 導(dǎo)入數(shù)據(jù)集與庫并基本查看數(shù)據(jù)

import pandas as  pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

dataset = pd.read_csv('data.csv')

2.2 數(shù)據(jù)的基本查看

# 整體查看:tag標(biāo)簽中數(shù)據(jù)需要拆分、并且存在缺失值
dataset.head()

# 對數(shù)值類型的變量進(jìn)行查看
dataset.describe()

# 查看缺失值數(shù)量:缺失值不多,可以直接刪了
dataset[dataset['tag'].notna()]

2.3 缺失值處理與獲取標(biāo)簽值

# 刪選出標(biāo)簽不為NaN的二手車數(shù)據(jù)(因?yàn)槿笔е禂?shù)量不多)
dataset = dataset[dataset["tag"].notna()]
dataset

# 拆分標(biāo)簽
tag_list = []
# apply函數(shù):會自動循環(huán)每一行的數(shù)據(jù) 并且執(zhí)行中間的匿名函數(shù)
dataset['tag'].apply(lambda x:tag_list.extend(x.split("_")))
# 對元素去重,再次轉(zhuǎn)換為列表
tag_list = list(set(tag_list))
# 獲取到所有的標(biāo)簽值
tag_list

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能

2.4 標(biāo)簽的特征處理

與one-hot編碼很類似,但是one-hot編碼只能存在1位有效狀態(tài)

'''
    新增列:每個tag標(biāo)簽都是一列
    若存在這個標(biāo)簽設(shè)置為1;不存在為0
'''
# 創(chuàng)建DataFrame,列名稱是tag_list里的元素
tag_df = pd.DataFrame(columns=tag_list)
# 拼接兩個DataFrame
df = pd.concat([dataset,tag_df],sort=False)
# 將tag_list對應(yīng)的NaN填充為0
df[tag_list] = df[tag_list].fillna(0)

# 將tag中的數(shù)據(jù)處理為數(shù)字(0或1)
# 傳遞的series為一行的數(shù)據(jù)
def set_tag_status(series):
    tags = series['tag'].split('_')# 將tag用_進(jìn)行拆分
    for t in tags:
        # 若這一行存在這個標(biāo)簽,就直接把他改成1
        series[t] = 1
    return series

# 將df[['tag',*tag_list]]的每一行應(yīng)用到set_tag_status函數(shù)中,刪除'tag'列,最后替換掉df[tag_list]部分
#  *tag_list是拆分這個列表
df[tag_list] = df[["tag", *tag_list]].apply(lambda x:set_tag_status(x), axis=1).drop("tag",axis=1)
df = df.drop("tag",axis=1) # 刪除tag列
df.head()

最終效果
python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能

2.5 特征工程(one-hot編碼)

什么是ont-hot編碼
One-Hot編碼是分類變量作為二進(jìn)制向量的表示。又稱為一位有效編碼,主要是采用N位狀態(tài)寄存器來對N個狀態(tài)進(jìn)行編碼,每個狀態(tài)都有獨(dú)立的寄存器位,并且在任意時候只有一位有效(設(shè)置為1),無效的狀態(tài)標(biāo)記為0。

# 創(chuàng)建dataframe記錄one-hot編碼
one_hot_df = pd.get_dummies(df['brand'])
# 刪除brand列
df.drop("brand",axis=1,inplace=True)
# 合并兩個dataframe, 以左右兩張表相同索引進(jìn)行合并
df = pd.merge(df, one_hot_df, left_index=True, right_index=True)
df

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能

3.數(shù)據(jù)分析

3.1 價格分析

分析平均價格最高的前10個品牌

# 分析平均價格最高的前10個品牌
num_top = df.groupby("brand")['price'].mean().sort_values(ascending=False)[:10]
# seaborn繪制條形圖
sns.set(font='SimHei')# 設(shè)置中文字體
fig = plt.figure(figsize=(15,10))# 設(shè)置圖像大小
sns.barplot(x=num_top.index, y=num_top.values) # 繪制條形圖
# plt.xticks(rotation=90) 設(shè)置x刻度軸旋轉(zhuǎn)角度
fig.show()

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能

3.2 銷量分析——銷量分析、銷量占比分析

銷量最多的前10個品牌

# 銷量最多的前10個品牌
amount_top = df["brand"].value_counts(sort=True)[:10]
fig = plt.figure(figsize=(15,10))# 設(shè)置圖像大小
sns.barplot(x=amount_top.index, y=amount_top) # 繪制條形圖
# plt.xticks(rotation=90) 設(shè)置x刻度軸旋轉(zhuǎn)角度
fig.show()

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能
銷量占比分析(餅圖)

# 銷量占比分析(餅圖)
fig = plt.figure(figsize=(15,10))# 設(shè)置圖像大小
plt.pie(amount_top, labels=amount_top.index, autopct="%1.2f%%") # 繪制條形圖;設(shè)置保留兩位小數(shù),數(shù)字1可以不寫,保留小數(shù)點(diǎn)前至少1位數(shù)字(防止報錯)
plt.title("各大品牌車系數(shù)量占有比前10位")
# plt.xticks(rotation=90) 設(shè)置x刻度軸旋轉(zhuǎn)角度
fig.show()

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能

3.3 價格分區(qū)概率分析

繪制直方圖與概率密度函數(shù)圖

# 1.數(shù)據(jù)準(zhǔn)備(基本數(shù)據(jù))
# 獲取大眾品牌記錄
df_dazhong = df[df["brand"] == '大眾']
dazhong_mean = df_dazhong["price"].mean()
dazhong_std = df_dazhong['price'].std()
num_bins = 20 # 條狀圖數(shù)量(分為幾組)

# 2.繪制直方圖
# density 代表是否歸一化:如果沒有歸一化,數(shù)據(jù)會非常大,不成為密度
n, bins, patches = plt.hist(df_dazhong["price"], num_bins, facecolor="green", density=True,alpha=0.5)

# 3.準(zhǔn)備數(shù)據(jù)(概率密度)
from scipy.stats import norm
# 計算概率密度函數(shù)值
y = norm.pdf(bins, dazhong_mean, dazhong_std)

# 4.繪制概率密度函數(shù)圖
plt.plot(bins, y, 'r--')
plt.xlabel('smarts')
plt.ylabel('probability')
plt.title('大眾價格分區(qū)概率分析')
plt.subplots_adjust(left=0.15)
plt.show()

python二手車價格預(yù)測,數(shù)據(jù)分析-統(tǒng)計分析,python,數(shù)據(jù)分析,數(shù)據(jù)挖掘,機(jī)器學(xué)習(xí),人工智能文章來源地址http://www.zghlxwxcb.cn/news/detail-521459.html

4.建立模型:梯度提升回歸算法

# 1.數(shù)據(jù)準(zhǔn)備
# 只要除了預(yù)測值以外的數(shù)據(jù)值
X = df[df.columns.difference(['price'])].values
# 預(yù)測的目標(biāo)值的數(shù)據(jù)
Y = df['price']

# 2.導(dǎo)入所需要的庫
from sklearn.model_selection import train_test_split # 拆分?jǐn)?shù)據(jù)集
from sklearn.ensemble import GradientBoostingRegressor # 梯度提升回歸算法類GBR
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score # 評估函數(shù)

# 3.拆分?jǐn)?shù)據(jù)集
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.3, random_state=666)

# 4.建立模型:
# n_estimators:評估指標(biāo)
gbdt = GradientBoostingRegressor(n_estimators=80)

# 5.訓(xùn)練模型
gbdt.fit(X_train, Y_train)

# 6.預(yù)測
pred = gbdt.predict(X_test)

# 7.評估
print('MSE',mean_squared_error(Y_test,pred))
print('MAE',mean_absolute_error(Y_test,pred))
print('RMSE',np.sqrt(mean_squared_error(Y_test,pred)))
print('R2',r2_score(Y_test,pred))

到了這里,關(guān)于1.Python數(shù)據(jù)分析項目——二手車價格預(yù)測的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • python筆記16_實(shí)例練習(xí)_二手車折舊分析p1

    python筆記16_實(shí)例練習(xí)_二手車折舊分析p1

    python數(shù)據(jù)分析練習(xí),具體數(shù)據(jù)不放出。 分析實(shí)踐很簡單。目的不是做完,而是講清楚每一步的目的和連帶的知識點(diǎn)(所以才叫學(xué)習(xí)筆記) 原始數(shù)據(jù)格式:csv文件 原始數(shù)據(jù)結(jié)構(gòu): 數(shù)據(jù)格式 字段名 int(無用信息) 無 String che300_brand_name float new_price String maker_type float lowest_pric

    2024年02月07日
    瀏覽(24)
  • Python【二手車價格預(yù)測案例】數(shù)據(jù)挖掘

    Python【二手車價格預(yù)測案例】數(shù)據(jù)挖掘

    隨著代步工具的普及,“買賣車”需求激增。但對于部分預(yù)算有限的個體或家庭而言,購置一輛二手車更為明智。二手車的巨大供給需求催生了近年來日益壯大的二手車市場,但二手車的售賣面臨著價格漂浮的問題。 因此,我們的目標(biāo)是根據(jù)賣家或買家提供的參數(shù)信息計算價

    2023年04月09日
    瀏覽(99)
  • 【Python實(shí)戰(zhàn)】Python采集二手車數(shù)據(jù)——超詳細(xì)講解

    【Python實(shí)戰(zhàn)】Python采集二手車數(shù)據(jù)——超詳細(xì)講解

    今天,我們將采集某二手車數(shù)據(jù),通過這個案例,加深我們對xpath的理解。通過爬取數(shù)據(jù)后數(shù)據(jù)分析能夠直觀的看到二手車市場中某一品牌的相對數(shù)據(jù),能夠了解到現(xiàn)在的二手車市場情況,通過分析數(shù)據(jù)看到二手車的走勢,車商就可以利用這些數(shù)據(jù)進(jìn)行定價,讓想買二手車卻

    2024年02月01日
    瀏覽(20)
  • Python二手車價格預(yù)測(二)—— 模型訓(xùn)練及可視化

    Python二手車價格預(yù)測(二)—— 模型訓(xùn)練及可視化

    一、Python數(shù)據(jù)分析-二手車數(shù)據(jù)獲取用于機(jī)器學(xué)習(xí)二手車價格預(yù)測 二、Python二手車價格預(yù)測(一)—— 數(shù)據(jù)處理 ? ? ? ? 前面分享了二手車數(shù)據(jù)獲取的內(nèi)容,又對獲取的原始數(shù)據(jù)進(jìn)行了數(shù)據(jù)處理,相關(guān)博文可以訪問上面鏈接。許多朋友私信我問會不會出模型,今天模型basel

    2024年02月05日
    瀏覽(21)
  • 零基礎(chǔ)入門數(shù)據(jù)挖掘——二手車交易價格預(yù)測:baseline

    零基礎(chǔ)入門數(shù)據(jù)挖掘——二手車交易價格預(yù)測:baseline

    比賽要求參賽選手根據(jù)給定的數(shù)據(jù)集,建立模型,二手汽車的交易價格。 賽題以預(yù)測二手車的交易價格為任務(wù),數(shù)據(jù)集報名后可見并可下載,該數(shù)據(jù)來自某交易平臺的二手車交易記錄,總數(shù)據(jù)量超過40w,包含31列變量信息,其中15列為匿名變量。為了保證比賽的公平性,將會

    2024年02月03日
    瀏覽(82)
  • 【Python爬蟲實(shí)戰(zhàn)】汽車城最好的十款車,第一名竟是這款車...Python教你一鍵采集二手車數(shù)據(jù)信息實(shí)現(xiàn)數(shù)據(jù)可視化展示哦~(附視頻教程)

    【Python爬蟲實(shí)戰(zhàn)】汽車城最好的十款車,第一名竟是這款車...Python教你一鍵采集二手車數(shù)據(jù)信息實(shí)現(xiàn)數(shù)據(jù)可視化展示哦~(附視頻教程)

    駕考不易,天天早起去練車,無論烈日還是下雨,通通都在室外進(jìn)行,但想要拿證,一定要堅 持不懈的去練車。 粉絲白嫖源碼福利,請移步至CSDN社區(qū)或文末公眾hao即可免費(fèi)。 小編就是在一復(fù)一日的練習(xí)中,終于得到了我人生中以為不可能考證之駕照到手了! 這不?駕照到

    2024年02月02日
    瀏覽(29)
  • 【機(jī)器學(xué)習(xí)入門與實(shí)踐】數(shù)據(jù)挖掘-二手車價格交易預(yù)測(含EDA探索、特征工程、特征優(yōu)化、模型融合等)

    【機(jī)器學(xué)習(xí)入門與實(shí)踐】數(shù)據(jù)挖掘-二手車價格交易預(yù)測(含EDA探索、特征工程、特征優(yōu)化、模型融合等)

    【機(jī)器學(xué)習(xí)入門與實(shí)踐】數(shù)據(jù)挖掘-二手車價格交易預(yù)測(含EDA探索、特征工程、特征優(yōu)化、模型融合等) note:項目鏈接以及碼源見文末 了解賽題 賽題概況 數(shù)據(jù)概況 預(yù)測指標(biāo) 分析賽題 數(shù)據(jù)讀取pandas 分類指標(biāo)評價計算示例 回歸指標(biāo)評價計算示例 EDA探索 載入各種數(shù)據(jù)科學(xué)以

    2023年04月13日
    瀏覽(1661)
  • 天池長期賽:二手車價格預(yù)測(422方案分享)

    天池長期賽:二手車價格預(yù)測(422方案分享)

    前言 一、賽題介紹及評測標(biāo)準(zhǔn) 二、數(shù)據(jù)探索(EDA) 1.讀取數(shù)據(jù)、缺失值可視化 2.特征描述性統(tǒng)計 3.測試集與驗(yàn)證集數(shù)據(jù)分布 4.特征相關(guān)性 三、數(shù)據(jù)清洗 四、特征工程 1.構(gòu)建時間特征 2.匿名特征交叉 3.平均數(shù)編碼 五、建模調(diào)參 六、模型融合 總結(jié) 賽題屬于回歸類型,相比于

    2024年02月01日
    瀏覽(17)
  • Spring Boot后端+Vue前端:打造高效二手車交易系統(tǒng)

    Spring Boot后端+Vue前端:打造高效二手車交易系統(tǒng)

    作者介紹: ??大廠全棧碼農(nóng)|畢設(shè)實(shí)戰(zhàn)開發(fā),專注于大學(xué)生項目實(shí)戰(zhàn)開發(fā)、講解和畢業(yè)答疑輔導(dǎo)。 ?? 獲取源碼聯(lián)系方式請查看文末 ?? ?推薦訂閱精彩專欄 ???? 避免錯過下次更新 Springboot項目精選實(shí)戰(zhàn)案例 更多項目: CSDN主頁YAML墨韻 學(xué)如逆水行舟,不進(jìn)則退。學(xué)習(xí)如趕

    2024年04月28日
    瀏覽(23)
  • Java實(shí)現(xiàn)二手車交易系統(tǒng) JAVA+Vue+SpringBoot+MySQL

    Java實(shí)現(xiàn)二手車交易系統(tǒng) JAVA+Vue+SpringBoot+MySQL

    基于JAVA+Vue+SpringBoot+MySQL的二手車交易系統(tǒng),分為管理后臺和用戶網(wǎng)頁,包含了二手車檔案、預(yù)約訂單模塊、預(yù)訂單模塊、留言板模塊和車輛資訊模塊,還包含系統(tǒng)自帶的用戶管理、部門管理、角色管理、菜單管理、日志管理、數(shù)據(jù)字典管理、文件管理、圖表展示等基礎(chǔ)模塊,

    2024年02月22日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包