国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

動手學(xué)深度學(xué)習(xí)——數(shù)據(jù)預(yù)處理

這篇具有很好參考價值的文章主要介紹了動手學(xué)深度學(xué)習(xí)——數(shù)據(jù)預(yù)處理。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。


為了能用深度學(xué)習(xí)來解決現(xiàn)實世界的問題,我們經(jīng)常從預(yù)處理原始數(shù)據(jù)開始,而不是從那些準(zhǔn)備好的張量格式數(shù)據(jù)開始。
在Python中常用的數(shù)據(jù)分析工具中,我們通常使用 pandas軟件包。像龐大的Python生態(tài)系統(tǒng)中的許多其他擴展包一樣, pandas可以與張量兼容。

1、讀取數(shù)據(jù)集

舉一個例子,我們首先(創(chuàng)建一個人工數(shù)據(jù)集,并存儲在CSV(逗號分隔值)文件)中。以其他格式存儲的數(shù)據(jù)也可以通過類似的方式進(jìn)行處理。

import os

os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一個數(shù)據(jù)樣本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

要[從創(chuàng)建的CSV文件中加載原始數(shù)據(jù)集],我們導(dǎo)入pandas包并調(diào)用read_csv函數(shù)。該數(shù)據(jù)集有四行三列。其中每行描述了房間數(shù)量(“NumRooms”)、巷子類型(“Alley”)和房屋價格(“Price”)。

# 如果沒有安裝pandas,只需取消對以下行的注釋來安裝pandas
# !pip install pandas
import pandas as pd

data = pd.read_csv(data_file)
print(data)

2、處理缺失值

注意,“NaN”項代表缺失值。
[為了處理缺失的數(shù)據(jù),典型的方法包括插值法刪除法,]
其中插值法用一個替代值彌補缺失值,而刪除法則直接忽略缺失值。
在(這里,我們將考慮插值法)。

通過位置索引iloc,我們將data分成inputsoutputs,
其中前者為data的前兩列,而后者為data的最后一列。
對于inputs中缺少的數(shù)值,我們用同一列的均值替換“NaN”項。

inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())
print(inputs)

[對于inputs中的類別值或離散值,我們將“NaN”視為一個類別。]
由于“巷子類型”(“Alley”)列只接受兩種類型的類別值“Pave”和“NaN”,
pandas可以自動將此列轉(zhuǎn)換為兩列“Alley_Pave”和“Alley_nan”。
巷子類型為“Pave”的行會將“Alley_Pave”的值設(shè)置為1,“Alley_nan”的值設(shè)置為0。
缺少巷子類型的行會將“Alley_Pave”和“Alley_nan”分別設(shè)置為0和1。

inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

3、轉(zhuǎn)換為張量格式

[現(xiàn)在inputsoutputs中的所有條目都是數(shù)值類型,它們可以轉(zhuǎn)換為張量格式。]
當(dāng)數(shù)據(jù)采用張量格式后,可以通過在 :numref:sec_ndarray中引入的那些張量函數(shù)來進(jìn)一步操作。文章來源地址http://www.zghlxwxcb.cn/news/detail-599731.html

import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print(X)
print(y)

到了這里,關(guān)于動手學(xué)深度學(xué)習(xí)——數(shù)據(jù)預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 深度學(xué)習(xí)中用來訓(xùn)練的train.py 探究學(xué)習(xí)2.1( 數(shù)據(jù)預(yù)處理)

    下列為mmcls中數(shù)據(jù)預(yù)處理部分? train_pipeline是一個訓(xùn)練過程的配置列表,用于定義數(shù)據(jù)預(yù)處理的步驟。下面是train_pipeline中各個步驟的介紹: 1. LoadImageFromFile:從文件中加載圖像。 2. RandomResizedCrop:隨機縮放裁剪圖像到指定大小。 3. RandomFlip:以一定的概率隨機水平翻轉(zhuǎn)圖像。

    2024年02月04日
    瀏覽(20)
  • <2>【深度學(xué)習(xí) × PyTorch】pandas | 數(shù)據(jù)預(yù)處理 | 處理缺失值:插值法 | networkx模塊繪制知識圖譜 | 線性代數(shù)初步

    ? 你永遠(yuǎn)不可能真正的去了解一個人,除非你穿過ta的鞋子,走過ta走過的路,站在ta的角度思考問題,可當(dāng)你真正走過ta走過的路時,你連路過都會覺得難過。有時候你所看到的,并非事實真相,你了解的,不過是浮在水面上的冰山一角?!稓⑺酪恢恢B》 ? ??

    2024年02月01日
    瀏覽(32)
  • (9-3)基于深度強化學(xué)習(xí)的量化交易策略(OpenAI Baselines +FinRL+DRL+PyPortfolioOpt):數(shù)據(jù)預(yù)處理

    1.1.6 ?數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理是訓(xùn)練高質(zhì)量機器學(xué)習(xí)模型的關(guān)鍵步驟,在這一步需要檢查缺失數(shù)據(jù)并進(jìn)行特征工程,以將數(shù)據(jù)轉(zhuǎn)換為適合模型訓(xùn)練的狀態(tài)。本項目的數(shù)據(jù)預(yù)處理江灣城以下工作: 添加技術(shù)指標(biāo):在實際交易中,需要考慮各種信息,例如歷史股價、當(dāng)前持倉股票

    2024年01月25日
    瀏覽(28)
  • 人工智能:數(shù)據(jù)分析之?dāng)?shù)據(jù)預(yù)處理、分析模型與可視化

    在人工智能和數(shù)據(jù)科學(xué)領(lǐng)域,數(shù)據(jù)分析是一種核心過程,它幫助我們從大量的數(shù)據(jù)中提取有價值的信息。數(shù)據(jù)分析的質(zhì)量和結(jié)果直接影響到?jīng)Q策的效率和準(zhǔn)確性。在這篇博客中,我們將詳細(xì)探討數(shù)據(jù)分析的關(guān)鍵步驟,包括數(shù)據(jù)預(yù)處理、分析模型和可視化,并通過實際應(yīng)用案例

    2024年03月10日
    瀏覽(98)
  • AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)有哪些?

    AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)有哪些?

    在人工智能(Artificial Intelligence,簡稱AI)領(lǐng)域中,數(shù)據(jù)預(yù)處理是非常重要的一環(huán)。它是在將數(shù)據(jù)輸入到模型之前對數(shù)據(jù)進(jìn)行處理和清洗的過程。數(shù)據(jù)預(yù)處理可以提高模型的準(zhǔn)確性、可靠性和可解釋性。 本文將詳細(xì)介紹AI人工智能預(yù)處理數(shù)據(jù)的方法和技術(shù)。 數(shù)據(jù)清洗是數(shù)據(jù)預(yù)

    2024年02月14日
    瀏覽(93)
  • 深度學(xué)習(xí)中基于python的預(yù)處理和圖像擴增方法

    容易出現(xiàn)的報錯: 錯誤原因通常為保存的路徑不正確: 應(yīng)改為: 即第一個參數(shù)應(yīng)該寫到文件的名稱,而不能只寫到文件夾就停止。 灰度圖片和黑白圖片有些相似,但并不完全相同。 灰度圖片是指每個像素點的顏色由灰度值來表示,通常使用8位無符號整數(shù)(0-255)表示?;?/p>

    2024年02月08日
    瀏覽(32)
  • 大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    大數(shù)據(jù)采集技術(shù)與預(yù)處理學(xué)習(xí)一:大數(shù)據(jù)概念、數(shù)據(jù)預(yù)處理、網(wǎng)絡(luò)數(shù)據(jù)采集

    目錄 大數(shù)據(jù)概念: 1.數(shù)據(jù)采集過程中會采集哪些類型的數(shù)據(jù)? 2.非結(jié)構(gòu)化數(shù)據(jù)采集的特點是什么? 3.請闡述傳統(tǒng)的數(shù)據(jù)采集與大數(shù)據(jù)采集的區(qū)別? ???????????????4.大數(shù)據(jù)采集的數(shù)據(jù)源有哪些?針對不同的數(shù)據(jù)源,我們可以采用哪些不同的方法和工具? 數(shù)據(jù)

    2024年01月25日
    瀏覽(29)
  • 機器學(xué)習(xí)(8)---數(shù)據(jù)預(yù)處理

    機器學(xué)習(xí)(8)---數(shù)據(jù)預(yù)處理

    ?1. 在機器學(xué)習(xí)算法實踐中,我們往往有著將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格,或不同分布的數(shù)據(jù)轉(zhuǎn)換到某個特定分布的需求,這種需求統(tǒng)稱為將數(shù)據(jù)“無量綱化”。 譬如梯度和矩陣為核心的算法中,譬如邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡(luò),無量綱化可以加快求解速度. 而在

    2024年02月09日
    瀏覽(30)
  • 機器學(xué)習(xí)實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    機器學(xué)習(xí)實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    導(dǎo)庫 歸一化 另一種寫法 將歸一化的結(jié)果逆轉(zhuǎn) 用numpy實現(xiàn)歸一化 逆轉(zhuǎn) 導(dǎo)庫 實例化 查看屬性 查看結(jié)果 逆標(biāo)準(zhǔn)化 關(guān)于如何選擇這兩種無量綱化的方式要具體問題具體分析,但是我們一般在機器學(xué)習(xí)算法中選擇標(biāo)準(zhǔn)化,這就好比我們能讓他符合標(biāo)準(zhǔn)正態(tài)分布為什么不呢?而且

    2024年02月13日
    瀏覽(26)
  • 【機器學(xué)習(xí)6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標(biāo)稱數(shù)據(jù))

    【機器學(xué)習(xí)6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標(biāo)稱數(shù)據(jù))

    在【機器學(xué)習(xí)4】構(gòu)建良好的訓(xùn)練數(shù)據(jù)集——數(shù)據(jù)預(yù)處理(一)處理缺失值及異常值這一篇文章中,主要說明熱數(shù)據(jù)預(yù)處理的重要性以及如何處理缺失值及異常值這些數(shù)值特征。然而,在現(xiàn)實生活中遇到的數(shù)據(jù)集往往不僅僅只會包含 數(shù)值型特征 ,還會包含一個或者多個 類別特征

    2024年02月12日
    瀏覽(27)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包