国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理

這篇具有很好參考價(jià)值的文章主要介紹了數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

?? 文章首發(fā)于我的個(gè)人博客:歡迎大佬們來逛逛

數(shù)據(jù)預(yù)處理

數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理,數(shù)學(xué)建模,MATLAB,數(shù)學(xué)建模

數(shù)據(jù)變換

常見的數(shù)據(jù)變換的方式:通過某些簡單的函數(shù)進(jìn)行數(shù)據(jù)變換。

x ′ = x 2 x ′ = x x ′ = log ? ( x ) ? f ( x k ) = f ( x k + 1 ) ? f ( x k ) \begin{aligned}&x^{\prime}=x^2 \\&\begin{aligned}x^{\prime}=\sqrt{x}\end{aligned} \\&x'=\log(x) \\\nabla f\left(x_{k})\right.&=f(x_{k+1})-f(x_k) \end{aligned} ?f(xk?)?x=x2x=x ??x=log(x)=f(xk+1?)?f(xk?)?

  • 數(shù)據(jù)指標(biāo)的一致化處理:
    • 極小型
    • 極大型
    • 中間型
    • 區(qū)間型
  • 數(shù)據(jù)指標(biāo)的無量綱化處理:
    • 零 - 均值規(guī)范化:也叫做標(biāo)準(zhǔn)差規(guī)范化,經(jīng)過處理后的數(shù)據(jù)平均值為 0,標(biāo)準(zhǔn)差為1。 x  ̄ \overline x x 為原數(shù)據(jù)的均值, σ \sigma σ 為標(biāo)準(zhǔn)差。

      x ? = x ? x  ̄ σ x^*=\frac{x-\overline{x}}\sigma x?=σx?x?

    • 極值差法:又叫最小 - 最大規(guī)范化,離差標(biāo)準(zhǔn)化,將數(shù)據(jù)映射到 [ 0 , 1 ] [0,1] [0,1] 之間。

      x ? = x ? m i n m a x ? m i n x^*=\frac{x-min}{max-min} x?=max?minx?min?

    • 功效系數(shù)法:就是上一步極值差法然后加了一個(gè)偏移量 c c c ,使得最后結(jié)果落于 [ c , c + n ] [c,c+n] [c,c+n]

數(shù)據(jù)變換的應(yīng)用方式:數(shù)據(jù)的標(biāo)準(zhǔn)化,目的是為了消除指標(biāo)之間的量綱和大小不一的影響,需要進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化處理。

因此可以將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)據(jù)標(biāo)準(zhǔn)化處理,將數(shù)據(jù)按照比例進(jìn)行縮放,使之落入一個(gè)特定的區(qū)域,從而進(jìn)行綜合分析。如將工資收入屬性值映射到[-1,1]或者[0,1]之間。

function data1=mfunc_calculate(data,zhibiao_label)
    % 指標(biāo)的正向化處理 1 2 極大型;3 4 5 極小型;6 單點(diǎn)最優(yōu);7 區(qū)間最優(yōu)
    if isa(data,'double')
        for i=1:length(zhibiao_label)
            if (zhibiao_label(i)==1)
                data1(:,i)=zheng1(data(:,i));
            elseif (zhibiao_label(i)==2)
                data1(:,i)=zheng2(data(:,i));
        elseif (zhibiao_label(i)==3)
                data1(:,i)=fu3(data(:,i));
        elseif (zhibiao_label(i)==4)
                data1(:,i)=fu4(data(:,i));
       elseif (zhibiao_label(i)==5)
                data1(:,i)=fu5(data(:,i));
      elseif (zhibiao_label(i)==6)
          prompt = '這是單點(diǎn)最優(yōu),請輸入單點(diǎn)最優(yōu)值 ';
           a = input(prompt);
               data1(:,i)=qu6(data(:,i),a);
      elseif (zhibiao_label(i)==7)
         prompt = '這是區(qū)間最優(yōu),請輸入單點(diǎn)最區(qū)間如[5,10] ';
          aa=input(prompt);
               data1(:,i)=qu7(data(:,i),aa(1),aa(2));
        end
        end
    elseif isa(data,'cell')
    %     data2=data;
        for j=1:length(data)
            data2=data{j};
            if size(zhibiao_label,1)==1
                zhibiao_label1=repmat(zhibiao_label,3,1);
            else
                zhibiao_label1=zhibiao_label;
           end
            for i=1:length(zhibiao_label1(j,:))
                   if (zhibiao_label(i)==1)
                data1{j}(:,i)=zheng1(data2(:,i));
            elseif (zhibiao_label(i)==2)
                data1{j}(:,i)=zheng2(data2(:,i));
           elseif (zhibiao_label(i)==3)
                data1{j}(:,i)=fu3(data2(:,i));
           elseif (zhibiao_label(i)==4)
                data1{j}(:,i)=fu4(data2(:,i));
          elseif (zhibiao_label(i)==5)
                data1{j}(:,i)=fu5(data2(:,i));
         elseif (zhibiao_label(i)==6)
          prompt = '這是單點(diǎn)最優(yōu),請輸入單點(diǎn)最優(yōu)值 ';
           a = input(prompt);
               data1{j}(:,i)=qu6(data2(:,i),a);
        elseif (zhibiao_label(i)==7)
         prompt = '這是區(qū)間最優(yōu),請輸入單點(diǎn)最區(qū)間如[5,10] ';
          aa=input(prompt);
               data1{j}(:,i)=qu7(data2(:,i),aa(1),aa(2));
        end
            end
        end
    end
    end
    function data=zheng1(data1)
    %正向指標(biāo)1
    % 填1的時(shí)候選擇
    data=(data1-min(data1))./(max(data1)-min(data1));
    end
    function data=zheng2(data1)
    %正向指標(biāo)2
    % 填2的時(shí)候選擇
    data=data1;
    end
    function data=fu3(data1)
    %負(fù)向指標(biāo)1
    % 填3的時(shí)候選擇
    data=(max(data1)-data1)./(max(data1)-min(data1));
    end
    function data=fu4(data1)
    %負(fù)向指標(biāo)2
    % 填4的時(shí)候選擇
    data=(max(data1)-data1);
    end
    function data=fu5(data1)
    %負(fù)向指標(biāo)3
    % 填5的時(shí)候選擇
    data=1./(max(abs(data1))+data1);
    end
    function data=qu6(data1,a)
    %某點(diǎn)最優(yōu)
    % 填6的時(shí)候選擇
    data=1./(abs(data1-a)/max(abs(data1-a)));
    end
    function data=qu7(data1,a,b)
    %區(qū)間指標(biāo)1
    % 填7的時(shí)候選擇
    for i=1:length(data1)
        if(data1(i)>a)&&(data1(i)<b)
            data(i)=1;
        elseif (data1(i)<a)
            data(i)=data1(i)/a;
        elseif (data1(i)>b)
            data(i)=b/data1(i);
        end
    end
end

數(shù)據(jù)清洗

缺失值處理

對于缺失值的三種處理方法:不處理,刪除數(shù)據(jù),數(shù)據(jù)插補(bǔ)

數(shù)據(jù)插補(bǔ)的方法:

  • 均值/中位數(shù)/眾數(shù)插補(bǔ)
  • 使用固定值插補(bǔ)
  • 最近鄰插補(bǔ):即在記錄中找到與缺失樣本最接近的樣本的該屬性插補(bǔ),可以通過計(jì)算對象間的歐式距離衡量。
  • 回歸方法插補(bǔ):根據(jù)已有數(shù)據(jù)和與其有關(guān)的其他變量的數(shù)據(jù)建立擬合模型來預(yù)測缺失值
  • 插值法插補(bǔ)(推薦):常用的插值法有很多,主要有拉格朗日插值法、牛頓插值法。

對于缺失值處理,我們需要分情況討論。

如果某個(gè)變量或某個(gè)樣本缺失了 70%以上的數(shù)據(jù),那么此時(shí)對數(shù)據(jù)進(jìn)行填補(bǔ)的話,會引入更多的噪聲,反而會降低模型的性能,故此時(shí)一般直接將該變量或樣本刪除;

如果缺失的不多,我們可以考慮對缺失值進(jìn)行填補(bǔ)


matlab API:

  • ismissing 或者 isnan :返回一個(gè)與輸入矩陣同形狀的01矩陣,1表示此位置是缺失值
  • rmmissing:直接刪除缺失值所在的行列,第二個(gè)參數(shù) 1 表示行,2表示列。
  • fillmissing:填補(bǔ)缺失值。
    • 常數(shù)填充:constant

      • 插值法,常見的插值方法如下:

      數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理,數(shù)學(xué)建模,MATLAB,數(shù)學(xué)建模

    • 移動窗口填充法:該方法的思想是在缺失值前后開一個(gè)“窗口”,用“窗口”內(nèi) 的數(shù)據(jù)的均值中位數(shù)進(jìn)行填充。

代碼實(shí)現(xiàn):文章來源地址http://www.zghlxwxcb.cn/news/detail-681482.html

clc;clear;
% 數(shù)據(jù)的預(yù)處理
load("帶缺少數(shù)據(jù).mat");

data = data_nan;
%% 缺失值處理
% 判斷矩陣中是否存在nan值,返回一個(gè)同形狀的0-1矩陣,1表示此位置是nan
nan_mat = isnan(data);
%% 直接刪除空值所在的行:1
data1 = rmmissing(data); %默認(rèn)為1行
%% 直接刪除空值所在的列:2
data2 = rmmissing(data,2);

%% 填充缺失值,插值 
%  1. 常量填充缺失值
data3 = fillmissing(data,"constant",999);
%% 2. 上一個(gè)或者下一個(gè)非空值 
data4 = fillmissing(data,'previous'); % next 表示以下一個(gè)非空值填充
%% 3. 最鄰近的非空值
data5 = fillmissing(data,'nearest');
%% 4. 三次樣條插值 
data6 = fillmissing(data,'spline'); % phcip 保持三次樣條插值
%% 5. 窗口填補(bǔ)法 
data7 = fillmissing(data,'movmean',8,1); % movean 窗口長度為 window 的移動均值;  movmedian:移動中位數(shù)

異常值處理

  • 正態(tài)分布3σ原則:總體符合正態(tài)分布,例如人口數(shù)據(jù)、測量誤差、生產(chǎn)加工質(zhì)量、考試成績等。
    • 計(jì)算均值 μ 和標(biāo)準(zhǔn)差 σ 。
    • 判斷每個(gè)數(shù)據(jù)值是否在(μ-3σ,μ+3σ) 內(nèi),不在則為異常值.
    • 異常值可以轉(zhuǎn)換為 nan 值,然后再進(jìn)行上一步的缺失值處理
  • 畫箱線圖:下四分位數(shù)Q1是排第25%的數(shù)值,上四分位數(shù)Q3是排第75%的數(shù)值。四分位距IQR= Q3-Q1,也就是排名第75%的減去第25%的數(shù)值正態(tài)分布類似,設(shè)置個(gè)合理區(qū)間,在區(qū)間外的就是異常值。一般設(shè)[Q1?1.5IQR, Q3+1.5IQR]內(nèi)為正常值。

到了這里,關(guān)于數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理

    數(shù)學(xué)建模:數(shù)據(jù)的預(yù)處理

    ?? 文章首發(fā)于我的個(gè)人博客:歡迎大佬們來逛逛 常見的數(shù)據(jù)變換的方式:通過某些簡單的函數(shù)進(jìn)行數(shù)據(jù)變換。 x ′ = x 2 x ′ = x x ′ = log ? ( x ) ? f ( x k ) = f ( x k + 1 ) ? f ( x k ) begin{aligned}x^{prime}=x^2 \\\\begin{aligned}x^{prime}=sqrt{x}end{aligned} \\\\x\\\'=log(x) \\\\nabla fleft(x_{k})right.=f

    2024年02月11日
    瀏覽(16)
  • 數(shù)據(jù)預(yù)處理方法整理(數(shù)學(xué)建模)

    數(shù)據(jù)預(yù)處理方法整理(數(shù)學(xué)建模)

    這篇文章主要是整理了一些作者在各種建模比賽中遇到的數(shù)據(jù)預(yù)處理問題以及方法,主要針對excel或csv格式的數(shù)據(jù),為后續(xù)進(jìn)行機(jī)器學(xué)習(xí)或深度學(xué)習(xí)做前期準(zhǔn)備 導(dǎo)入庫和文件,這里使用的是絕對路徑,可改為相對路徑 傳入的為csv格式的文件,如果是xlsx格式的文件,建議先使

    2024年02月14日
    瀏覽(20)
  • 2023高教社數(shù)學(xué)建模國賽C題 - 蔬菜類商品的自動定價(jià)與補(bǔ)貨決策(數(shù)據(jù)預(yù)處理部分)附詳細(xì)代碼

    2023高教社數(shù)學(xué)建模國賽C題 - 蔬菜類商品的自動定價(jià)與補(bǔ)貨決策(數(shù)據(jù)預(yù)處理部分)附詳細(xì)代碼

    C題用到了vlookup函數(shù)將所有數(shù)據(jù)同類項(xiàng)進(jìn)行合并,公式如下: 單品類:=VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,2,FALSE) 大類:?=VLOOKUP(C2,[附件1.xlsx]Sheet1!A$2:D$252,4,FALSE) 批發(fā)價(jià)格:?=VLOOKUP(C2,[附件3.xlsx]Sheet1!B$2:C$55983,2,FALSE) 單品損耗率:?=VLOOKUP(H2,[附件4.xlsx]Sheet1!B$2:CS252,2,FALSE) 價(jià)格=單位成本

    2024年02月08日
    瀏覽(26)
  • 數(shù)據(jù)預(yù)處理matlab matlab數(shù)據(jù)的獲取、預(yù)處理、統(tǒng)計(jì)、可視化、降維

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月15日
    瀏覽(55)
  • 數(shù)據(jù)預(yù)處理matlab

    1.1 從Excel中獲取 使用readtable() 例1: 使用 spreadsheetImportOptions(Name,Value) 初步確定導(dǎo)入信息, 再用 opts.Name=Value 的格式添加。 例2: 先初始化 spreadsheetImportOptions 對象, 再用 opts.Name=Value 的格式逐個(gè)添加。 例3: 將導(dǎo)入信息存到變量里, 再使用 spreadsheetImportOptions(Name,Value)

    2024年02月07日
    瀏覽(26)
  • 數(shù)據(jù)預(yù)處理 matlab & 數(shù)據(jù)質(zhì)量評估

    知乎 數(shù)據(jù)類型轉(zhuǎn)換等 Mathworks 數(shù)據(jù)預(yù)處理 概念辨析 配對是 同一批樣本的前后 比較,獨(dú)立是 兩批不同樣本 的的比較 獨(dú)立樣本是指我們得到的樣本是相互獨(dú)立的。配對樣本就是一個(gè)樣本中的數(shù)據(jù)與另一個(gè)樣本中的數(shù)據(jù)相對應(yīng)的兩個(gè)樣本。配對樣本可以消除由于樣本指定的不公

    2024年01月20日
    瀏覽(30)
  • 基于MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算

    基于MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算

    在新一輪互聯(lián)網(wǎng)信息技術(shù)大發(fā)展的現(xiàn)今,無人機(jī)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新興技術(shù)在各行各業(yè)都處于大爆發(fā)的前夜。為了將人工智能方法引入農(nóng)業(yè)生產(chǎn)領(lǐng)域。首先在種植、養(yǎng)護(hù)等生產(chǎn)作業(yè)環(huán)節(jié),逐步擺脫人力依賴;在施肥灌溉環(huán)節(jié)構(gòu)建智慧節(jié)能系統(tǒng);在產(chǎn)量預(yù)測和商品

    2024年02月11日
    瀏覽(22)
  • MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算實(shí)踐

    MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算實(shí)踐

    ? 在新一輪互聯(lián)網(wǎng)信息技術(shù)大發(fā)展的現(xiàn)今,無人機(jī)、大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)等新興技術(shù)在各行各業(yè)都處于大爆發(fā)的前夜。為了將人工智能方法引入農(nóng)業(yè)生產(chǎn)領(lǐng)域。首先在種植、養(yǎng)護(hù)等生產(chǎn)作業(yè)環(huán)節(jié),逐步擺脫人力依賴;在施肥灌溉環(huán)節(jié)構(gòu)建智慧節(jié)能系統(tǒng);在產(chǎn)量預(yù)測和商

    2024年02月03日
    瀏覽(31)
  • 基于MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算教程

    基于MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算教程

    詳情點(diǎn)擊鏈接:基于MATLAB的無人機(jī)遙感數(shù)據(jù)預(yù)處理與農(nóng)林植被性狀估算 前言 遙感技術(shù)作為一種空間大數(shù)據(jù)手段,能夠從多時(shí)、多維、多地等角度,獲取大量的農(nóng)情數(shù)據(jù)。數(shù)據(jù)具有面狀、實(shí)時(shí)、非接觸、無傷檢測等顯著優(yōu)勢,是智慧農(nóng)業(yè)必須采用的重要技術(shù)之一。 ? 第一:

    2024年02月16日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包