国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<delect id="cw8p8"></delect>

【python】數(shù)據(jù)預處理：分位數(shù)歸一化 Quantile Normalization + INSCODE AI創(chuàng)作助手測試

2年前作者：青燈照顰微分類：Toy博客閱讀(27)違法舉報

這篇具有很好參考價值的文章主要介紹了【python】數(shù)據(jù)預處理：分位數(shù)歸一化 Quantile Normalization + INSCODE AI創(chuàng)作助手測試。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

寫在前面

這里主要了解一下分位數(shù)歸一化（Quantile Normalization, QN）。如無特殊說明時，本文中的QN作為分位數(shù)歸一化的縮寫。

Quantile Normalization 直接翻譯是分位數(shù)歸一化，但也有翻譯為分位數(shù)標準化。筆者理解是按直譯叫分位數(shù)歸一化，但是按數(shù)據(jù)的處理方式，應(yīng)該叫分位數(shù)標準化，按英文的話就一種：Quantile Normalization。之所以有標準化和歸一化兩種說法，是因為它們是兩種不同的處理方式。

本文暫統(tǒng)一名稱叫分位數(shù)歸一化(QN)。

Quantile Normalization 定義來自如下文獻:
分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

標準化/歸一化

標準化（standardization）、歸一化（normalization）兩者總是被混著叫，實際是在做什么處理呢？

先看下Python庫中的關(guān)于預處理的一些包：
分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI
其中包括了：scaling(縮放), centering(中心化), normalization(歸一化), binarization(二值化)。

對于標準化和歸一化對應(yīng)的常用的模塊：

標準化 standardization：py模塊 StandardScaler 是常用的標準化數(shù)據(jù)處理，對應(yīng)z-score標準化公式： $z=\frac{x-\mu}{s}$ （其中， $\mu$ 是訓練樣本的均值， $s$ 是訓練樣本的標準差）。將原始數(shù)據(jù)轉(zhuǎn)換為均值為0，方差為1的新數(shù)據(jù)，也是把數(shù)據(jù)縮放(scaling)到特定區(qū)間上。該處理從公式計算上解讀為：當前數(shù)據(jù)比總體均值多了幾個標準差；從數(shù)據(jù)整體上解讀為：把原數(shù)據(jù)標準化縮放為服從標準正態(tài)分布的數(shù)據(jù)。
歸一化 normalization：py模塊 MinMaxScaler是比較常用的歸一化方法：min-max歸一化， $x^*=\frac{x_i? x_{min}}{x_{max} ? x_{min}}$ 。

z-score標準化示例

# sklear包中的zscore
from sklearn.preprocessing import StandardScaler
data = [[0, 0], [0, 0], [1, 1], [1, 1]]
scaler = StandardScaler()
print(scaler.fit(data))
scaler.fit_transform(data)

使用scipy包中的zscore，對dataframe數(shù)據(jù)直接進行zscore標準，好處是標準化后的index/columns還在，而使用sklear的標準化處理后，返回的是數(shù)組array。[chatGPT]：

import pandas as pd
from scipy.stats import zscore

# 創(chuàng)建訓練數(shù)據(jù)的示例DataFrame
train_data = {'A': [1, 2, 3, 4, 5],
              'B': [10, 20, 30, 40, 50],
              'C': [100, 200, 300, 400, 500]}
train_df = pd.DataFrame(train_data)

# 創(chuàng)建測試數(shù)據(jù)的示例DataFrame
test_data = {'A': [6, 7, 8, 9, 10],
             'B': [60, 70, 80, 90, 100],
             'C': [600, 700, 800, 900, 1000]}
test_df = pd.DataFrame(test_data)

# 對訓練數(shù)據(jù)進行Z-score標準化
train_df_standardized = train_df.apply(zscore)

# 使用訓練數(shù)據(jù)的均值和標準差對測試數(shù)據(jù)進行標準化（注意使用訓練數(shù)據(jù)的統(tǒng)計量）
test_df_standardized = (test_df - train_df.mean()) / train_df.std()

print("訓練數(shù)據(jù)標準化結(jié)果：")
print(train_df_standardized)
print("\n測試數(shù)據(jù)標準化結(jié)果：")
print(test_df_standardized)

python模塊qnorm實現(xiàn)分位數(shù)歸一化

仔細看Python的sklearn庫中（# 標準化/歸一化部分的截圖），會發(fā)現(xiàn)這里沒有分位數(shù)歸一化的包。是的，sklearn里沒有QN。需要先安裝qnorm（qnorm安裝包官網(wǎng)），安裝命令為：pip install qnorm。使用示例如下：

import pandas as pd
import qnorm

df = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 2},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})

print(qnorm.quantile_normalize(df, axis=1))

執(zhí)行后可得到：
分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

R代碼實現(xiàn)分位數(shù)歸一化

最初測試使用了R代碼，在“INSCODE AI創(chuàng)作助手”助手的默認實現(xiàn)方式中也使用了R。（做分位數(shù)歸一化處理可能用R的比較多）

代碼中使用到R包preprocessCore：

df <- data.frame(one=c(5,2,3,4),
                 two=c(4,1,4,2),
                 three=c(3,4,6,8)
)
rownames(df) <- c('f1', 'f2', 'f3', 'f4')

df

preprocessCore::normalize.quantiles(x=as.matrix(df))

執(zhí)行后得到：
分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

分位數(shù)歸一化 - NSCODE AI創(chuàng)作助手的回答

上面的代碼直接執(zhí)行就能得到相應(yīng)的數(shù)據(jù)，下面是通過“NSCODE AI創(chuàng)作助手”了解更多分位數(shù)歸一化相關(guān)的知識。

想了解一個概念最好的方式，就是通過提問并回答這個3W1H：Waht/Why/When/How … the “A”？

什么是分位數(shù)歸一化（What）

為什么要做分位數(shù)歸一化（Why）

什么時候做分位數(shù)歸一化（When）

怎么做分位數(shù)歸一化（How）

試試“INSCODE AI創(chuàng)作助手”給出的一些解答：

提問示例：

來自 InsCode AI創(chuàng)作助手 的回答：(結(jié)果還是挺出乎意料的）

Q1：Quantile Normalization是什么？

Quantile normalization是一種用于處理高通量基因表達數(shù)據(jù)的方法。它通過對所有樣本的數(shù)據(jù)進行排序，并將排序后的數(shù)據(jù)進行歸一化，從而消除任何來自各個樣本之間的數(shù)據(jù)不一致性的影響。基本思路是將每個樣本的數(shù)據(jù)值按照從小到大的順序進行排列，然后將排列后的數(shù)據(jù)值替換為對應(yīng)分位數(shù)（例如，對于一個樣本，將第10個最小值替換為第10個最小分位數(shù)）。這個過程使得每個樣本的數(shù)據(jù)分布相同，從而可以進行更好的比較和綜合分析。

Q2-1: 什么時候用Quantile normalization？

Quantile normalization是一種數(shù)據(jù)預處理方法，通常在基因表達數(shù)據(jù)中使用。當數(shù)據(jù)集中存在分布不均的情況時，使用Quantile normalization可以將數(shù)據(jù)集中的樣本在數(shù)值分布上進行對齊，以消除由于樣本差異而帶來的數(shù)據(jù)偏差。因此，當你想要在基因表達數(shù)據(jù)分析中對不同樣本的基因表達數(shù)據(jù)進行比較時，可能需要使用Quantile normalization來消除樣本之間的差異，以確保數(shù)據(jù)的準確性和可靠性。

Q2-2: 什么時候做Quantile normalization？

Quantile normalization通常在對基因表達數(shù)據(jù)進行比較分析時使用。具體地說，當你有多個實驗組（每組都包含多個樣本）且你想比較它們之間的基因表達水平時，通常會使用Quantile normalization進行數(shù)據(jù)標準化，以消除混雜因素（例如實驗批次，RNA提取和掃描閱讀器）對實驗結(jié)果的影響。這樣可以使得樣本之間的差異僅僅是由于生物學的差異，而不是技術(shù)方面的差異所引起的。因此，Quantile normalization 常被用于微陣列和RNA測序數(shù)據(jù)分析，以減少技術(shù)方面的差異對于樣本之間的比較所帶來的影響。

Q3：為什么要做Quantile Normalization？

Quantile normalization是一種數(shù)據(jù)標準化方法，它的目的是通過調(diào)整數(shù)據(jù)的排名順序來消除實驗中不同樣本之間的技術(shù)差異，使得數(shù)據(jù)能夠更好地比較和分析。
在高通量基因表達研究中，由于實驗過程、實驗條件等因素的不同，不同樣本之間的基因表達量數(shù)據(jù)往往存在一定的不一致性。如果直接進行差異分析或聚類分析等，可能會將這些技術(shù)差異誤認為是生物差異，導致分析結(jié)果出現(xiàn)偏差。因此，需要對數(shù)據(jù)進行標準化處理，消除這些技術(shù)差異。
Quantile normalization的做法是將不同樣本中基因表達量的排名順序進行統(tǒng)一，使得各個樣本的數(shù)據(jù)分布在相同的位置上。這樣可以消除技術(shù)差異，讓不同樣本之間成為可比較的數(shù)據(jù)，提高了分析結(jié)果的可信度和穩(wěn)定性。

Q3問題重新生成：（得到類似但不同的結(jié)果）
Quantile normalization是一種常用的數(shù)據(jù)標準化方法，主要應(yīng)用于高通量基因表達數(shù)據(jù)分析中。做Quantile normalization的目的是消除樣本之間的技術(shù)變異（如批次效應(yīng)、不同實驗處理等）與生物變異對基因表達量的影響，使得樣本間的基因表達值具有可比性。
Quantile normalization的具體步驟是將每個樣本的基因表達值按照從小到大的順序排列，然后將排名相同的基因表達值分配給相應(yīng)的樣本，從而使得每個基因在不同樣本中的表達值的分布均勻，且每個樣本的基因表達量分布保持不變。
通過Quantile normalization，我們可以快速、有效地比較不同樣本之間的基因表達量差異，從而有助于進一步發(fā)現(xiàn)基因調(diào)控機制、診斷疾病等方面的研究。

Q4-1: 如何做Quantile normalization？

Quantile normalization是一種數(shù)據(jù)標準化方法，用于將不同樣本之間的數(shù)據(jù)分布進行比較和統(tǒng)一。以下是基于R語言的實現(xiàn)方法：

導入需要進行標準化處理的數(shù)據(jù)集。

對數(shù)據(jù)集進行排序。

data_sorted <- apply(data, 2, sort)

計算每一行的分位數(shù)。

quantiles <- apply(data_sorted, 1, quantile, probs = seq(0, 1, length = nrow(data) + 1))

對數(shù)據(jù)集進行標準化。

data_norm <- apply(data, 2, function(x) {
  rank <- order(x)
  quantiles[rank]
})

對標準化后的數(shù)據(jù)進行檢查。

summary(apply(data_norm, 2, quantile, probs = seq(0, 1, length = nrow(data) + 1)))

以上就是Quantile Normalization的基本實現(xiàn)方法。

對Q4問題竟然直接給出代碼的示例還是有些驚喜的，代碼是直接實現(xiàn)的，我以為會直接調(diào)用歸一化處理的R包:preprocessCore，至于代碼準確性還有待測試。我還是希望用Python給出答案，就發(fā)出提問：

Q4-2: 如何用python做Quantile Normalization？

Quantile normalization是一種常見的數(shù)據(jù)預處理技術(shù)，用于將不同樣本或?qū)嶒灥臄?shù)據(jù)進行標準化，使得它們具有相同的分布。下面是一個用Python實現(xiàn)Quantile Normalization的示例代碼：

import numpy as np
from scipy.stats import rankdata

def quantile_normalize(data):
    # 對每一列數(shù)據(jù)進行排序
    sorted_data = np.sort(data, axis=0)

    # 計算每一行的分位數(shù)
    row_quantiles = np.mean(sorted_data, axis=1)

    # 對每一列數(shù)據(jù)進行排序，并將其映射到對應(yīng)的分位數(shù)
    rank_data = rankdata(data, axis=0)
    mapped_data = np.zeros_like(data)
    for i in range(data.shape[1]):
        mapped_data[:, i] = row_quantiles[rank_data[:, i]-1]

    return mapped_data

使用示例：

# 生成隨機數(shù)據(jù)
data = np.random.rand(10, 5)

# 將數(shù)據(jù)進行Quantile Normalization
normalized_data = quantile_normalize(data)

該函數(shù)輸入一個矩陣數(shù)據(jù)，輸出一個Quantile Normalization后的矩陣。函數(shù)首先對矩陣的每一列進行排序，然后計算每一行的分位數(shù)。接著，對于每一列的數(shù)據(jù)，映射到對應(yīng)的分位數(shù)。最后，輸出Quantile Normalization后的矩陣。

python代碼比較意外的是還添加了中文注釋，不禁有些感嘆自己也不一定能短時間寫出這些代碼。與R腳本相同，并沒有使用包，而是根據(jù)QN的原理直接實現(xiàn)，至于代碼準確性還是需要細節(jié)上的修改：
分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI
報錯應(yīng)該是在映射對應(yīng)的分位數(shù)時錯誤，報錯原因是根據(jù)索引獲取元素時，索引應(yīng)該是整數(shù)，這里rankdata輸出的值是浮點型。

根據(jù)報錯調(diào)整代碼：

import numpy as np
from scipy.stats import rankdata

def quantile_normalize(data):
    # 對每一列數(shù)據(jù)進行排序
    sorted_data = np.sort(data, axis=0)

    # 計算每一行的分位數(shù)
    row_quantiles = np.mean(sorted_data, axis=1)
    
    # 對每一列數(shù)據(jù)進行排序，并將其映射到對應(yīng)的分位數(shù)
    rank_data = rankdata(data, axis=0)
    mapped_data = np.zeros_like(data, dtype=float)  #【修改】初始化指定數(shù)據(jù)類型為浮點型
    for i in range(data.shape[1]):
        # mapped_data[:, i] = row_quantiles[rank_data[:, i]-1]
        mapped_data[:, i] = row_quantiles[[int(i) for i in rank_data[:, i]-1]]  # 【修改】索引為整型
        
    return mapped_data

注意：代碼中，當一列（某樣本）出現(xiàn)相同值（基因表達值相同）時的排位問題，直接按計算排位均值后下取整數(shù)來獲取對應(yīng)值。具體來說：某列有n個相同數(shù)值，應(yīng)排位為并列第m個，此時rankdata對這n個數(shù)的排位都是： $\frac{m+(m+1)+...+(m+n-1)}{n}$ ，比如，有2個數(shù)都排位第3個，則在rankdata排位為： $\frac{3+4}{2}=3.5$ ，代碼中取整(int是下取整)，則為3；若有3個數(shù)都排位第3個，則在rankdata排位為： $\frac{3+4+5}{2}=3$ ，代碼中取整，則為排位取3。

但是，實際排位中，對于相同的值，使用的是排位后對應(yīng)值的均值（而不是排位的均值）。也就是上面代碼還需要進一步完善：對相同值的排位問題。

上面調(diào)整后的代碼執(zhí)行結(jié)果：

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

可視化分位數(shù)歸一化處理前后發(fā)生的變化

先直觀得看幾個示例QN前后的結(jié)果，輸入數(shù)據(jù)：

import pandas as pd
import qnorm
df1 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 6, 'B': 1, 'C': 7, 'D': 9},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})
dfn1 = qnorm.quantile_normalize(df1, axis=1)

df2 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 2},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})
dfn2 = qnorm.quantile_normalize(df2, axis=1)

df3 = pd.DataFrame({'C1': {'A': 5, 'B': 2, 'C': 3, 'D': 4},
                   'C2': {'A': 4, 'B': 1, 'C': 4, 'D': 4},
                   'C3': {'A': 3, 'B': 4, 'C': 6, 'D': 8}})

dfn3 = qnorm.quantile_normalize(df3, axis=1)

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI
可視化QN前后的數(shù)據(jù)：

import matplotlib.pyplot as plt

fig, axs = plt.subplots(3, 2)
plt.rcParams.update({'font.size':5})
i = 0
for df, dfn in zip([df1, df2, df3], [dfn1, dfn2, dfn3]):
    axs[i, 0].scatter(range(len(df.T['A'])), df.T['A'], label='A')
    axs[i, 0].scatter(range(len(df.T['B'])), df.T['B'], label='B')
    axs[i, 0].scatter(range(len(df.T['C'])), df.T['C'], label='C')
    axs[i, 0].scatter(range(len(df.T['D'])), df.T['D'], label='D')
    axs[i, 0].legend(loc='upper left', shadow=True)
    axs[i, 0].set_xticks([0, 1, 2], [1, 2, 3])

    axs[i, 1].scatter(range(len(dfn.T['A'])), dfn.T['A'])
    axs[i, 1].scatter(range(len(dfn.T['B'])), dfn.T['B'])
    axs[i, 1].scatter(range(len(dfn.T['C'])), dfn.T['C'])
    axs[i, 1].scatter(range(len(dfn.T['D'])), dfn.T['D'])
    axs[i, 1].set_xticks([0, 1, 2], [1, 2, 3])
    i += 1
    
fig.tight_layout()
plt.show()

圖分兩列，左側(cè)一列為原始數(shù)據(jù)，右側(cè)一列分位數(shù)歸一化(QN)后的數(shù)據(jù)。從原始數(shù)據(jù)到QN后的數(shù)據(jù)，可以發(fā)現(xiàn)，右側(cè)圖中每個樣本（一列）的4個數(shù)據(jù)的排列順序沒有發(fā)生變化。（注意：有的看起來是<4個數(shù)據(jù)，是因為原始數(shù)據(jù)有相同的值，點重疊了）

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI
手動推算一遍會更理解分位數(shù)歸一化的基本思路：將每個樣本的數(shù)據(jù)值按照從小到大的順序進行排列，然后將排列后的數(shù)據(jù)值替換為對應(yīng)分位數(shù)。

分位數(shù)歸一化方法：http://bmbolstad.com/stuff/qnorm.pdf

step1: 每個樣本的feature按從小到大排序；
step2: 與原始數(shù)據(jù)對應(yīng)，獲取排位后的序號（rank i/ii/iii/iv)；
step3: 計算從小到大排序之后每個featrue的算術(shù)平均數(shù)；
step4: 將step2中數(shù)據(jù)排位替換為step3中排位對應(yīng)的算術(shù)平均數(shù)；

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

什么時候該用/不該用分位數(shù)歸一化

（參考：http://www.bio-info-trainee.com/2043.html）

雖然前面對“INSCODE AI創(chuàng)作助手”的提問也有類似什么時候用QN，但是概況性回答了一些QN應(yīng)用場景，沒有很具體或?qū)I(yè)的表述。有一篇文獻中專門研究了什么時候使用分位數(shù)歸一化：文獻pdf

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI
該文獻中給出了QN的使用策略：

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

【翻譯】：（沒有仔細研讀文獻，翻譯謹慎參考）

組內(nèi)方差小、組間方差小（變異小）→ 技術(shù)變化小，無全局變化 → 可使用QN（但是沒有必要）

組內(nèi)方差大、組間方差?。ㄗ儺愋。?技術(shù)變化大或組內(nèi)批次效應(yīng)，無全局變化 → 使用QN

組內(nèi)方差小、組間方差大（變異大）→ 【只用原始數(shù)據(jù)不能檢測到差異】→ 將檢測技術(shù) 和生物變異導致的全局差異
1）組間全局技術(shù)差異或批次效應(yīng) → 使用QN
2）組間全局生物學差異 → 不使用QN

文獻中開發(fā)了quantro包：

R包quantro是：提出了一個數(shù)據(jù)驅(qū)動的方法來測試全局標準化方法的假設(shè)。證明了文獻方法(quantro)的效用，通過將其應(yīng)用到多個基因的表達和DNA甲基化，并顯示全局標準化方法時的例子是不合適的。

其他ChatGPT測試

ChatGPT：https://chat2.jinshutuan.com/

分位數(shù)歸一化,python,bioinfo,R,python,bioninfo,標準化,歸一化,INSCODE AI

ps: Q1問題輸入錯誤：“使用"->“時候”。但是回答中提到“QN可能過分平滑數(shù)據(jù)”，又追問了一個問題。
修改Q1問題后，結(jié)果答復也不相同：
同樣提問如何用python實現(xiàn)，答復中海介紹QN的大致步驟，再給出代碼示例：（待測試）

【2023-05-31】初版；
【2023-06-05】測試其他ChatGPT回答。文章來源地址http://www.zghlxwxcb.cn/news/detail-584446.html

到了這里，關(guān)于【python】數(shù)據(jù)預處理：分位數(shù)歸一化 Quantile Normalization + INSCODE AI創(chuàng)作助手測試的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務(wù)，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費用

python數(shù)據(jù)預處理
輸出結(jié)果如下：觀察可知，【銷量】存在一個缺失值，本例將缺失值所在行進行刪除處理輸出結(jié)果如下：輸出結(jié)果如下：觀察可知，箱線圖上下邊緣存在異常值，本例通過四分位法對異常值進行處理，即：超出上邊緣的異常值讓其落在上邊緣，低于下邊緣的異常值讓其落在
2024年02月13日
瀏覽(30)
Python中對CSV數(shù)據(jù)預處理
CSV（Comma Separated Values）是一種常用的數(shù)據(jù)格式，它是以逗號作為分隔符的純文本文件，通常用于存儲大量的數(shù)據(jù)。在數(shù)據(jù)分析和機器學習領(lǐng)域，CSV數(shù)據(jù)預處理是一個必不可少的步驟。在本篇博客中，我們將介紹Python中對CSV數(shù)據(jù)預處理的所有步驟。在Python中，我們可以使用
2024年02月10日
瀏覽(23)
【Python機器學習】SVM——預處理數(shù)據(jù)
為了解決特征特征數(shù)量級差異過大，導致的模型過擬合問題，有一種方法就是對每個特征進行縮放，使其大致處于同一范圍。核SVM常用的縮放方法是將所有的特征縮放到0和1之間。 “人工”處理方法：可以看到，最終的結(jié)果上訓練集和測試集的精度都非常好，但還沒有接近
2024年01月17日
瀏覽(32)
【Python實戰(zhàn)】數(shù)據(jù)預處理（數(shù)據(jù)清理、集成、變換、歸約）
因疫情原因，距上次寫博客已過許久這次回看以前的書籍，發(fā)現(xiàn)數(shù)據(jù)預處理這塊在業(yè)務(wù)中極其重要業(yè)務(wù)中，數(shù)據(jù)的準確率對業(yè)務(wù)的影響至關(guān)重要好的數(shù)據(jù)往往百利而無一害，相對的，不好的數(shù)據(jù)會帶來無法預期的損失管理好數(shù)據(jù)，就能管理好業(yè)務(wù)，環(huán)環(huán)相扣，生生不息所
2024年02月08日
瀏覽(24)
數(shù)據(jù)挖掘?qū)W習——數(shù)據(jù)預處理方法代碼匯總（python）
目錄一、歸一化處理方法（1）min-max方法（離散歸一化）（2）零-均值規(guī)范化方法（3）小數(shù)定標規(guī)范化二、插值法（1）拉格朗日插值法三、相關(guān)性分析（1）pearson相關(guān)性系數(shù) （2）spearman相關(guān)性系數(shù) 四、主成分分析（PCA）歸一化常用方法有：（1）min-max方法（離散歸一化
2024年02月08日
瀏覽(99)
Python數(shù)據(jù)分析之特征處理筆記三——特征預處理（特征選擇）
書接上文，進行數(shù)據(jù)清洗過程后，我們得到了沒有空值、異常值、錯誤值的數(shù)據(jù)，但想要用海量的數(shù)據(jù)來建立我們所需要的算法模型，僅僅是數(shù)據(jù)清洗的過程是不夠的，因為有的數(shù)據(jù)類型是數(shù)值，有的是字符，怎樣將不同類型的數(shù)據(jù)聯(lián)系起來？以及在保證最大化信息量的前提
2024年02月02日
瀏覽(37)
python數(shù)據(jù)預處理—數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約
進行數(shù)據(jù)分析時，需要預先把進入模型算法的數(shù)據(jù)進行數(shù)據(jù)預處理。一般我們接收到的數(shù)據(jù)很多都是“臟數(shù)據(jù)”，里面可能包含缺失值、異常值、重復值等；同時有效標簽或者特征需要進一步篩選，得到有效數(shù)據(jù)，最終把原始數(shù)據(jù)處理成符合相關(guān)模型算法的輸入標準，從而進
2024年02月02日
瀏覽(23)
Python圖像歸一化：提升圖像處理效果的利器
圖像歸一化是圖像處理中的重要步驟，能夠幫助我們提升圖像處理的效果。本文將介紹如何使用Python編程語言進行圖像歸一化，以及歸一化的原理和常見的應(yīng)用場景。在圖像處理中，我們經(jīng)常需要對圖像進行歸一化處理，以便更好地進行后續(xù)處理或分析。Python是一種流行的編
2024年02月13日
瀏覽(26)
MATLAB——數(shù)據(jù)歸一化處理（normalize函數(shù)）
數(shù)據(jù)歸一化：數(shù)據(jù)的歸一化是特征縮放(feature scaling)的方法，是數(shù)據(jù)預處理的關(guān)鍵步驟。不同評價指標往往具有不同的量綱和量綱單位，這樣的情況會影響到數(shù)據(jù)分析的結(jié)果，為了消除指標之間的量綱影響，需要進行數(shù)據(jù)歸一化處理，以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)
2024年02月22日
瀏覽(18)
Spark中數(shù)據(jù)預處理和清洗的方法(python)
在Spark中進行數(shù)據(jù)分析，數(shù)據(jù)預處理和清洗是必不可少的步驟，以下是一些常用的方法：去除重復行去除空值替換空值更改數(shù)據(jù)類型分割列合并列過濾行去除重復行可以使用DataFrame的 dropDuplicates() 方法，例如：去除空值可以使用DataFrame的 dropna() 方法，例如：可以通過指
2024年02月11日
瀏覽(44)

<sub id="pkhqs"><thead id="pkhqs"><var id="pkhqs"></var></thead></sub>