国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》

這篇具有很好參考價值的文章主要介紹了機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

一、什么是特征預(yù)處理

通過一些轉(zhuǎn)換函數(shù)將特征數(shù)據(jù)轉(zhuǎn)換成更加適合算法模型的特征數(shù)據(jù)過程
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

處理前,特征值是數(shù)值,處理后,進行了特征縮放

1、包含內(nèi)容
數(shù)值型數(shù)據(jù)的無量綱化:
歸一化
標準化

2、特征預(yù)處理API
sklearn.preprocessing

3、為什么我們要進行歸一化/標準化
特征的單位或者大小相差較大,或者某特征的方差相比其他的特征要大出幾個數(shù)量級,容易影響(支配)目標結(jié)果,使得一些算法無法學(xué)習到其它的特征
因為很多數(shù)據(jù)量綱不一致
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

可以看到里程數(shù)數(shù)值比較大,消耗時間比數(shù)值比較小
用KNN算法計算歐氏距離公式時,最終結(jié)果被里程數(shù)左右,學(xué)習不到其他特征了
(72993 - 35948) ^ 2 + (10.14 - 6.83) ^ 2 + (1.03 - 1.21) ^ 2

我們需要用到一些方法進行無量綱化,使不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格

4、什么是歐氏距離公式
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

5、無量綱化
之所以要做無量綱化的處理,就是因為量綱不統(tǒng)一,導(dǎo)致了里程數(shù)數(shù)值非常的大。為了讓特征同等重要,要做歸一化/標準化

二、歸一化

1、定義
通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)映射到(默認為[0,1])之間

2、公式
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

3、API函數(shù)
sklearn.preprocessing.MinMaxScaler(feature_range=(0, 1)...)

4、MinMaxScaler.fit_transform(X)
X:numpy array格式的數(shù)據(jù)[n_samples, n_features]
n_samples:有幾行數(shù)據(jù),樣本數(shù)
n_features:有幾個特征,有幾列
返回值:轉(zhuǎn)換后的形狀相同的array

5、歸一化處理dating.txt中的數(shù)據(jù)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler
import jieba
import pandas as pd

def datasets_demo():
    """
    sklearn數(shù)據(jù)集使用
    """
    #獲取數(shù)據(jù)集
    iris = load_iris()
    print("鳶尾花數(shù)據(jù)集:\n", iris)
    print("查看數(shù)據(jù)集描述:\n", iris["DESCR"])
    print("查看特征值的名字:\n", iris.feature_names)
    print("查看特征值幾行幾列:\n", iris.data.shape)
   
    #數(shù)據(jù)集的劃分
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("訓(xùn)練集的特征值:\n", x_train, x_train.shape)

    return None
 
def dict_demo():
    """
    字典特征抽取
    """
    data = [{'city': '北京','temperature':100},{'city': '上海','temperature':60},{'city': '深圳','temperature':30}]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = DictVectorizer(sparse=False)

    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)
    print("特征名字:\n", transfer.get_feature_names())

    return None

def count_demo():
    """
    文本特征抽取
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字:\n", transfer.get_feature_names()) 

    return None

def count_chinese_demo():
    """
    中文文本特征抽取
    """
    data = ["我 愛 北京 天安門", "天安門 上 太陽 升"]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    
    # 2、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray());
    print("特征名字:\n", transfer.get_feature_names())
    
    return None

def cut_word(text):
    """
    進行中文分詞
    """
    return " ".join(list(jieba.cut(text)))  #返回一個分詞生成器對象,強轉(zhuǎn)成list,再join轉(zhuǎn)成字符串

def count_chinese_demo2():
    """
    中文文本特征抽取,自動分詞
    """
    # 1、將中文文本進行分詞
    data = ["今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。",
        "我們看到的從很遠星系來的光是在幾百萬年前之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。",
        "如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)
    # 2、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    # 3、調(diào)用fit_transform()
    data_final = transfer.fit_transform(data_new)
    print("data_final:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

def tfidf_demo():
    """
    用tf-idf的方法進行文本特征抽取
    """
    # 1、將中文文本進行分詞
    data = ["今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。",
        "我們看到的從很遠星系來的光是在幾百萬年前之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。",
        "如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)
    # 2、實例化一個轉(zhuǎn)換器類
    transfer = TfidfVectorizer()
    # 3、調(diào)用fit_transform()
    data_final = transfer.fit_transform(data_new)
    print("data_final:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

def minmax_demo():
    """
    歸一化
    """
    # 1、獲取數(shù)據(jù)
    data = pd.read_csv("dating.txt")
    #print("data:\n", data)
    data = data.iloc[:, 0:3] #行都要,列取前3列
    print("data:\n", data)
    # 2、實例化一個轉(zhuǎn)換器
    transfer = MinMaxScaler()
    # 3、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)
    return None

if __name__ == "__main__":
    # 代碼1:sklearn數(shù)據(jù)集使用
    #datasets_demo()
    # 代碼2:字典特征抽取
    #dict_demo()
    # 代碼3:文本特征抽取
    #count_demo()
    # 代碼4:中文文本特征抽取
    #count_chinese_demo()
    # 代碼5:中文文本特征抽取,自動分詞
    #count_chinese_demo2()
    # 代碼6: 測試jieba庫中文分詞
    #print(cut_word("我愛北京天安門"))
    # 代碼7:用tf-idf的方法進行文本特征抽取
    #tfidf_demo()
    # 代碼8:歸一化
    minmax_demo()

運行結(jié)果:

data:
      milage     liters  consumtime
0     40920   8.326976    0.953952
1     14488   7.153469    1.673904
2     26052   1.441871    0.805124
3     75136  13.147394    0.428964
4     38344   1.669788    0.134296
..      ...        ...         ...
984   11145   3.410627    0.631838
985   68846   9.974715    0.669787
986   26575  10.650102    0.866627
987   48111   9.134528    0.728045
988   43757   7.882601    1.332446

[989 rows x 3 columns]
data_new:
 [[0.44832535 0.39805139 0.56233353]
 [0.15873259 0.34195467 0.98724416]
 [0.28542943 0.06892523 0.47449629]
 ...
 [0.29115949 0.50910294 0.51079493]
 [0.52711097 0.43665451 0.4290048 ]
 [0.47940793 0.3768091  0.78571804]]

三、標準化

1、歸一化有什么缺點
歸一化結(jié)果是根據(jù)最小值和最大值求出來的,如果數(shù)據(jù)中異常點較多,最大值和最小值非常容易受異常點影響
所以這種方法魯棒性(健壯性)較差,只適合傳統(tǒng)精確小數(shù)據(jù)場景

2、定義
通過對原始數(shù)據(jù)進行變換把數(shù)據(jù)變換到均值為0,標準差為1范圍內(nèi)

3、公式
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

用數(shù)據(jù)減去這一列的平均值,除以標準差

4、什么是標準差
機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》,機器學(xué)習,機器學(xué)習

5、API函數(shù)
sklearn.preprocessing.StandardScaler()
處理后,對每列來說,所有數(shù)據(jù)都聚集在均值為0附近,標準差為1

6、StandardScaler.fit_transform(X)
X:numpy array格式的數(shù)據(jù)[n_samples, n_features]
返回值:轉(zhuǎn)換后的形狀相同的array

7、標準化處理dating.txt中的數(shù)據(jù)

from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import jieba
import pandas as pd

def datasets_demo():
    """
    sklearn數(shù)據(jù)集使用
    """
    #獲取數(shù)據(jù)集
    iris = load_iris()
    print("鳶尾花數(shù)據(jù)集:\n", iris)
    print("查看數(shù)據(jù)集描述:\n", iris["DESCR"])
    print("查看特征值的名字:\n", iris.feature_names)
    print("查看特征值幾行幾列:\n", iris.data.shape)
   
    #數(shù)據(jù)集的劃分
    x_train, x_test, y_train, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)
    print("訓(xùn)練集的特征值:\n", x_train, x_train.shape)

    return None
 
def dict_demo():
    """
    字典特征抽取
    """
    data = [{'city': '北京','temperature':100},{'city': '上海','temperature':60},{'city': '深圳','temperature':30}]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = DictVectorizer(sparse=False)

    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)
    print("特征名字:\n", transfer.get_feature_names())

    return None

def count_demo():
    """
    文本特征抽取
    """
    data = ["life is short,i like like python", "life is too long,i dislike python"]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    # 2、調(diào)用fit_transform()
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray())
    print("特征名字:\n", transfer.get_feature_names()) 

    return None

def count_chinese_demo():
    """
    中文文本特征抽取
    """
    data = ["我 愛 北京 天安門", "天安門 上 太陽 升"]
    # 1、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    
    # 2、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new.toarray());
    print("特征名字:\n", transfer.get_feature_names())
    
    return None

def cut_word(text):
    """
    進行中文分詞
    """
    return " ".join(list(jieba.cut(text)))  #返回一個分詞生成器對象,強轉(zhuǎn)成list,再join轉(zhuǎn)成字符串

def count_chinese_demo2():
    """
    中文文本特征抽取,自動分詞
    """
    # 1、將中文文本進行分詞
    data = ["今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。",
        "我們看到的從很遠星系來的光是在幾百萬年前之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。",
        "如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)
    # 2、實例化一個轉(zhuǎn)換器類
    transfer = CountVectorizer()
    # 3、調(diào)用fit_transform()
    data_final = transfer.fit_transform(data_new)
    print("data_final:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

def tfidf_demo():
    """
    用tf-idf的方法進行文本特征抽取
    """
    # 1、將中文文本進行分詞
    data = ["今天很殘酷,明天更殘酷,后天很美好,但絕對大部分是死在明天晚上,所以每個人不要放棄今天。",
        "我們看到的從很遠星系來的光是在幾百萬年前之前發(fā)出的,這樣當我們看到宇宙時,我們是在看它的過去。",
        "如果只用一種方式了解某樣事物,你就不會真正了解它。了解事物真正含義的秘密取決于如何將其與我們所了解的事物相聯(lián)系。"]

    data_new = []
    for sent in data:
        data_new.append(cut_word(sent))
    print(data_new)
    # 2、實例化一個轉(zhuǎn)換器類
    transfer = TfidfVectorizer()
    # 3、調(diào)用fit_transform()
    data_final = transfer.fit_transform(data_new)
    print("data_final:\n", data_final.toarray())
    print("特征名字:\n", transfer.get_feature_names())
    return None

def minmax_demo():
    """
    歸一化
    """
    # 1、獲取數(shù)據(jù)
    data = pd.read_csv("dating.txt")
    #print("data:\n", data)
    data = data.iloc[:, 0:3] #行都要,列取前3列
    print("data:\n", data)
    # 2、實例化一個轉(zhuǎn)換器
    transfer = MinMaxScaler()
    # 3、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)
    return None

def stand_demo():
    """
    標準化
    """
    # 1、獲取數(shù)據(jù)
    data = pd.read_csv("dating.txt")
    #print("data:\n", data)
    data = data.iloc[:, 0:3] #行都要,列取前3列
    print("data:\n", data)
    # 2、實例化一個轉(zhuǎn)換器
    transfer = StandardScaler()
    # 3、調(diào)用fit_transform
    data_new = transfer.fit_transform(data)
    print("data_new:\n", data_new)
    return None

if __name__ == "__main__":
    # 代碼1:sklearn數(shù)據(jù)集使用
    #datasets_demo()
    # 代碼2:字典特征抽取
    #dict_demo()
    # 代碼3:文本特征抽取
    #count_demo()
    # 代碼4:中文文本特征抽取
    #count_chinese_demo()
    # 代碼5:中文文本特征抽取,自動分詞
    #count_chinese_demo2()
    # 代碼6: 測試jieba庫中文分詞
    #print(cut_word("我愛北京天安門"))
    # 代碼7:用tf-idf的方法進行文本特征抽取
    #tfidf_demo()
    # 代碼8:歸一化
    #minmax_demo()
    # 代碼9:標準化
    stand_demo()

運行結(jié)果:

data:
      milage     liters  consumtime
0     40920   8.326976    0.953952
1     14488   7.153469    1.673904
2     26052   1.441871    0.805124
3     75136  13.147394    0.428964
4     38344   1.669788    0.134296
..      ...        ...         ...
984   11145   3.410627    0.631838
985   68846   9.974715    0.669787
986   26575  10.650102    0.866627
987   48111   9.134528    0.728045
988   43757   7.882601    1.332446

[989 rows x 3 columns]
data_new:
 [[ 0.33984938  0.42024644  0.2460588 ]
 [-0.86581884  0.14356328  1.69344575]
 [-0.338339   -1.2030865  -0.05314407]
 ...
 [-0.31448289  0.96798056  0.07050117]
 [ 0.66785937  0.61064669 -0.2081032 ]
 [ 0.46925618  0.31547409  1.00698075]]

8、標準化小結(jié)
在已有樣本足夠多的情況下比較穩(wěn)定,適合現(xiàn)代嘈雜大數(shù)據(jù)場景
?文章來源地址http://www.zghlxwxcb.cn/news/detail-625581.html

到了這里,關(guān)于機器學(xué)習基礎(chǔ)之《特征工程(3)—特征預(yù)處理》的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 機器學(xué)習(8)---數(shù)據(jù)預(yù)處理

    機器學(xué)習(8)---數(shù)據(jù)預(yù)處理

    ?1. 在機器學(xué)習算法實踐中,我們往往有著將不同規(guī)格的數(shù)據(jù)轉(zhuǎn)換到同一規(guī)格,或不同分布的數(shù)據(jù)轉(zhuǎn)換到某個特定分布的需求,這種需求統(tǒng)稱為將數(shù)據(jù)“無量綱化”。 譬如梯度和矩陣為核心的算法中,譬如邏輯回歸,支持向量機,神經(jīng)網(wǎng)絡(luò),無量綱化可以加快求解速度. 而在

    2024年02月09日
    瀏覽(30)
  • 機器學(xué)習實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    機器學(xué)習實戰(zhàn)4-數(shù)據(jù)預(yù)處理

    導(dǎo)庫 歸一化 另一種寫法 將歸一化的結(jié)果逆轉(zhuǎn) 用numpy實現(xiàn)歸一化 逆轉(zhuǎn) 導(dǎo)庫 實例化 查看屬性 查看結(jié)果 逆標準化 關(guān)于如何選擇這兩種無量綱化的方式要具體問題具體分析,但是我們一般在機器學(xué)習算法中選擇標準化,這就好比我們能讓他符合標準正態(tài)分布為什么不呢?而且

    2024年02月13日
    瀏覽(26)
  • 機器學(xué)習流程—數(shù)據(jù)預(yù)處理 縮放和轉(zhuǎn)換

    相信機器學(xué)習的從業(yè)者,一定聽到到過“特征縮放”這個術(shù)語,它被認為是數(shù)據(jù)處理周期中不可跳過的部分,因進行相應(yīng)的操作們可以實現(xiàn) ML 算法的穩(wěn)定和快速訓(xùn)練。在本文中,我們將了解在實踐中用于執(zhí)行特征縮放的不同技術(shù)。 不同評價指標往往具有不同的 量綱 和量綱單

    2024年03月11日
    瀏覽(23)
  • 【Python機器學(xué)習】SVM——預(yù)處理數(shù)據(jù)

    【Python機器學(xué)習】SVM——預(yù)處理數(shù)據(jù)

    為了解決特征特征數(shù)量級差異過大,導(dǎo)致的模型過擬合問題,有一種方法就是對每個特征進行縮放,使其大致處于同一范圍。核SVM常用的縮放方法是將所有的特征縮放到0和1之間。 “人工”處理方法: 可以看到,最終的結(jié)果上訓(xùn)練集和測試集的精度都非常好,但還沒有接近

    2024年01月17日
    瀏覽(32)
  • 【機器學(xué)習6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標稱數(shù)據(jù))

    【機器學(xué)習6】數(shù)據(jù)預(yù)處理(三)——處理類別數(shù)據(jù)(有序數(shù)據(jù)和標稱數(shù)據(jù))

    在【機器學(xué)習4】構(gòu)建良好的訓(xùn)練數(shù)據(jù)集——數(shù)據(jù)預(yù)處理(一)處理缺失值及異常值這一篇文章中,主要說明熱數(shù)據(jù)預(yù)處理的重要性以及如何處理缺失值及異常值這些數(shù)值特征。然而,在現(xiàn)實生活中遇到的數(shù)據(jù)集往往不僅僅只會包含 數(shù)值型特征 ,還會包含一個或者多個 類別特征

    2024年02月12日
    瀏覽(28)
  • 【機器學(xué)習】數(shù)據(jù)預(yù)處理 - 歸一化和標準化

    【機器學(xué)習】數(shù)據(jù)預(yù)處理 - 歸一化和標準化

    「作者主頁」: 士別三日wyx 「作者簡介」: CSDN top100、阿里云博客專家、華為云享專家、網(wǎng)絡(luò)安全領(lǐng)域優(yōu)質(zhì)創(chuàng)作者 「推薦專欄」: 對網(wǎng)絡(luò)安全感興趣的小伙伴可以關(guān)注專欄《網(wǎng)絡(luò)安全入門到精通》 處理數(shù)據(jù)之前,通常會使用一些轉(zhuǎn)換函數(shù)將 「特征數(shù)據(jù)」 轉(zhuǎn)換成更適合 「

    2024年02月15日
    瀏覽(32)
  • 《人工智能-機器學(xué)習》數(shù)據(jù)預(yù)處理和機器學(xué)習算法(以企鵝penguins數(shù)據(jù)集為例)

    《人工智能-機器學(xué)習》數(shù)據(jù)預(yù)處理和機器學(xué)習算法(以企鵝penguins數(shù)據(jù)集為例)

    本項目使用到的數(shù)據(jù)集鏈接: https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/6tree/penguins_raw.csv 加載給定或者自行選定的數(shù)據(jù)集,對數(shù)據(jù)進行查看和理解,例如樣本數(shù)量,各特征數(shù)據(jù)類型、分布、特征和標簽所表達的含義等,然后對其進行數(shù)據(jù)預(yù)處理工作,包括但不限于對敏感數(shù)據(jù)

    2024年02月10日
    瀏覽(25)
  • 數(shù)據(jù)預(yù)處理與模型評估【機器學(xué)習、人工智能、實際事例】

    在機器學(xué)習領(lǐng)域,數(shù)據(jù)預(yù)處理和模型評估是兩個至關(guān)重要的步驟。它們確保我們構(gòu)建的機器學(xué)習模型能夠從數(shù)據(jù)中有效地學(xué)習并做出準確的預(yù)測。本文將詳細介紹數(shù)據(jù)預(yù)處理和模型評估的概念,并通過現(xiàn)實中的例子來闡述它們之間的密切關(guān)系。 什么是數(shù)據(jù)預(yù)處理? 數(shù)據(jù)預(yù)處

    2024年02月07日
    瀏覽(102)
  • Python數(shù)據(jù)分析之特征處理筆記三——特征預(yù)處理(特征選擇)

    Python數(shù)據(jù)分析之特征處理筆記三——特征預(yù)處理(特征選擇)

    書接上文,進行數(shù)據(jù)清洗過程后,我們得到了沒有空值、異常值、錯誤值的數(shù)據(jù),但想要用海量的數(shù)據(jù)來建立我們所需要的算法模型,僅僅是數(shù)據(jù)清洗的過程是不夠的,因為有的數(shù)據(jù)類型是數(shù)值,有的是字符,怎樣將不同類型的數(shù)據(jù)聯(lián)系起來?以及在保證最大化信息量的前提

    2024年02月02日
    瀏覽(37)
  • 語音特征提取與預(yù)處理

    語音特征提取與預(yù)處理

    導(dǎo)入相關(guān)包? 語音讀取與顯示 ?端點檢測(去除前后靜音段) 原理:將每幀均方根能量與全局最大均方根能量進行比較。 ?端點檢測(包含語音內(nèi)部) ?頻域分析 預(yù)加重 ?高通濾波,彌補高頻部分的損耗,保護了聲道信息:y[n] - y[n] - coef * y[n-1]。 Filter Bank:梅爾譜特征 梅爾濾

    2024年02月10日
    瀏覽(18)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包