機器學習流程—數(shù)據(jù)預處理 縮放和轉(zhuǎn)換
相信機器學習的從業(yè)者,一定聽到到過“特征縮放”這個術語,它被認為是數(shù)據(jù)處理周期中不可跳過的部分,因進行相應的操作們可以實現(xiàn) ML 算法的穩(wěn)定和快速訓練。在本文中,我們將了解在實踐中用于執(zhí)行特征縮放的不同技術。
不同評價指標往往具有不同的量綱和量綱單位,這樣的情況會影響到數(shù)據(jù)分析的結(jié)果,為了消除指標之間的量綱影響,需要進行數(shù)據(jù)歸一化/標準化處理,以解決數(shù)據(jù)指標之間的可比性。文章來源:http://www.zghlxwxcb.cn/news/detail-838480.html
如果沒有進行特征縮放,那么機器學習算法往往會權衡較大的值,而忽略較小的值的權重,而不管值的單位如何,其實這是有問題的,舉個例子富人的錢可能是用億來衡量的,而群人的錢使用元來衡量的,這是單位的不同;還有有些數(shù)據(jù)本身的范圍就比較大,例如人的收入和年齡相比,本身就存在很大的差距。文章來源地址http://www.zghlxwxcb.cn/news/detail-838480.html
特征縮放的意義
- 縮放保證所有特征都處于可比較的規(guī)模并且具有可比較的范圍。這個過程稱為特征標準化。這很重要,因為特征的大小會對許多機器學習技術產(chǎn)生影響。較大規(guī)模的特征可能會主導學習過程并對結(jié)果產(chǎn)生過度影響,可以通過縮放特征來確保每個特征對學習過程的貢獻相同。
- 算法性能改進:當特征縮放時,多種機器學習方法,包括基于梯度下降的算法、基于距離的算法(例如 k 最近鄰)和支持向量機,性能更好或收斂得更快。通過縮放特征可以提高算法的性能,這可以加速算法收斂到理想結(jié)果。
- 防止數(shù)值不穩(wěn)定:可以通過避免特征之間的顯著尺度差異來防止數(shù)值不穩(wěn)定。示例包括距離計算或矩陣運算,其中具有完全不同比例的特征可能會導致數(shù)值上溢或下溢問題。確保穩(wěn)定的計算,并通過擴展功能來緩解這些問題
到了這里,關于機器學習流程—數(shù)據(jù)預處理 縮放和轉(zhuǎn)換的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!