近日,阿里云人工智能平臺(tái)PAI與浙江大學(xué)吳健、應(yīng)豪超老師團(tuán)隊(duì)合作論文《Arithmetic Feature Interaction is Necessary for Deep Tabular Learning》正式在國(guó)際人工智能頂會(huì)AAAI-2024上發(fā)表。本項(xiàng)工作聚焦于深度表格學(xué)習(xí)中的一個(gè)核心問(wèn)題:在處理結(jié)構(gòu)化表格數(shù)據(jù)(tabular data)時(shí),深度模型是否擁有有效的歸納偏差(inductive bias)。我們提出算術(shù)特征交互(arithmetic feature interaction)對(duì)深度表格學(xué)習(xí)是至關(guān)重要的假設(shè),并通過(guò)創(chuàng)建合成數(shù)據(jù)集以及設(shè)計(jì)實(shí)現(xiàn)一種支持上述交互的AMFormer架構(gòu)(一種修改的Transformer架構(gòu))來(lái)驗(yàn)證這一假設(shè)。實(shí)驗(yàn)結(jié)果表明,AMFormer在合成數(shù)據(jù)集表現(xiàn)出顯著更優(yōu)的細(xì)粒度表格數(shù)據(jù)建模、訓(xùn)練樣本效率和泛化能力,并在真實(shí)數(shù)據(jù)的對(duì)比上超過(guò)一眾基準(zhǔn)方法,成為深度表格學(xué)習(xí)新的SOTA(state-of-the-art)模型。
背景
圖1:結(jié)構(gòu)化表格數(shù)據(jù)示例,引用自[Borisov et al.]
結(jié)構(gòu)化表格數(shù)據(jù)——這些數(shù)據(jù)往往以表(Table)的形式存儲(chǔ)于數(shù)據(jù)庫(kù)或數(shù)倉(cāng)中——作為一種在金融、市場(chǎng)營(yíng)銷、醫(yī)學(xué)科學(xué)和推薦系統(tǒng)等多個(gè)領(lǐng)域廣泛使用的重要數(shù)據(jù)格式,其分析一直是機(jī)器學(xué)習(xí)研究的熱點(diǎn)。表格數(shù)據(jù)(圖1)通常同時(shí)包含數(shù)值型(numerical)特征和類目型(categorical)特征,并往往伴隨有特征缺失、噪聲、類別不平衡(class imblanance)等數(shù)據(jù)質(zhì)量問(wèn)題,且缺少時(shí)序性、局部性等有效的先驗(yàn)歸納偏差,極大地帶來(lái)了分析上的挑戰(zhàn)。傳統(tǒng)的樹集成模型(如,XGBoost、LightGBM、CatBoost)因在處理數(shù)據(jù)質(zhì)量問(wèn)題上的魯棒性,依然是工業(yè)界實(shí)際建模的主流選擇,但其效果很大程度依賴于特征工程產(chǎn)出的原始特征質(zhì)量。
隨著深度學(xué)習(xí)的流行,研究者試圖引入深度學(xué)習(xí)端到端建模,從而減少在處理表格數(shù)據(jù)時(shí)對(duì)特征工程的依賴。相關(guān)的研究工作至少可以可以分成四大類:(1)在傳統(tǒng)建模方法中疊加深度學(xué)習(xí)模塊(通常是多層感知機(jī)MLP),如Wide&Deep、DeepFMs;(2)形狀函數(shù)(shape function)采用深度學(xué)習(xí)建模的廣義加性模型(generalized additive model),如 NAM、NBM、SIAN;(3)樹結(jié)構(gòu)啟發(fā)的深度模型,如NODE、Net-DNF;(4)基于Transformer架構(gòu)的模型,如AutoInt、DCAP、FT-Transformer。盡管如此,深度學(xué)習(xí)在表格數(shù)據(jù)上相比樹模型的提升并不顯著且持續(xù),其有效性仍然存在疑問(wèn),表格數(shù)據(jù)因此被視為深度學(xué)習(xí)尚未征服的最后堡壘。
算術(shù)特征交互在深度表格學(xué)習(xí)的“必要性”
我們認(rèn)為現(xiàn)有的深度表格學(xué)習(xí)方法效果不盡如人意的關(guān)鍵癥結(jié)在于沒(méi)有找到有效的建模歸納偏差,并進(jìn)一步提出算術(shù)特征交互對(duì)深度表格學(xué)習(xí)是至關(guān)重要的假設(shè)。本節(jié)介紹我們通過(guò)創(chuàng)建一個(gè)合成數(shù)據(jù)集,并對(duì)比引入算數(shù)特征交互前后的模型效果,來(lái)驗(yàn)證該假設(shè)。
合成數(shù)據(jù)集的構(gòu)造方法如下:我們?cè)O(shè)計(jì)了一個(gè)包含八個(gè)特征(??)的合成數(shù)據(jù)集。
圖2:合成數(shù)據(jù)集上的結(jié)果對(duì)比。圖中+x%表示AMFormer相比Transformer的相對(duì)提升。
在上述數(shù)據(jù)中,我們將引入了算數(shù)特征交互的AMFormer架構(gòu)與經(jīng)典的XGBoost和Transformer架構(gòu)對(duì)比。實(shí)驗(yàn)結(jié)果顯示:
以上結(jié)果共同證實(shí)了算術(shù)特征交互在深度表格學(xué)習(xí)中的顯著意義。
算法架構(gòu)
圖3:AMFormer架構(gòu),其中L表示模型層數(shù)。
本節(jié)介紹AMFormer架構(gòu)(圖3),并重點(diǎn)介紹算數(shù)特征交互的引入。AMFormer架構(gòu)借鑒了經(jīng)典的Transformer框架,并引入了Arithmetic Block來(lái)增強(qiáng)模型的算術(shù)特征交互能力。在AMFormer中,我們首先將原始特征轉(zhuǎn)換為具有代表性的嵌入向量,對(duì)于數(shù)值特征,我們使用一個(gè)1輸入d輸出的線性層;對(duì)于類別特征,則使用一個(gè)d維的嵌入查詢表。之后,這些初始嵌入通過(guò)L個(gè)順序?qū)舆M(jìn)行處理,這些層增強(qiáng)了嵌入向量中的上下文和交互元素。每一層中的算術(shù)模塊采用了并行的加法和乘法注意力機(jī)制,以刻意促進(jìn)算術(shù)特征之間的交互。為了促進(jìn)梯度流動(dòng)和增強(qiáng)特征表示,我們保留了殘差連接和前饋網(wǎng)絡(luò)。最終,依據(jù)這些豐富的嵌入向量,AMFormer使用分類或回歸頭部生成最終輸出。
算術(shù)模塊的關(guān)鍵組件包括并行注意力機(jī)制和提示標(biāo)記。為了補(bǔ)償需要算術(shù)特征交互的特征,我們?cè)贏MFormer中配置了并行注意力機(jī)制,這些機(jī)制負(fù)責(zé)提取有意義的加法和乘法交互候選者。這些交互候選隨著會(huì)沿著候選維度被串聯(lián)(concatenate)起來(lái),并通過(guò)一個(gè)下采樣的線性層進(jìn)行融合,使得AMFormer的每一層都能有效捕捉算術(shù)特征交互,即特征上的四則算法運(yùn)算。為了防止由特征冗余引起的過(guò)擬合并提升模型在超大規(guī)模特征數(shù)據(jù)集上的伸縮,我們放棄了原始Transformer架構(gòu)中平方復(fù)雜度的自注意力機(jī)制,而是使用兩組提示向量(prompt token vectors)作為加法和乘法查詢。這種方法為AMFormer提供了有限的特征交互自由度,并且作為一個(gè)附帶效果,優(yōu)化了內(nèi)存占用和訓(xùn)練效率。
以上是AMFormer在架構(gòu)層引入的主要?jiǎng)?chuàng)新,關(guān)于模型更詳細(xì)的實(shí)現(xiàn)細(xì)節(jié)可以參考原文以及我們的開源實(shí)現(xiàn)。
進(jìn)一步實(shí)驗(yàn)結(jié)果
表1:真實(shí)數(shù)據(jù)集統(tǒng)計(jì)以及評(píng)估指標(biāo)。
為了進(jìn)一步展示AMFormer的效果,我們挑選了四個(gè)真實(shí)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。被挑選數(shù)據(jù)集覆蓋了二分類、多分類以及回歸任務(wù),數(shù)據(jù)集統(tǒng)計(jì)如表1所示。
表2:AMFormer以及基準(zhǔn)方法的性能對(duì)比,其中括號(hào)內(nèi)的數(shù)字表示該方法在當(dāng)前數(shù)據(jù)集上表現(xiàn)的排名,最優(yōu)以及次優(yōu)的結(jié)果分別以加粗以及下劃線突出。
我們一共測(cè)試了包含傳統(tǒng)樹模型(XGBoost)、樹架構(gòu)深度學(xué)習(xí)方法(NODE)、高階特征交互(DCN-V2、DCAP)以及Transformer派生架構(gòu)(AutoInt、FT-Trans)在內(nèi)的六個(gè)基準(zhǔn)算法以及兩個(gè)AMFormer實(shí)現(xiàn)(分別選擇AutoInt、FT-Trans做基礎(chǔ)架構(gòu),即AMF-A和AMF-F),結(jié)果匯總在表2中。
在一系列對(duì)比實(shí)驗(yàn)中,AMFormer表現(xiàn)更突出。結(jié)果顯示,基于MLP的深度學(xué)習(xí)方法如DCN-V2在表格數(shù)據(jù)上的性能不盡如人意,而基于Transformer架構(gòu)的模型顯示出更大的潛力,但未能始終超過(guò)樹模型XGBoost。我們的AMFormer在四個(gè)不同的數(shù)據(jù)集上,與所有六個(gè)基準(zhǔn)模型相比,表現(xiàn)一致更優(yōu):在分類任務(wù)中,它將AutoInt和FT-transformer的準(zhǔn)確率或AUC提升至少0.5%,最高達(dá)到1.23%(EP)和4.96%(CO);在回歸任務(wù)中,它也顯著減少了平均平方誤差。相比其它深度表格學(xué)習(xí)方法,AMFormer具有更好的魯棒和穩(wěn)定性,這使得在性能排序中AMFormer斷層式優(yōu)于其它基準(zhǔn)算法,這些實(shí)驗(yàn)結(jié)果充分證明了AMFormer在深度表格學(xué)習(xí)中的必要性和優(yōu)越性。
結(jié)論
本工作研究了深度模型在表格數(shù)據(jù)上的有效歸納偏置。我們提出,算術(shù)特征交互對(duì)于表格深度學(xué)習(xí)是必要的,并將這一理念融入Transformer架構(gòu)中,創(chuàng)建了AMFormer。我們?cè)诤铣蓴?shù)據(jù)和真實(shí)世界數(shù)據(jù)上驗(yàn)證了AMFormer的有效性。合成數(shù)據(jù)的結(jié)果展示了其在精細(xì)表格數(shù)據(jù)建模、訓(xùn)練數(shù)據(jù)效率以及泛化方面的優(yōu)越能力。此外,對(duì)真實(shí)世界數(shù)據(jù)的廣泛實(shí)驗(yàn)進(jìn)一步確認(rèn)了其一致的有效性。因此,我們相信AMFormer為深度表格學(xué)習(xí)設(shè)定了強(qiáng)有力的歸納偏置。
進(jìn)一步閱讀
●?論文標(biāo)題:
Arithmetic Feature Interaction is Necessary for Deep Tabular Learning
●?論文作者:
程奕、胡仁君、應(yīng)豪超、施興、吳健、林偉
●?論文PDF鏈接:https://arxiv.org/abs/2402.02334
● 代碼鏈接:https://github.com/aigc-apps/AMFormer
原文鏈接文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-853880.html
本文為阿里云原創(chuàng)內(nèi)容,未經(jīng)允許不得轉(zhuǎn)載。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-853880.html
到了這里,關(guān)于解鎖深度表格學(xué)習(xí)(Deep Tabular Learning)的關(guān)鍵:算術(shù)特征交互的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!