前言
這篇論文的核心思想就是把原始的時(shí)序數(shù)據(jù)轉(zhuǎn)換成文本提示,對(duì)大模型進(jìn)行微調(diào),通過對(duì)話的方式進(jìn)行預(yù)測(cè)。
筆者是根據(jù)原文逐一翻譯并閱讀,文章可能有點(diǎn)長(zhǎng),有需要的可以直接看對(duì)應(yīng)部分。這也是筆者第一次分享論文筆記,有不好的地方還請(qǐng)讀者多見諒。
Paper:https://arxiv.org/abs/2210.08964
Code :https://github.com/HaoUNSW/PISA
參考解讀 知乎:https://zhuanlan.zhihu.com/p/673922129
一、Abstract
原文翻譯:
本文提出了時(shí)間序列預(yù)測(cè)的新視角。在現(xiàn)有的時(shí)間序列預(yù)測(cè)方法中,模型以數(shù)值序列作為輸入,以產(chǎn)量數(shù)值作為輸出?,F(xiàn)有的SOTA模型主要基于Transformer體系結(jié)構(gòu),并使用多種編碼機(jī)制進(jìn)行了修改,以便將歷史數(shù)據(jù)周圍的上下文和語(yǔ)義結(jié)合起來。受預(yù)訓(xùn)練語(yǔ)言基礎(chǔ)模型成功的啟發(fā),我們提出了一個(gè)問題,即這些模型是否也可以適用于解決時(shí)間序列預(yù)測(cè)。
因此,我們提出了一種新的預(yù)測(cè)范式:基于提示的時(shí)間序列預(yù)測(cè)(PromptCast)。在這個(gè)新穎的任務(wù)中,數(shù)字輸入和輸出被轉(zhuǎn)換成提示,預(yù)測(cè)任務(wù)以句子對(duì)句子的方式框架,使得直接應(yīng)用語(yǔ)言模型進(jìn)行預(yù)測(cè)成為可能。為了支持和促進(jìn)這項(xiàng)任務(wù)的研究,我們還提出了一個(gè)大型數(shù)據(jù)集(PISA),其中包括三個(gè)現(xiàn)實(shí)世界的預(yù)測(cè)場(chǎng)景。我們?cè)u(píng)估了不同的基于數(shù)字的SOTA預(yù)測(cè)方法和語(yǔ)言生成模型。各種預(yù)測(cè)設(shè)置的基準(zhǔn)測(cè)試結(jié)果表明,基于語(yǔ)言生成模型的PromptCast是一個(gè)很有前途的研究方向。
此外,與傳統(tǒng)的基于數(shù)值的預(yù)測(cè)相比,PromptCast在零采樣設(shè)置下表現(xiàn)出更好的泛化能力。
二、Introduction
背景
時(shí)間序列預(yù)測(cè)是一個(gè)研究密集型的領(lǐng)域,特別是隨著各種深度學(xué)習(xí)框架的應(yīng)用越來越多,如基于LSTM、基于Temporal Convolutional Network (TCN)和Transformer的模型。最近,我們?cè)谧匀徽Z(yǔ)言處理(NLP)領(lǐng)域見證了大規(guī)模預(yù)訓(xùn)練模型的快速增長(zhǎng),然而,我們也注意到,大模型主要局限于NLP和CV領(lǐng)域。
提出問題:是否可以利用大規(guī)模預(yù)訓(xùn)練的基礎(chǔ)模型,并使這些模型適應(yīng)于預(yù)測(cè)時(shí)間序列。為了研究這個(gè)問題,在本文中,我們正式引入了一個(gè)新的任務(wù):基于提示的時(shí)間序列預(yù)測(cè)(PromptCast)。
概念框圖
現(xiàn)有的研究方法,包括最先進(jìn)的基于Transformer的預(yù)測(cè)模型可以簡(jiǎn)化為如圖1(a)所示,將時(shí)序數(shù)據(jù)(數(shù)值)輸入Transformer模型中通過編碼解碼獲得預(yù)測(cè)結(jié)果。
相反,本文提出的基于提示的預(yù)測(cè)(圖1 (b))的輸入和輸出是自然語(yǔ)言句子。這種范式的改變使得可以利用語(yǔ)言生成模型進(jìn)行預(yù)測(cè)。
貢獻(xiàn)
我們的貢獻(xiàn)有三個(gè)方面:
(1)我們提出了一種新的基于提示的預(yù)測(cè)范式,它不同于現(xiàn)有的預(yù)測(cè)方法。這是第一次以自然語(yǔ)言生成的方式解決一般時(shí)間序列預(yù)測(cè)問題。
(2)針對(duì)新引入的任務(wù),我們發(fā)布了一個(gè)包含311,932個(gè)數(shù)據(jù)實(shí)例的大規(guī)模數(shù)據(jù)集(PISA)。該數(shù)據(jù)集涵蓋了不同的時(shí)間序列預(yù)測(cè)場(chǎng)景。
(3)我們?cè)跀M議的PISA數(shù)據(jù)集上開發(fā)了一個(gè)基準(zhǔn)(我們的基準(zhǔn)數(shù)據(jù)和代碼可在https:// github.com/HaoUNSW/PISA獲得)。它評(píng)估了最先進(jìn)的基于數(shù)字的預(yù)測(cè)方法和流行的語(yǔ)言生成模型。
三、DATASET DESIGN AND DESCRIPTION
論文的關(guān)于數(shù)據(jù)集這一章主要包括:
(1)預(yù)處理以數(shù)字格式給出的原始數(shù)據(jù)(原始數(shù)據(jù)),用于預(yù)測(cè)任務(wù)設(shè)置(第III-A節(jié));
(2)將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為帶有提示的自然語(yǔ)言輸入/輸出格式(第III-B節(jié))。我們還描述了特征和統(tǒng)計(jì)數(shù)據(jù)(第III-C節(jié))
Data Sources and Processing
數(shù)據(jù)集來自不同領(lǐng)域的三個(gè)現(xiàn)實(shí)世界預(yù)測(cè)場(chǎng)景(PISA數(shù)據(jù)集的3個(gè)子集):天氣預(yù)報(bào)、能源消耗預(yù)測(cè)和人類流動(dòng)性預(yù)測(cè)。
City Temperature (CT):全球多個(gè)城市的日平均溫度(以華氏度為單位)。該數(shù)據(jù)集是隨機(jī)抽取的110個(gè)國(guó)際城市。
Electricity Consumption Load (ECL):原始數(shù)據(jù)包括321個(gè)用戶的用電量(千瓦時(shí))。我們排除了記錄不完整的用戶,并隨機(jī)選擇了50個(gè)數(shù)據(jù)完整的用戶作為整個(gè)集合,每個(gè)選定用戶的每小時(shí)使用值被合并為每日使用數(shù)據(jù)。
SafeGraph Human Mobility Data (SG): 記錄的每日訪問POI的訪客數(shù),隨機(jī)選擇了324個(gè)記錄完整的POI15個(gè)月的訪客數(shù)。
詳細(xì)數(shù)據(jù)介紹,以及訓(xùn)練集、驗(yàn)證集、測(cè)試集劃分(7:1:2)可以看下表
輸入序列長(zhǎng)度為15,輸出為1,(前15個(gè)數(shù)據(jù)預(yù)測(cè)后1個(gè)數(shù)據(jù))
為了區(qū)分用于數(shù)值方法的數(shù)值數(shù)據(jù)和用于語(yǔ)言模型的基于語(yǔ)言的數(shù)據(jù)集,由上述滑動(dòng)窗口處理的數(shù)值序列稱為PISA-numerical,而另一個(gè)稱為 PISA-prompt (參見下一小節(jié))。
Template-Based Prompting
使用基于模板的描述是實(shí)現(xiàn)數(shù)據(jù)到文本轉(zhuǎn)換的一種有效且高效的方法。在這項(xiàng)工作中,我們明確地為三個(gè)子集引入了三個(gè)模板,表1列出了模板和相應(yīng)的示例。
模板由兩個(gè)主要部分組成:
輸入提示符:包括歷史觀測(cè)的描述和預(yù)測(cè)目標(biāo)時(shí)間步長(zhǎng)的指標(biāo),可以分為上下文部分和問題部分。上下文提供了用于預(yù)測(cè)的歷史信息,問題部分可以看作是關(guān)于未來的輸入查詢。
輸出提示符:處理所需的預(yù)測(cè)值,輸出提示符是對(duì)問題作出響應(yīng)的基本事實(shí)答案(用作訓(xùn)練或評(píng)估的基礎(chǔ)真值標(biāo)簽)基于模板和處理過的數(shù)字序列,然后生成pisa提示符。
從官方代碼中查看數(shù)據(jù)集(以CT為例)
- 輸入:
From May 01, 2019, Wednesday to May 15, 2019, Wednesday, the average temperature of region 1 was 54, 58, 53, 59, 56, 58, 58, 63, 57, 63, 65, 53, 46, 48, 56 degree on each day. What is the temperature going to be on May 16, 2019, Thursday?
- 輸出:
The temperature will be 64 degree.
四、BENCHMARK
在本節(jié)中,我們將對(duì)提議的PromptCast任務(wù)進(jìn)行基準(zhǔn)測(cè)試研究和分析。通過對(duì)已建立的PISA數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),我們旨在解決以下兩個(gè)主要研究問題:
RQ1:我們可以使用語(yǔ)言生成模型來預(yù)測(cè)時(shí)間序列嗎?與傳統(tǒng)的基于數(shù)字的時(shí)間序列預(yù)測(cè)方法相比,我們的PromptCast的性能如何?
RQ2:使用提示預(yù)測(cè)時(shí)間序列以及使用語(yǔ)言生成模型是否可以獲得更好的泛化能力?
Evaluation Metrics
首先是將數(shù)據(jù)集數(shù)值變?yōu)槲谋荆◤纳傻木渥又刑崛☆A(yù)測(cè)的數(shù)值),引入缺失率作為一個(gè)評(píng)估指標(biāo),定義為
(
n
t
e
s
t
?
n
d
e
c
o
d
e
d
)
/
n
t
e
s
t
×
100
%
({n_{{\rm{test}}}} - {n_{{\rm{decoded}}}})/{n_{{\rm{test}}}} \times 100\%
(ntest??ndecoded?)/ntest?×100%其中
n
t
e
s
t
{n_{{\rm{test}}}}
ntest?和
n
d
e
c
o
d
e
d
{n_{{\rm{decoded}}}}
ndecoded?分別是測(cè)試集中實(shí)例的總數(shù),以及能夠成功解碼預(yù)測(cè)值的生成實(shí)例的數(shù)量。
在提取預(yù)測(cè)數(shù)值后,對(duì)PromptCast任務(wù)的評(píng)估將類似于傳統(tǒng)的基于數(shù)值的預(yù)測(cè)方法的評(píng)估。
指標(biāo):均方根誤差(RMSE)和平均絕對(duì)誤差(MAE)
Baselines
- 我們?cè)谖覀兊腜ISA數(shù)據(jù)集(即PISA-prompt)上測(cè)試了10個(gè)流行的自然語(yǔ)言生成模型的性能。這些語(yǔ)言模型是T5、Bart、BERT、RoBERTa、Electra、Bigbird、ProphetNet、LED、blendbot和Pegasus。
為了進(jìn)行比較(RQ1),還包括傳統(tǒng)數(shù)值范式預(yù)測(cè)方法在PISA-numerical上的表現(xiàn)。
- 我們考慮了3種樸素預(yù)測(cè)方法:Copy Yesterday(CY), Historical Average (HA), and Copy Last Week (CLW).
- 還考慮了3種基本的數(shù)值預(yù)測(cè)方法:AutoARIMA、LSTM和時(shí)間卷積網(wǎng)絡(luò)(TCN)。
- 還包括基于Transformer的預(yù)測(cè)方法,包括vanilla Transformer、最先進(jìn)的Informer、Autoformer和FEDformer。
Implementation Details
- 對(duì)于評(píng)估的數(shù)值預(yù)測(cè)方法
其實(shí)現(xiàn)基于官方的FEDformer4存儲(chǔ)庫(kù),該存儲(chǔ)庫(kù)還包括Transformer、Informer和Autoformer的實(shí)現(xiàn)。(這里筆者沒有詳細(xì)去看這些庫(kù)的使用,論文對(duì)于一些參數(shù)的說明就沒有列舉出來,有興趣的可以自己去看看) - 對(duì)于基準(zhǔn)測(cè)試中的語(yǔ)言模型
分為兩種:
1.第一類遵循EncoderDecoderModel框架: BERT, RoBERTa, Electra
2.第二類是HuggingFace中的ConditionalGeneration框架:其余7種模型
微調(diào)過程是基于HuggingFace提供的標(biāo)準(zhǔn)Trainer(應(yīng)用sequence-to-sequence訓(xùn)練器),沒有對(duì)損失函數(shù)進(jìn)行任何修改
我們想強(qiáng)調(diào)的是,語(yǔ)言模型和數(shù)值預(yù)測(cè)方法在我們的基準(zhǔn)中得到了平等和公平的對(duì)待和處理。PromptCast也沒有特定的超參數(shù)調(diào)優(yōu)。對(duì)于語(yǔ)言模型和數(shù)值模型,我們都使用官方實(shí)現(xiàn)提供/推薦的默認(rèn)設(shè)置。
Experimental Performance
-
Numerical-Based Methods:對(duì)于transformer中的temporal embeddings 本文充分研究和測(cè)試了三種不同的嵌入方法,即timeF、fixed和learned。結(jié)果如表三所示:
結(jié)果分析:
一般來說,F(xiàn)EDformer, Informer和Autoformer在不同的子集中達(dá)到最佳性能。在大多數(shù)情況下,這些先進(jìn)的時(shí)間序列預(yù)測(cè)框架優(yōu)于普通的Transformer、樸素的方法和非Transformer方法。
對(duì)于不同的嵌入,the fixed embedding 總體上表現(xiàn)出良好的性能。 -
Pre-trained Language Models:
使用HuggingFace提供的現(xiàn)成的預(yù)訓(xùn)練權(quán)值進(jìn)行初始化。配置細(xì)節(jié)如表6所示,根據(jù)表中給出的模型密鑰,可以從HuggingFace訪問和下載相應(yīng)的預(yù)訓(xùn)練模型。
原始的預(yù)訓(xùn)練模型不包括PISA數(shù)據(jù)集,這也防止了潛在的數(shù)據(jù)泄露。在實(shí)驗(yàn)中,每個(gè)語(yǔ)言模型都使用PISA中每個(gè)子集的訓(xùn)練集進(jìn)行微調(diào)。結(jié)果如表四所示:
結(jié)果分析:
Bigbird在6個(gè)指標(biāo)中的4個(gè)上表現(xiàn)最佳,聯(lián)合表三一起分析,可以看到使用語(yǔ)言模型在CT和ECL子集上的表現(xiàn)相當(dāng)好,對(duì)于ECL來說,雖然使用語(yǔ)言模型的MAE比表III中的最佳表現(xiàn)略差,但RMSE有相對(duì)較大的改進(jìn)。與數(shù)值方法相比,使用語(yǔ)言模型也能得到相當(dāng)?shù)慕Y(jié)果。 該基準(zhǔn)回答了RQ1,并表明基于提示的語(yǔ)言模型預(yù)測(cè)是時(shí)間序列預(yù)測(cè)研究的一個(gè)有前途的方向。
缺失率:
表五顯示了結(jié)果,只有三種方法(ProphetNet, Electra和BERT)有少量(小于0.5%)的缺失例子(表中沒有顯示的表示沒有缺失),研究發(fā)現(xiàn)失敗案例是相關(guān)的,并且可能是由負(fù)值引起的。 -
Performance of ChatGPT:
使用相同的PISA子集來評(píng)估GPT-3.5(未進(jìn)行微調(diào)),在評(píng)估過程中,我們使用來自PISA測(cè)試集的輸入提示作為查詢,并收集來自API的響應(yīng)。表8總結(jié)了GPT-3.5的最終性能。
結(jié)果分析:
GPT-3.5在所有三個(gè)子集中都顯示出更高的RMSE和MAE值。從表中,我們也可以清楚地注意到GPT3.5有很大的缺失率,特別是在SG子集上。
others
文章還做了很多實(shí)驗(yàn),包括Training From Scratch、Zero-shot Performance、Prompts Ablation Study等,這里筆者暫時(shí)沒有細(xì)讀,大家有興趣可以自己去讀一讀。
五、 DISCUSSION AND CONCLUSION
本文介紹了一個(gè)新的任務(wù)PromptCast,它利用語(yǔ)言模型以語(yǔ)言生成的方式來預(yù)測(cè)時(shí)間序列。由于這是關(guān)于PromptCast任務(wù)的第一個(gè)工作,并且沒有現(xiàn)有的數(shù)據(jù)集適合,因此我們構(gòu)建了第一個(gè)數(shù)據(jù)集PISA來研究基于提示的預(yù)測(cè)。
這個(gè)大規(guī)模的數(shù)據(jù)集包含三個(gè)真實(shí)世界的時(shí)間序列預(yù)測(cè)場(chǎng)景。為了進(jìn)一步推進(jìn)PromptCast的研究,我們還在發(fā)布的數(shù)據(jù)集上建立了一個(gè)基準(zhǔn),并提供了一套強(qiáng)大的基線,包括最先進(jìn)的數(shù)值預(yù)測(cè)方法和語(yǔ)言生成模型。實(shí)驗(yàn)結(jié)果表明,在PromptCast設(shè)置中使用語(yǔ)言模型具有良好的預(yù)測(cè)性能和泛化能力。文章來源:http://www.zghlxwxcb.cn/news/detail-858093.html
同時(shí)討論了未來研究的一些潛在方向。
(1)自動(dòng)提示:本文通過模板實(shí)現(xiàn)數(shù)值數(shù)據(jù)到文本的轉(zhuǎn)換。盡管基于模板的提示是有效的,但是很難產(chǎn)生不同的提示,并且固定的模板可能會(huì)引入偏差(對(duì)某些模板的偏差)。開發(fā)自動(dòng)時(shí)間序列提示或時(shí)間序列字幕(類似于圖像字幕),它利用生成模型來描述時(shí)間序列數(shù)據(jù)。
(2)可解釋性:研究為什么為語(yǔ)言建模任務(wù)設(shè)計(jì)的模型能夠預(yù)測(cè)時(shí)間序列。文章來源地址http://www.zghlxwxcb.cn/news/detail-858093.html
到了這里,關(guān)于論文筆記 | PromptCast: A New Prompt-based Learning Paradigm for Time Series Forecasting的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!