Representation Learning with Contrastive Predictive Coding
摘要
-
這段文字是論文的摘要,作者討論了監(jiān)督學(xué)習(xí)在許多應(yīng)用中取得的巨大進(jìn)展,然而無監(jiān)督學(xué)習(xí)并沒有得到如此廣泛的應(yīng)用,仍然是人工智能中一個(gè)重要且具有挑戰(zhàn)性的任務(wù)。在這項(xiàng)工作中,作者提出了一種通用的無監(jiān)督學(xué)習(xí)方法,用于從高維數(shù)據(jù)中提取有用的表示,被稱為“對(duì)比預(yù)測(cè)編碼”(Contrastive Predictive Coding)。
-
該模型的關(guān)鍵思想是通過使用強(qiáng)大的自回歸模型在潛在空間中預(yù)測(cè)未來,從而學(xué)習(xí)這些表示。作者使用了一種概率對(duì)比損失,通過負(fù)采樣使?jié)撛诳臻g捕獲對(duì)預(yù)測(cè)未來樣本最有用的信息。而大多數(shù)先前的工作都集中在評(píng)估特定模態(tài)的表示上,作者展示了他們的方法能夠?qū)W習(xí)到在四個(gè)不同領(lǐng)域取得強(qiáng)大性能的有用表示,包括語音、圖像、文本以及在3D環(huán)境中的強(qiáng)化學(xué)習(xí)。
Introduction
-
這段文字的主要思想是,通過使用分層可微模型,我們可以在一個(gè)端到端的框架中從標(biāo)記數(shù)據(jù)中學(xué)習(xí)到高級(jí)別的表示,而無需手動(dòng)指定特征。這種方法在現(xiàn)實(shí)世界的多個(gè)應(yīng)用中取得了顯著的進(jìn)展,但仍然面臨一些挑戰(zhàn),例如數(shù)據(jù)效率、魯棒性和泛化能力等方面的問題。這表明盡管已經(jīng)取得了成功,但在人工智能領(lǐng)域仍然需要進(jìn)一步的研究和創(chuàng)新,以克服這些挑戰(zhàn)并推動(dòng)領(lǐng)域的發(fā)展
-
為了更好地適應(yīng)各種任務(wù),表示學(xué)習(xí)需要通過無監(jiān)督學(xué)習(xí)獲得一些不那么專門化的特征。這可以提高表示的泛化能力,使其在不同領(lǐng)域和任務(wù)中都能表現(xiàn)良好。通過無監(jiān)督學(xué)習(xí),模型可以更好地捕捉數(shù)據(jù)中的共性和潛在結(jié)構(gòu),從而產(chǎn)生更具通用性的特征表示。這對(duì)于構(gòu)建更魯棒和通用的人工智能系統(tǒng)至關(guān)重要
-
這段文字強(qiáng)調(diào)了盡管無監(jiān)督學(xué)習(xí)的重要性,但迄今為止尚未出現(xiàn)類似于監(jiān)督學(xué)習(xí)的突破:從原始觀測(cè)中建模高層次表示仍然是困難的。此外,什么是理想的表示形式并不總是明確的,以及是否可能在沒有額外監(jiān)督或?qū)iT針對(duì)特定數(shù)據(jù)模態(tài)的情況下學(xué)習(xí)這樣的表示形式也是不確定的。
-
盡管監(jiān)督學(xué)習(xí)取得了顯著的進(jìn)展,但無監(jiān)督學(xué)習(xí)在建模高層次表示方面仍然面臨挑戰(zhàn)。從原始觀測(cè)中學(xué)習(xí)到有意義且可傳遞的表示形式是一個(gè)復(fù)雜的問題,且尚未實(shí)現(xiàn)類似于監(jiān)督學(xué)習(xí)領(lǐng)域的顯著突破。此外,關(guān)于理想的表示形式是什么的問題也沒有清晰的答案,以及是否可能在沒有額外監(jiān)督或?qū)iT化到特定數(shù)據(jù)模態(tài)的情況下學(xué)習(xí)這樣的表示形式仍然是未解之謎。
-
這段文字介紹了一種常見的無監(jiān)督學(xué)習(xí)策略,即預(yù)測(cè)未來、缺失或上下文信息。這種預(yù)測(cè)編碼的思想[5, 6]是信號(hào)處理中用于數(shù)據(jù)壓縮的最古老的技術(shù)之一。在神經(jīng)科學(xué)中,預(yù)測(cè)編碼理論表明大腦在各個(gè)抽象層次上預(yù)測(cè)觀察結(jié)果[7, 8]。最近的無監(jiān)督學(xué)習(xí)工作成功地利用了這些思想,通過預(yù)測(cè)相鄰單詞來學(xué)習(xí)單詞表示[9]。對(duì)于圖像,預(yù)測(cè)從灰度圖像中的顏色或圖像塊的相對(duì)位置也被證明是有用的[10, 11]。作者提出的假設(shè)是,這些方法在一定程度上是成功的,部分原因是我們預(yù)測(cè)相關(guān)值的上下文往往在條件上依賴于相同的共享高級(jí)潛在信息。通過將這視為一個(gè)預(yù)測(cè)問題,我們自動(dòng)地推斷出這些特征對(duì)于表示學(xué)習(xí)是感興趣的。
-
在這篇論文中,我們提出了以下方法:首先,我們將高維數(shù)據(jù)壓縮成一個(gè)更緊湊的潛在嵌入空間,這樣條件預(yù)測(cè)就更容易建模。其次,我們?cè)谶@個(gè)潛在空間中使用強(qiáng)大的自回歸模型,以預(yù)測(cè)未來多個(gè)時(shí)間步。最后,我們依賴于噪聲對(duì)比估計(jì)[12]作為損失函數(shù),類似于在自然語言模型中學(xué)習(xí)單詞嵌入所使用的方式,使整個(gè)模型可以端到端地進(jìn)行訓(xùn)練。我們將得到的模型 Contrastive Predictive Coding (CPC) 應(yīng)用于廣泛不同的數(shù)據(jù)模態(tài),包括圖像、語音、自然語言和強(qiáng)化學(xué)習(xí),并展示了相同的機(jī)制在每個(gè)領(lǐng)域?qū)W到了有趣的高層信息,勝過了其他方法
2 Contrastive Predicting Coding
- 首先通過提出動(dòng)機(jī)和解釋方法的直覺來引導(dǎo)讀者。接下來,介紹了 Contrastive Predictive Coding (CPC) 的架構(gòu)。之后,解釋了基于噪聲對(duì)比估計(jì)的損失函數(shù)。最后,對(duì)與 CPC 相關(guān)的研究進(jìn)行了討論。
2.1 Motivation and Intuitions
- 這段文字解釋了論文模型背后的主要直覺。該模型的主要目的是學(xué)習(xí)表示,這些表示編碼了(高維)信號(hào)不同部分之間的共享信息。同時(shí),它舍棄了更本地的低級(jí)信息和噪聲。在時(shí)間序列和高維建模中,利用下一步預(yù)測(cè)的方法可以利用信號(hào)的局部平滑性。然而,當(dāng)預(yù)測(cè)更遠(yuǎn)的未來時(shí),共享信息的量變得更低,模型需要推斷更全局的結(jié)構(gòu)。這些跨足多個(gè)時(shí)間步的“慢特征”[13]通常更加有趣(例如語音中的音素和語調(diào),圖像中的對(duì)象,或書籍中的故事線)。
簡而言之,該模型的直覺是通過學(xué)習(xí)對(duì)信號(hào)不同部分之間的共享信息進(jìn)行編碼,從而捕獲信號(hào)中的高級(jí)、全局結(jié)構(gòu)。這使得模型能夠在處理時(shí)間序列和高維信號(hào)時(shí)更好地理解慢變化的特征,從而提高其對(duì)復(fù)雜數(shù)據(jù)的表達(dá)能力
- 這段文字探討了在預(yù)測(cè)高維數(shù)據(jù)時(shí)面臨的挑戰(zhàn)之一。作者指出,對(duì)于高維數(shù)據(jù),像均方誤差和交叉熵這樣的單模損失并不是很有用。通常需要強(qiáng)大的條件生成模型來重構(gòu)數(shù)據(jù)中的每一個(gè)細(xì)節(jié)。然而,這些模型在計(jì)算上很昂貴,并且浪費(fèi)計(jì)算能力來建模數(shù)據(jù) x 中的復(fù)雜關(guān)系,通常忽略上下文 c。例如,圖像可能包含數(shù)千位的信息,而高級(jí)潛在變量(例如類別標(biāo)簽)包含的信息要少得多(對(duì)于 1,024 個(gè)類別只有 10 位信息)。這表明直接建模 p(x|c) 可能不是在提取 x 和 c 之間的共享信息方面最優(yōu)的方法。在預(yù)測(cè)未來信息時(shí),作者相反地將目標(biāo) x(未來)和上下文 c(現(xiàn)在)編碼成緊湊的分布式向量表示(通過非線性學(xué)習(xí)映射),以最大程度地保留原始信號(hào) x 和 c 之間的互信息,定義為
2.2 Contrastive Predictive Coding
-
非線性編碼器 (Non-linear Encoder - genc): 首先,一個(gè)非線性編碼器 genc 將輸入序列的觀測(cè) xt 映射到潛在表示序列 zt = genc(xt)。這里的潛在表示可能具有較低的時(shí)間分辨率。
-
自回歸模型 (Autoregressive Model - gar): 接下來,一個(gè)自回歸模型 gar 對(duì)潛在表示序列 z≤t 進(jìn)行總結(jié),并生成上下文潛在表示 ct = gar(z≤t)。這個(gè)上下文表示將包含關(guān)于序列過去的信息,為模型提供了一種處理時(shí)間動(dòng)態(tài)的方式
-
自回歸模型 (Autoregressive Model - gar): 接下來,一個(gè)自回歸模型 gar 對(duì)潛在表示序列 z≤t 進(jìn)行總結(jié),并生成上下文潛在表示 ct = gar(z≤t)。這個(gè)上下文表示將包含關(guān)于序列過去的信息,為模型提供了一種處理時(shí)間動(dòng)態(tài)的方式
-
這段文字表明,與其直接使用生成模型 pk(xt+k|ct) 預(yù)測(cè)未來觀測(cè) xt+k,作者選擇建模一個(gè)密度比率,該密度比率保留了 xt+k 和 ct 之間的互信息(參見方程1)。具體細(xì)節(jié)將在接下來的子節(jié)中進(jìn)一步討論。
-
這個(gè)選擇的思路是通過建模密度比率來間接地捕捉 xt+k 和 ct 之間的關(guān)系,而不是直接對(duì)未來觀測(cè)進(jìn)行生成性建模。密度比率的建??赡苡兄诟行У貙W(xué)習(xí)共享信息,以及在無監(jiān)督學(xué)習(xí)任務(wù)中更好地推斷序列的結(jié)構(gòu)。接下來的子節(jié)可能會(huì)提供關(guān)于如何計(jì)算密度比率以及為什么這是一種有效的方法的更多詳細(xì)信息
-
通過引入密度比率并且使用編碼器推斷潛在表示,避免模型對(duì)高維數(shù)據(jù)分布直接進(jìn)行建模的問題。這樣的方法可以使得模型利用采樣技術(shù)
-
這段文字說明在提出的模型中,zt 和 ct 中的任何一個(gè)都可以用作下游任務(wù)的表示。如果來自過去的額外上下文有用,可以使用自回歸模型輸出 ct。一個(gè)例子是語音識(shí)別,其中 zt 的感受野可能不包含足夠的信息來捕捉語音內(nèi)容。在其他情況下,如果不需要額外的上下文,可能使用 zt 會(huì)更好。如果下游任務(wù)需要整個(gè)序列的一個(gè)表示,例如圖像分類,可以在所有位置上對(duì) zt 或 ct 的表示進(jìn)行池化。
-
最后,注意在提出的框架中可以使用任何類型的編碼器和自回歸模型。為了簡化,作者選擇了標(biāo)準(zhǔn)的架構(gòu),例如用于編碼器的帶有 ResNet 塊的步幅卷積層,以及用于自回歸模型的 GRUs [17]。更近期的自回歸建模進(jìn)展,如帶有掩碼卷積結(jié)構(gòu)的架構(gòu)[18, 19]或自注意力網(wǎng)絡(luò)[20],可能有助于進(jìn)一步提高結(jié)果。這強(qiáng)調(diào)了該框架的靈活性,可以根據(jù)任務(wù)需求選擇適當(dāng)?shù)木幋a器和自回歸模型結(jié)構(gòu)。
2.3 InfoNCE Loss and Mutual Information Estimation
-
編碼器和自回歸模型都經(jīng)過聯(lián)合訓(xùn)練,以最大程度地優(yōu)化基于噪聲對(duì)比估計(jì)(NCE)的損失,我們將其稱為 InfoNCE。給定一個(gè)包含來自 p(xt+k|ct) 的一個(gè)正樣本和 N-1 個(gè)來自“提議”分布 p(xt+k) 的負(fù)樣本的 N 個(gè)隨機(jī)樣本的集合 X = {x1, . . . xN},我們進(jìn)行優(yōu)化:
-
在這個(gè)優(yōu)化過程中,目標(biāo)是最大化正樣本的概率,同時(shí)最小化負(fù)樣本的概率。這種訓(xùn)練方法基于噪聲對(duì)比估計(jì)的理念,通過引入負(fù)樣本,模型被迫學(xué)習(xí)區(qū)分正樣本和負(fù)樣本,從而更好地捕捉數(shù)據(jù)中的結(jié)構(gòu)和共享信息
-
Equation 4中的損失是分類正樣本的交叉熵,其中 fk_p_X 是模型的預(yù)測(cè)。讓我們將這個(gè)損失的最優(yōu)概率表示為 p(d = i|X, ct),其中 [d = i] 是指示符,表示樣本 xi 是“正樣本”。樣本 xi 是從條件分布 p(xt+k|ct) 而不是提議分布 p(xt+k) 中抽取的概率可以推導(dǎo)如下:
2.4 Related Work
-
CPC(Contrastive Predictive Coding)是一種新的方法,它將預(yù)測(cè)未來觀測(cè)(預(yù)測(cè)編碼)與概率對(duì)比損失(Equation 4)結(jié)合起來。這使得我們能夠提取慢特征,即在長時(shí)間范圍內(nèi)最大化觀測(cè)之間的互信息。對(duì)比損失和預(yù)測(cè)編碼以前分別以不同的方式被使用,我們現(xiàn)在將討論它們的用途。
-
預(yù)測(cè)編碼 (Predictive Coding): 預(yù)測(cè)編碼是一種思想,它建議通過預(yù)測(cè)輸入數(shù)據(jù)的未來狀態(tài)來學(xué)習(xí)有關(guān)數(shù)據(jù)的表示。這種方法基于對(duì)觀測(cè)數(shù)據(jù)的未來狀態(tài)進(jìn)行建模,從而使模型能夠捕捉數(shù)據(jù)中的關(guān)系和結(jié)構(gòu)。在 CPC 中,預(yù)測(cè)編碼的思想被應(yīng)用于學(xué)習(xí)有用的表示。
-
概率對(duì)比損失 (Probabilistic Contrastive Loss): 概率對(duì)比損失是一種損失函數(shù),用于訓(xùn)練模型以區(qū)分正樣本和負(fù)樣本。在 CPC 中,作者使用概率對(duì)比損失來優(yōu)化模型,以使模型更好地理解觀測(cè)數(shù)據(jù)中的共享信息。
-
將這兩種思想結(jié)合在一起,CPC 通過預(yù)測(cè)編碼的方式學(xué)習(xí)潛在表示,并通過概率對(duì)比損失進(jìn)行優(yōu)化,從而使模型能夠在長時(shí)間范圍內(nèi)捕捉數(shù)據(jù)的慢特征。這種方法的結(jié)合提供了一種有效的方式來學(xué)習(xí)有用的表示,尤其是在無監(jiān)督學(xué)習(xí)任務(wù)中。
-
對(duì)比損失函數(shù)在過去被許多作者廣泛使用。例如,[21, 22, 23] 提出的技術(shù)是基于三元損失,采用最大間隔方法來區(qū)分正例和負(fù)例。更近期的工作包括 Time Contrastive Networks [24],該方法提出最小化同一場(chǎng)景多個(gè)視點(diǎn)的嵌入之間的距離,同時(shí)最大化從不同時(shí)間步提取的嵌入之間的距離。在 Time Contrastive Learning [25] 中,對(duì)比損失用于預(yù)測(cè)多變量時(shí)間序列的段標(biāo)識(shí)作為提取特征和執(zhí)行非線性 ICA 的一種方式。文章來源:http://www.zghlxwxcb.cn/news/detail-823448.html
-
這些先前的工作表明,對(duì)比損失函數(shù)是一種強(qiáng)大的方法,用于學(xué)習(xí)數(shù)據(jù)中的表示并區(qū)分正例和負(fù)例。不同的對(duì)比損失函數(shù)可以在不同的任務(wù)和數(shù)據(jù)領(lǐng)域中發(fā)揮作用,這也突顯了其靈活性和通用性。在 CPC 中,對(duì)比損失被用于預(yù)測(cè)未來觀測(cè),以最大化共享信息的提取,從而使模型更好地理解數(shù)據(jù)中的結(jié)構(gòu)文章來源地址http://www.zghlxwxcb.cn/news/detail-823448.html
4 Conclusion
- 在這篇論文中,我們介紹了Contrastive Predictive Coding(CPC),這是一個(gè)用于提取緊湊潛在表示以編碼對(duì)未來觀測(cè)的預(yù)測(cè)的框架。CPC結(jié)合了自回歸建模和噪聲對(duì)比估計(jì),結(jié)合了預(yù)測(cè)編碼的直覺,以無監(jiān)督的方式學(xué)習(xí)抽象表示。我們?cè)诙鄠€(gè)領(lǐng)域進(jìn)行了這些表示的測(cè)試:音頻、圖像、自然語言和強(qiáng)化學(xué)習(xí),并在作為獨(dú)立特征使用時(shí)取得了強(qiáng)大或最新技術(shù)水平的性能。訓(xùn)練模型的簡單性和低計(jì)算需求,以及在與主要損失結(jié)合使用時(shí)在具有挑戰(zhàn)性的強(qiáng)化學(xué)習(xí)領(lǐng)域取得的令人鼓舞的結(jié)果,都是朝著通用適用于更多數(shù)據(jù)模態(tài)的有用無監(jiān)督學(xué)習(xí)的發(fā)展的積極進(jìn)展。
到了這里,關(guān)于【論文閱讀筆記】 Representation Learning with Contrastive Predictive Coding的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!