?夕小瑤科技說 原創(chuàng)
?作者 | 付奶茶
大家之前是否想象過未來的技術(shù)進步會帶來讀腦器,計算界面是否有可能越過觸摸屏、鍵盤進入我們思維內(nèi)部讀取我們腦袋中所想。盡管當(dāng)前我們社會尚未達到這一階段,但我們確實逐漸接近這一愿景!
不久前,Meta AI宣布了一項名為Image Decoder的深度學(xué)習(xí)應(yīng)用,由FAIR-Paris與巴黎文理大學(xué)(PSL)巴黎高師(ENS)合作完成。該研究實現(xiàn)了一個重要的里程碑,即可以將人類大腦活動幾乎實時地轉(zhuǎn)化為高精度圖像,展示觀察者的視覺或思維內(nèi)容。這一系統(tǒng)由圖像編碼器、大腦編碼器、圖像編碼器組成,在Meta在4月份發(fā)布的自監(jiān)督學(xué)習(xí)模型DINOv2[1]上訓(xùn)練,利用腦電信號(Magnetoencephalography, MEG)對人腦活動進行解碼和可視化。
這項工作是Meta長期研究計劃的一部分,其最終目標(biāo)是構(gòu)建一個完全模擬人類學(xué)習(xí)和推理能力的AI系統(tǒng)。接下來讓我們看看他們究竟是怎樣做的吧!
論文題目:
《Brain decoding: Toward real-time reconstruction of visual perception》
論文鏈接:
https://ai.meta.com/static-resource/image-decoding
文章速覽
在這里我們首先先介紹一下腦磁圖(Magnetoencephalography,MEG)是什么~腦磁圖被廣泛用于腦功能檢測技術(shù),是對腦內(nèi)神經(jīng)電流發(fā)出的極其微弱的生物磁場信號的直接測量,并記錄整個大腦的瞬態(tài)數(shù)據(jù)。通過計算機綜合影象信息處理,將獲得的信號轉(zhuǎn)換成腦磁曲線圖,等磁線圖等。
Image Decoder將機器學(xué)習(xí)和腦磁圖(MEG)結(jié)合在一起。首先,分析標(biāo)記過的數(shù)據(jù),然后對新數(shù)據(jù)進行檢查并盡量正確地標(biāo)記。然后利用腦磁圖在頭部外側(cè)測量記錄大腦活動,使用儀器捕捉人類在思考時大腦磁場的微小變化。這樣的做法可以在檢索階段從一組候選的圖像中選擇正確的圖像,然后通過訓(xùn)練直接預(yù)測潛在的表示用來調(diào)整生成圖像模型。
▲MEG記錄連續(xù)地與圖像的深度表示對齊,然后可以在每個瞬間調(diào)節(jié)圖像的生成。
大腦編碼器
作者ConvNet架構(gòu)進行了調(diào)整,標(biāo)記為fθ,以學(xué)習(xí)從MEG窗口Xi?∈ RC×T到潛在圖像表示zi?∈ R?F的投影,針對每個輸入進行單一潛在值的回歸,并添加了一個時間聚合層和兩個MLP頭部1,用于從F′投影到目標(biāo)潛在維度F。
圖像編碼器
圖像編碼器學(xué)習(xí)將 MEG 信號與這些構(gòu)建出來的圖像進行嵌入對齊。作者使用卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)去提取特征,在此基礎(chǔ)之上,添加了時序聚合層,以減少維度,節(jié)約計算開銷。
生成解碼器
作者從預(yù)訓(xùn)練的嵌入圖像中生成圖像,使用了基于三個嵌入條件的潛擴散模型:CLIP-Vision(257 tokens × 768), CLIP-Text(77 tokens × 768)和變分自編碼器潛AutoKL(4 × 64 × 64),集合這些以及大腦表征生成可信的圖像。
訓(xùn)練目標(biāo)
作者提出的pipeline有多個部分,因此采用多目標(biāo)優(yōu)化策略,并在圖像檢索中采用CLIP Loss。
為了評估生成圖像的質(zhì)量,使用MSE Loss:
最后采用凸組合方方式結(jié)合CLIP和MSE進行訓(xùn)練:
實驗分析
數(shù)據(jù)集
作者選擇在THINGS-MEG數(shù)據(jù)集上測試方法的有效性,對四位參與者包括兩名女性和兩名男性,平均年齡23歲)產(chǎn)生的63,000個歷史MEG數(shù)據(jù)進行訓(xùn)練。這些數(shù)據(jù)來源自患者觀看來自12次對話中記錄的22,448張不同的圖片以及原始圖庫中200張重復(fù)的圖片。以這種方式,研究員通過圖像解碼器可以觀察被試者的腦活動看到他們正在想象的內(nèi)容。
▲THINGS-MEG1
機器學(xué)習(xí)是大腦表征的有效模型
作者采用線性嶺回歸模型(Linear Ridge regression models)來驗證檢索圖像的性能。在實驗結(jié)果中,所有圖像的解碼效果都明顯高于隨機猜測的檢索性能,在監(jiān)督學(xué)習(xí)和文本/圖像對齊模型(如VGG和CLIP)產(chǎn)生了最高的檢索分數(shù)。
機器學(xué)習(xí)是擬合大腦反應(yīng)過程的有效工具
作者將這些線性基線與相同任務(wù)上訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)進行比較,即在給定MEG窗口的情況下檢索匹配的圖像。使用深度模型相對于線性基線實現(xiàn)了7倍的改進。多種類型的圖像嵌入產(chǎn)生良好的檢索性能,其中VGG-19(監(jiān)督學(xué)習(xí))、CLIP-Vision(文本/圖像對齊)和DINOv2(自監(jiān)督學(xué)習(xí))的前5準(zhǔn)確率分別為70.33 ± 2.80%,68.66 ± 2.84%和68.00 ± 2.86%。
時序級圖像檢索
作者嘗試了時間分辨的圖像檢索實驗,嘗試擬合大腦中是處理和識別圖像的過程。首先對時間進行了切割(250毫秒長的滑動窗口),每次只看大腦處理圖像的一小段時間。擬合大腦研究每一幀的視頻。在圖像未呈現(xiàn)之前,所有的模型表現(xiàn)都很差,就像是隨機猜測一樣。首次明顯的峰值可以在0到250毫秒的窗口上觀察到,隨后在圖像結(jié)束后出現(xiàn)第二個峰值,在圖像消失后,它們的性能又迅速恢復(fù)到了隨機猜測的水平。而論文中指出,DINOv2在圖像消失后表現(xiàn)仍然表現(xiàn)出了特別好的檢索性能。
為了更好理解解碼指標(biāo),作者構(gòu)建了一個由原有測試集與3659張參與者未見過的額外圖像合并而成的附加集,結(jié)果上來看,檢索到的圖像往往來自正確的類別,比如“演講者(Speaker)”或“西蘭花(brocoli)”,主要出現(xiàn)在前幾個子窗口(t≤1秒)。
從MEG信號中生成圖像
雖然檢索任務(wù)展現(xiàn)了令人鼓舞的效果,但是他要求真實的樣本必須存在于檢索集中,這限制了實踐中使用的可能性。為了緩解這樣的限制,作者訓(xùn)練了三個不同的腦模塊,用于預(yù)測使用的三個嵌入來生成圖像(圖5)。
生成的圖像從評估結(jié)果中看相對不錯,其中多個生成的圖像與正確的實際類別相匹配。但是,生成的圖像似乎包含有關(guān)真實圖像的低級視覺信息 雖在最佳的情況下,系統(tǒng)根據(jù)MEG數(shù)據(jù)準(zhǔn)確地檢索、重建圖像的準(zhǔn)確率達到了70%,這比過去的方法提高了7倍數(shù)。從結(jié)果中可以看出,圖像解碼器雖然可以順利地從潛在圖像庫中獲取一些簡單的圖片,例如西蘭花、毛毛蟲等,但是對于更加復(fù)雜多樣化的圖像比如塔克斯、鱷梨醬料等成功率較低。
背后的倫理
然而,這種技術(shù)真的符合倫理標(biāo)準(zhǔn)嗎?
研究者們也意識到,這項技術(shù)突破的確帶來了多個倫理問題。因為深入探查一個人的思維并將其可視化,是一種未被明確定義的新型侵入方式,這涉及到人類心理隱私的保護。
作者在這項技術(shù)在倫理隱私上的問題沒能給出明確的回復(fù),但是提到目前技術(shù)在處理一個人所看到過的具體物體和現(xiàn)實圖像時表現(xiàn)最出色。而當(dāng)個體被要求想象一幅未曾見過的圖像時,解碼器的準(zhǔn)確性就會顯著降低。簡而言之,獲得受試者的同意不僅是法律上的要求,更是腦解碼技術(shù)實現(xiàn)的基本前提。
此外,作者稱如果一個人的腦活動圖像是在未經(jīng)同意的情況下被解碼,那么他們可以采用抗干擾來抵抗這種情況,但是,這的的確地需要具備足夠的意識和反應(yīng)速度來反應(yīng)他們正在處于這樣的情況。文章來源:http://www.zghlxwxcb.cn/news/detail-721899.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-721899.html
到了這里,關(guān)于“我有一個大膽的想法”?Meta AI 新技術(shù)讓你的思維圖像一覽無余!的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!