CV?-?計(jì)算機(jī)視覺?|??ML - 機(jī)器學(xué)習(xí)?|??RL -?強(qiáng)化學(xué)習(xí)?| NLP 自然語言處理??
Subjects:?cs.CV
1.ImageBind: Holistic AI learning across six modalities
標(biāo)題:ImageBind:跨六種模式的整體人工智能學(xué)習(xí)
作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho
文章鏈接:https://dl.fbaipublicfiles.com/imagebind/imagebind_final.pdf
項(xiàng)目代碼:https://github.com/facebookresearch/ImageBind
摘要:
????????當(dāng)人類從世界吸收信息時(shí),我們天生會使用多種感官,例如看到繁忙的街道和聽到汽車引擎的聲音。今天,我們推出了一種方法,使機(jī)器更接近人類同時(shí)、整體和直接從許多不同形式的信息中學(xué)習(xí)的能力——不需要明確的監(jiān)督(組織和標(biāo)記原始數(shù)據(jù)的過程)。我們已經(jīng)構(gòu)建并正在開源 ImageBind,這是第一個(gè)能夠綁定來自六種模式的信息的人工智能模型。該模型學(xué)習(xí)單個(gè)嵌入或共享表示空間,不僅適用于文本、圖像/視頻和音頻,還適用于記錄深度 (3D)、熱(紅外輻射)和慣性測量單元 (IMU) 的傳感器,這計(jì)算運(yùn)動和位置。ImageBind 使機(jī)器具備全面的理解力,將照片中的對象與它們的聲音、3D 形狀、它們的冷暖程度以及它們的移動方式聯(lián)系起來。如我們的論文所述,ImageBind 可以勝過針對一種特定模態(tài)單獨(dú)訓(xùn)練的先前專家模型。但最重要的是,它通過使機(jī)器能夠更好地分析多種不同形式的信息來幫助推進(jìn)人工智能。例如,使用 ImageBind,Meta 的 Make-A-Scene 可以從音頻創(chuàng)建圖像,例如根據(jù)雨林或熙熙攘攘的市場的聲音創(chuàng)建圖像。其他未來的可能性包括以更準(zhǔn)確的方式識別、連接和調(diào)節(jié)內(nèi)容,以及促進(jìn)創(chuàng)意設(shè)計(jì),例如更無縫地生成更豐富的媒體和創(chuàng)建更廣泛的多模式搜索功能。ImageBind 是 Meta 致力于創(chuàng)建多模態(tài) AI 系統(tǒng)的一部分,該系統(tǒng)可以從周圍所有可能類型的數(shù)據(jù)中學(xué)習(xí)。隨著模態(tài)數(shù)量的增加,ImageBind 為研究人員打開了嘗試開發(fā)新的整體系統(tǒng)的閘門,例如結(jié)合 3D 和 IMU 傳感器來設(shè)計(jì)或體驗(yàn)身臨其境的虛擬世界。ImageBind 還可以提供一種探索記憶的豐富方式——使用文本、音頻和圖像的組合來搜索圖片、視頻、音頻文件或文本消息。
2.HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
標(biāo)題:HumanRF:運(yùn)動中人體的高保真神經(jīng)輻射場
作者:Mustafa I??k, Martin Rünz, Markos Georgopoulos, Taras Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nie?ner
文章鏈接:https://arxiv.org/abs/2305.06356
項(xiàng)目代碼:https://synthesiaresearch.github.io/humanrf/
摘要:
????????以高保真度表現(xiàn)人類表現(xiàn)是電影制作、電腦游戲或視頻會議等各種應(yīng)用的重要組成部分。為了縮小與生產(chǎn)級質(zhì)量的差距,我們引入了 HumanRF,這是一種 4D 動態(tài)神經(jīng)場景表示,可從多視圖視頻輸入中捕捉運(yùn)動中的全身外觀,并能夠從新穎的、看不見的視點(diǎn)進(jìn)行回放。我們的新穎表示充當(dāng)動態(tài)視頻編碼,通過將時(shí)空分解為時(shí)間矩陣向量分解來以高壓縮率捕獲精細(xì)細(xì)節(jié)。這使我們能夠?yàn)殚L序列獲得人類演員的時(shí)間相干重建,同時(shí)即使在具有挑戰(zhàn)性的運(yùn)動的背景下也能呈現(xiàn)高分辨率細(xì)節(jié)。雖然大多數(shù)研究都集中在 4MP 或更低分辨率的合成上,但我們解決了在 12MP 下運(yùn)行的挑戰(zhàn)。為此,我們介紹了 ActorsHQ,這是一種新穎的多視圖數(shù)據(jù)集,它提供來自 160 個(gè)攝像機(jī)的 12MP 鏡頭,用于 16 個(gè)序列,具有高保真度、每幀網(wǎng)格重建。我們展示了使用此類高分辨率數(shù)據(jù)所帶來的挑戰(zhàn),并表明我們新推出的 HumanRF 有效地利用了這些數(shù)據(jù),朝著生產(chǎn)級質(zhì)量的新穎視圖合成邁出了重要一步。
3.FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance
標(biāo)題:FrugalGPT:如何在降低成本和提高性能的同時(shí)使用大型語言模型
作者:Lingjiao Chen, Matei Zaharia, James Zou
文章鏈接:https://arxiv.org/abs/2305.05176
摘要:
? ? ? ? 用戶可以付費(fèi)查詢的大型語言模型 (LLM) 數(shù)量迅速增加。我們審查了與查詢流行的 LLM API 相關(guān)的成本,例如GPT-4、ChatGPT、J1-Jumbo,并發(fā)現(xiàn)這些模型具有異構(gòu)的定價(jià)結(jié)構(gòu),費(fèi)用可能相差兩個(gè)數(shù)量級。特別是,在大量查詢和文本上使用 LLM 可能會很昂貴。受此啟發(fā),我們概述并討論了三種類型的策略,用戶可以利用這些策略來降低與使用 LLM 相關(guān)的推理成本:1) 提示適應(yīng),2) LLM 近似,以及 3) LLM 級聯(lián)。例如,我們提出了 FrugalGPT,這是一種簡單而靈活的 LLM 級聯(lián)實(shí)例,它學(xué)習(xí)將哪些 LLM 組合用于不同的查詢,以降低成本并提高準(zhǔn)確性。我們的實(shí)驗(yàn)表明,F(xiàn)rugalGPT 可以與最好的單個(gè) LLM(例如 GPT-4)的性能相媲美,成本降低高達(dá) 98%,或者在成本相同的情況下比 GPT-4 的準(zhǔn)確度提高 4%。這里提出的想法和發(fā)現(xiàn)為可持續(xù)和高效地使用 LLM 奠定了基礎(chǔ)。
?文章來源:http://www.zghlxwxcb.cn/news/detail-443340.html
更多Ai資訊:公主號AiCharm文章來源地址http://www.zghlxwxcb.cn/news/detail-443340.html
到了這里,關(guān)于每日學(xué)術(shù)速遞5.12的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!