Prompt Space Optimizing Few-shot Reasoning Success with Large Language Models
https://arxiv.org/abs/2306.03799
Prompt engineering 是通過提供明確和具體的指令來增強(qiáng)大型語言模型(llm)能力的基本技術(shù)。它使LLM能夠在各種任務(wù)中脫穎而出,例如算術(shù)推理、問題回答、摘要、關(guān)系提取、機(jī)器翻譯和情感分析。研究人員一直在積極探索不同的提示工程策略,如思維鏈(CoT)、零樣本思維鏈(Zero-CoT)和情境學(xué)習(xí)(In-context learning)。但是一個(gè)尚未解決的問題是,目前的方法缺乏確定最佳提示的堅(jiān)實(shí)理論基礎(chǔ)。為了解決提示工程中的這一問題,論文提出了一種新的、有效的方法——提示空間。
ESL-SNNs: An Evolutionary Structure Learning Strategy for Spiking Neural Networks
https://arxiv.org/abs/2306.03693
減少SNN模型大小和計(jì)算,同時(shí)在訓(xùn)練過程中通過修剪和再生連接的進(jìn)化過程保持準(zhǔn)確性。
在推理過程中,Spiking neural networks在功耗和事件驅(qū)動(dòng)特性方面表現(xiàn)出顯著的優(yōu)勢(shì)。為了充分利用低功耗的優(yōu)勢(shì),進(jìn)一步提高這些模型的效率,論文探索了在訓(xùn)練后尋找冗余連接的稀疏snn的剪枝方法。在人腦中,神經(jīng)網(wǎng)絡(luò)的重新布線過程是高度動(dòng)態(tài)的,而突觸連接在大腦發(fā)育過程中保持相對(duì)稀疏。受此啟發(fā),輪文提出了一種高效的SNN進(jìn)化結(jié)構(gòu)學(xué)習(xí)(ESL)框架,命名為ESL-SNN,用于從頭開始實(shí)現(xiàn)稀疏SNN的訓(xùn)練。
Segment Anything in High Quality
https://arxiv.org/abs/2306.01567
用掩碼校正對(duì)SAM進(jìn)行修改可以提高性能,特別是在邊緣情況下。
SAM代表了一個(gè)巨大的飛躍,盡管使用了11億個(gè)掩碼進(jìn)行訓(xùn)練,但SAM的掩碼預(yù)測(cè)質(zhì)量在許多情況下都存在不足,特別是在處理結(jié)構(gòu)復(fù)雜的物體時(shí)。論文精心設(shè)計(jì)重用并保留了SAM的預(yù)訓(xùn)練模型權(quán)重,同時(shí)只引入了最小的額外參數(shù)和計(jì)算。
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression
https://arxiv.org/abs/2306.03078
通過量化將llm壓縮到每個(gè)Int4,可以適用于筆記本電腦和移動(dòng)電話等內(nèi)存有限的設(shè)備,從而實(shí)現(xiàn)個(gè)性化使用。但是量化到每個(gè)參數(shù)3-4位通常會(huì)導(dǎo)致中等到高的精度損失,特別是對(duì)于1-10B參數(shù)范圍內(nèi)的較小模型。為了解決這個(gè)準(zhǔn)確性問題,論文引入了稀疏量化表示(SpQR),這是一種新的壓縮格式和量化技術(shù),首次實(shí)現(xiàn)了llm跨模型尺度的近無損壓縮,同時(shí)達(dá)到了與以前方法相似的壓縮水平。SpQR的工作原理是識(shí)別和隔離導(dǎo)致特別大的量化誤差的異常權(quán)重,并以更高的精度存儲(chǔ)它們,同時(shí)將所有其他權(quán)重壓縮到3-4位。
Tracking Everything Everywhere All at Once
https://arxiv.org/abs/2306.05422
從視頻序列中估計(jì)密集和遠(yuǎn)距離運(yùn)動(dòng)的測(cè)試時(shí)間優(yōu)化方法。
先前的光流或粒子視頻跟蹤算法通常在有限的時(shí)間窗口內(nèi)運(yùn)行,難以通過遮擋進(jìn)行跟蹤并保持估計(jì)運(yùn)動(dòng)軌跡的全局一致性。論文提出了一種完整且全局一致的運(yùn)動(dòng)表示,稱為OmniMotion,它允許對(duì)視頻中的每個(gè)像素進(jìn)行準(zhǔn)確的全長(zhǎng)運(yùn)動(dòng)估計(jì)。OmniMotion使用準(zhǔn)3d規(guī)范體積表示視頻,并通過本地和規(guī)范空間之間的雙射執(zhí)行逐像素跟蹤
Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding
https://arxiv.org/abs/2306.06094
大型語言模型(llm)在自然語言理解和生成方面取得了重大進(jìn)展。但是它們?cè)谟?jì)算機(jī)視覺方面的潛力在很大程度上仍未被探索。論文介紹了一種新的探索性方法,使llm能夠使用可縮放矢量圖形(SVG)格式處理圖像。通過利用基于xml的SVG表示的文本描述而不是光柵圖像,目標(biāo)是彌合視覺和文本模式之間的差距,允許llm直接理解和操作圖像,而不需要參數(shù)化的視覺組件
TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses
https://arxiv.org/abs/2306.05888
三維MOT技術(shù)在常用的檢測(cè)跟蹤模式下取得了重要進(jìn)展。但是這些方法僅使用當(dāng)前幀的檢測(cè)盒來獲得軌跡盒關(guān)聯(lián)結(jié)果,這使得跟蹤器無法恢復(fù)檢測(cè)器錯(cuò)過的目標(biāo)。論文提出了一種新的基于點(diǎn)云的3D MOT框架——TrajectoryFormer。
MovieFactory: Automatic Movie Creation from Text using Large Generative Models for Language and Images
https://arxiv.org/abs/2306.07257
MovieFactory是一個(gè)強(qiáng)大的框架,可以根據(jù)自然語言的需求生成電影圖片(3072×1280),電影風(fēng)格(多場(chǎng)景)和多模態(tài)(聲音)電影。作為所知的第一個(gè)完全自動(dòng)化的電影生成模型,論文的方法使用戶能夠使用簡(jiǎn)單的文本輸入創(chuàng)建具有流暢過渡的迷人電影,超越了現(xiàn)有的制作無聲視頻的方法,這些無聲視頻僅限于一個(gè)中等質(zhì)量的場(chǎng)景。為了促進(jìn)這種獨(dú)特的功能,利用ChatGPT將用戶提供的文本擴(kuò)展為用于電影生成的詳細(xì)順序腳本。然后通過視覺生成和音頻檢索使腳本在視覺和聽覺上栩栩如生。
DEYOv2: Rank Feature with Greedy Matching for End-to-End Object Detection
https://arxiv.org/abs/2306.09165
通過改進(jìn)對(duì)Ground Truth匹配的預(yù)測(cè)來改進(jìn)用于目標(biāo)檢測(cè)任務(wù)的transformer。
提出了一種新的目標(biāo)檢測(cè)器DEYOv2,它是第一代DEYO(帶有YOLO的DETR)模型的改進(jìn)版本。與其前身類似,DEYOv2采用漸進(jìn)式推理方法來加速模型訓(xùn)練并提高性能。論文深入研究了一對(duì)一匹配在優(yōu)化中的局限性,并提出了有效的解決方案,如Rank Feature和Greedy matching。這種方法使DEYOv2的第三階段能夠在不需要NMS的情況下最大限度地從第一階段和第二階段獲取信息,實(shí)現(xiàn)端到端優(yōu)化。
文章來源:http://www.zghlxwxcb.cn/news/detail-498664.html
https://avoid.overfit.cn/post/b4e61ad1dc414676bcad40bc558c892c文章來源地址http://www.zghlxwxcb.cn/news/detail-498664.html
到了這里,關(guān)于6月人工智能論文推薦的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!