Visual ChatGPT
?
GitHub - microsoft/visual-chatgpt: VisualChatGPT
Visual ChatGPT 將 ChatGPT 和一系列可視化基礎(chǔ)模型連接起來(lái),以支持在聊天過(guò)程中發(fā)送和接收?qǐng)D像。
近年來(lái),大型語(yǔ)言模型(LLM)取得了令人難以置信的進(jìn)展,尤其是去年 11 月 30 日,OpenAI 重磅推出的聊天對(duì)話模型 ChatGPT,短短三個(gè)月席卷社會(huì)各個(gè)領(lǐng)域。ChatGPT 會(huì)的東西五花八門,能陪你聊天、編寫代碼、修改 bug、解答問(wèn)題……
但即便是非常強(qiáng)大的 ChatGPT 也存在短板,由于它是用單一語(yǔ)言模態(tài)訓(xùn)練而成,因此其處理視覺(jué)信息的能力非常有限,相比較而言,視覺(jué)基礎(chǔ)模型(VFM,Visual Foundation Models)在計(jì)算機(jī)視覺(jué)方面潛力巨大,因而能夠理解和生成復(fù)雜的圖像。例如,BLIP 模型是理解和提供圖像描述的專家;大熱的 Stable Diffusion 可以基于文本提示合成圖像。然而由于 VFM 模型對(duì)輸入 - 輸出格式的苛求和固定限制,使得其在人機(jī)交互方面不如會(huì)話語(yǔ)言模型靈活。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-778605.html
我們不禁會(huì)問(wèn),能否構(gòu)建一個(gè)同時(shí)支持圖像理解和生成的類似 ChatGPT 的系統(tǒng)?一個(gè)直觀的想法是訓(xùn)練多模態(tài)對(duì)話模型。然而,建立這樣一個(gè)系統(tǒng)會(huì)消耗大量的數(shù)據(jù)和計(jì)算資源。此外,另一個(gè)挑戰(zhàn)是,如果我們想整合語(yǔ)言和圖像以外的模態(tài),文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-778605.html
到了這里,關(guān)于【大數(shù)據(jù) AI】視覺(jué)ChatGPT來(lái)了,微軟發(fā)布,代碼已開(kāi)源的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!