目錄
摘要
引言
相關(guān)工作
Visual ChatGPT
Prompt Managing of Sysytem Principles M(P)
Prompt Managing of Foundation Models M(F)
Prompt Managing of User Querie M(Qi)
Prompt Managing of Foundation Model Out-puts M(F(A(j)i ))
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
摘要
?Visual ChatGPT的作用:
1、不僅可以發(fā)送和接收語言,也可以發(fā)送和接收?qǐng)D像;
2、提供了復(fù)雜的視覺問題或視覺編輯指令,這需要多個(gè)AI模型多步驟的協(xié)作;
3、提供反饋并且要求糾正結(jié)果。
考慮到多輸入/輸出模型和需要視覺反饋的模型,將一系列提示將可視化模型信息注入到ChatGPT中。
引言
ChatGPT是在InstructGPT的基礎(chǔ)上,專門訓(xùn)練它用真正對(duì)話的方式與用戶交互,從而允許它保持當(dāng)前對(duì)話的上下文,處理后續(xù)問題,從而產(chǎn)生正確的答案。
BLIP模型是理解和提供圖像描述的專家。Stable Diffusion是基于文本提示合成圖像的專家。
本文通過提出一個(gè)Visual ChatGPT系統(tǒng)。 我們不是從零開始訓(xùn)練一個(gè)新的多模態(tài)Chatgpt,而是直接基于Chatgpt構(gòu)建可視化Chatgpt并集成多種VFMS。 為了彌補(bǔ)ChatGPT與這些VFM之間的差距,我們提出了一個(gè)支持以下功能的提示管理器:1)顯式地告訴ChatGPT每個(gè)VFM的CAPA特性,并指定輸入輸出格式; 2)將不同的視覺信息,如PNG圖像、深度圖像和掩模矩陣轉(zhuǎn)換成語言格式,以幫助ChatGPT理解; 3)處理不同Visual Foundation模型的歷史、優(yōu)先級(jí)和沖突。 在提示管理器的幫助下,ChatGPT可以利用這些VFMs,并以迭代的方式接收它們的反饋,直到滿足用戶的要求或達(dá)到結(jié)束條件。
?如圖所示 1、用戶上傳一個(gè)黃花的圖像,并輸入一個(gè)復(fù)雜的語言指令“請(qǐng)根據(jù)該圖像的預(yù)測(cè)深度生成一朵紅花,然后使其像卡通一樣,一步一步地進(jìn)行”。 在提示管理器的幫助下,Visual ChatGPT啟動(dòng)了相關(guān)Visual Foundation模型的執(zhí)行鏈。 在這種情況下,首先應(yīng)用深度估計(jì)模型檢測(cè)深度信息,然后利用深度-圖像模型生成具有深度信息的紅花圖形,最后利用基于穩(wěn)定擴(kuò)散模型的風(fēng)格轉(zhuǎn)移VFM將該圖像的風(fēng)格轉(zhuǎn)換為卡通。 在上述流程中,prompt Manager通過提供可視化格式類型和記錄信息轉(zhuǎn)換過程來充當(dāng)ChatGPT的調(diào)度程序。 最后,當(dāng)Visual ChatGPT從提示管理器中獲得“卡通”提示時(shí),將結(jié)束執(zhí)行流水線并顯示最終結(jié)果。
相關(guān)工作
需要關(guān)注的幾篇論文:
1、LiT:《Lit: Zero-shot transfer with locked-image text tuning.》
2、CLIP:《Learning?transferable visual models from natural language supervision.》
3、ViT:《Scaling vision transformers.》
4、frozen pre-trained LLMs。
5、Chain-of-Thought(CoT):激發(fā)大規(guī)模語言模型的多步推理能力,也就是說CoT要求LLMs為最終結(jié)果生成中間答案?,F(xiàn)有的技術(shù)分為Few-Shot-CoT和Zero-Shot-CoT。這兩種用于單一的模態(tài)。MultimodalCoT將語言和視覺兩個(gè)模態(tài)結(jié)合到一個(gè)兩階段框架中,將理論生成和答案推理分開。本文的工作將CoT潛力擴(kuò)展到大規(guī)模任務(wù),包括但不限于文本到圖像的生成[27]、圖像到圖像的翻譯[18]、圖像到文本的生成[40]等。
Visual ChatGPT
?
Prompt Managing of Sysytem Principles M(P)
Visual ChatGPT是一個(gè)集成了不同的VFM來理解視覺信息并生成相應(yīng)答案的系統(tǒng)。為此,需要定制一些系統(tǒng)原理,然后將其轉(zhuǎn)化為ChatGPT可以理解的提示。這些提示有多種用途,包括:
visual chatgpt的角色:visual chatgpt旨在幫助一系列與文本和視覺相關(guān)的任務(wù),如VQA、圖像生成和編輯。
VFMS可訪問性:Visual ChatGPT可以訪問一個(gè)VFMS列表,以解決各種VL任務(wù)。 使用哪種基礎(chǔ)模型的決定完全由ChatGPT模型本身做出,因此很容易支持新的VFMS和VL任務(wù)。
文件名敏感性:Visual ChatGPT根據(jù)文件名訪問圖像文件,使用精確的文件名以避免歧義是至關(guān)重要的,因?yàn)橐惠唽?duì)話可能包含多個(gè)圖像及其不同的更新版本,誤用文件名將導(dǎo)致混淆當(dāng)前討論的是哪一個(gè)圖像。 因此,Visual ChatGPT被設(shè)計(jì)為嚴(yán)格使用文件名,以確保檢索和操作正確的圖像文件。
鏈?zhǔn)剿季S:處理一個(gè)看似簡(jiǎn)單的命令可能需要多個(gè)VFMs,例如“根據(jù)圖像的深度預(yù)測(cè)生成一朵紅花,然后使其像卡通一樣”的查詢需要深度估計(jì)、深度到圖像和樣式轉(zhuǎn)移VFMs。 為了通過將查詢分解為子問題來解決更具挑戰(zhàn)性的查詢,在Visual ChatGPT中引入了COT來幫助決策、利用和調(diào)度多個(gè)VFMS。
推理格式嚴(yán)格性:Visual ChatGPT必須遵循嚴(yán)格的推理格式。 因此,我們采用詳細(xì)的Regex匹配算法對(duì)中間推理結(jié)果進(jìn)行解析,并為ChatGPT模型構(gòu)造合理的輸入格式,以幫助其確定下一次執(zhí)行,如觸發(fā)新的VFM或返回最終響應(yīng)。
可靠性:作為一種語言模型,Visual ChatGPT可能會(huì)編造虛假的圖像文件名或事實(shí),從而使系統(tǒng)不可靠。 為了處理這些問題,我們?cè)O(shè)計(jì)提示,要求Visual ChatGPT忠于Vision Foundation模型的輸出,而不是捏造圖像內(nèi)容或文件名。 此外,多個(gè)VFMS的協(xié)作可以提高系統(tǒng)的可靠性,因此我們構(gòu)造的提示將指導(dǎo)ChatGPT優(yōu)先利用VFMS而不是基于會(huì)話歷史生成結(jié)果。
Prompt Managing of Foundation Models M(F)
Visual ChatGPT配備了多個(gè)VFMS來處理各種VL任務(wù)。 由于這些不同的VFMS可能有一些相似之處,例如,圖像中對(duì)象的替換可以被視為生成新的圖像,圖像到文本(I2T)任務(wù)和圖像問答(VQA)任務(wù)都可以被理解為根據(jù)所提供的圖像給出響應(yīng),因此區(qū)分它們至關(guān)重要。 如圖所示 3、提示管理器具體定義了以下幾個(gè)方面,以幫助Visual ChatGPT準(zhǔn)確理解和處理VL任務(wù):
?名稱:名稱提示符為每個(gè)VFM提供了總體功能的摘要,例如回答有關(guān)圖像的問題,它不僅幫助Visual ChatGPT簡(jiǎn)明地理解VFM的目的,而且作為VFM的入口提供了幫助。
用法:用法提示描述了應(yīng)該使用 VFM 的具體場(chǎng)景。例如,Pix2Pix 模型適用于改變圖像的風(fēng)格。提供此信息有助于 Visual ChatGPT 做出有關(guān)將哪個(gè) VFM 用于特定任務(wù)的明智決策。
輸入/輸出:輸入和輸出提示概述了每個(gè) VFM 所需的輸入和輸出格式,因?yàn)楦袷娇赡軙?huì)有很大差異,并且為 Visual ChatGPT 正確執(zhí)行 VFM 提供明確的指導(dǎo)至關(guān)重要。
示例(可選):示例提示符是可選的,但它有助于Visual ChatGPT更好地理解如何在特定的輸入模板下使用特定的VFM,并處理更復(fù)雜的查詢。
Prompt Managing of User Querie M(Qi)
Visual ChatGPT 支持多種用戶查詢,包括語言或圖像,簡(jiǎn)單或復(fù)雜的查詢,以及多張圖片的引用。 Prompt Manager 從以下兩個(gè)方面處理用戶查詢:
生成唯一文件名:Visual ChatGPT 可以處理兩種類型的圖像相關(guān)查詢:涉及新上傳圖像的查詢和涉及引用現(xiàn)有圖像的查詢。對(duì)于新上傳的圖像,Visual ChatGPT 會(huì)生成一個(gè)具有通用唯一標(biāo)識(shí)符 (UUID) 的唯一文件名,并添加一個(gè)前綴字符串“image”來表示相對(duì)目錄,例如“image/{uuid}.png”。雖然新上傳的圖像不會(huì)被輸入 ChatGPT,但會(huì)生成一個(gè)虛假的對(duì)話歷史記錄,其中包含一個(gè)說明圖像文件名的問題和一個(gè)表明圖像已收到的答案。這個(gè)虛假的對(duì)話歷史有助于以下對(duì)話。對(duì)于涉及引用現(xiàn)有圖像的查詢,Visual ChatGPT 會(huì)忽略文件名檢查。這種方法已被證明是有益的,因?yàn)?ChatGPT 能夠理解用戶查詢的模糊匹配,前提是它不會(huì)導(dǎo)致歧義,例如 UUID 名稱。
強(qiáng)制VFM思考:為保證Visual ChatGPT的VFM成功觸發(fā),我們?cè)冢≦i)后面附加了一個(gè)后綴提示:“由于Visual ChatGPT是文本語言模型,Visual ChatGPT必須使用工具來觀察圖像,而不是想象。想法和觀察僅對(duì) Visual ChatGPT 可見,Visual ChatGPT 應(yīng)記住在最終響應(yīng)中為 Human 重復(fù)重要信息。想法:我需要使用工具嗎?這個(gè)提示有兩個(gè)目的:1)提示 Visual ChatGPT 使用基礎(chǔ)模型,而不是僅僅依靠它的想象; 2) 它鼓勵(lì) Visual ChatGPT 提供由基礎(chǔ)模型生成的特定輸出,而不是諸如“你在這里”之類的通用響應(yīng)。
Prompt Managing of Foundation Model Out-puts M(F(A(j)i ))
對(duì)于來自不同VFMs?F(A(j)i)的中間輸出,Visual ChatGPT將隱式匯總并反饋給ChatGPT進(jìn)行后續(xù)交互,即調(diào)用其他VFMS進(jìn)行進(jìn)一步操作,直到達(dá)到結(jié)束條件或反饋給用戶。 內(nèi)部步驟可以總結(jié)如下:
生成鏈?zhǔn)轿募河捎赩isual ChatGPT的中間輸出將成為下一輪隱式對(duì)話的輸入,我們應(yīng)該使這些輸出更符合邏輯,以幫助LLMS更好地理解推理過程。 具體地說,從Visual Foundation模型生成的圖像保存在“image/”文件夾下,該文件夾提示以下表示圖像名稱的字符串。 然后將圖像命名為“{name}{operation}{prev name}{org name}”,其中{name}為上述UUID名稱,以{operation}為操作名稱,以{prev name}為輸入圖像唯一標(biāo)識(shí)符,以{org name}為用戶上傳或VFMS生成圖像的原始名稱。 例如,“image/ui3c edge-ofo0ec nji9dcgf.png”是輸入“o0ec”的名為“ui3c”的canny邊緣圖像,該圖像的原始名稱是“nji9dcgf”。 通過這樣的命名規(guī)則,可以提示中間結(jié)果屬性(即圖像)的chatgpt,以及它是如何從一系列操作中生成的。
調(diào)動(dòng)更多的VFMs:visual chatgpt的一個(gè)核心是可以自動(dòng)調(diào)用更多的vfms來完成用戶的命令。 更具體地說,我們通過在每一代的末尾擴(kuò)展一個(gè)后綴“though:”,使ChatGPT不斷地問自己是否需要VFMS來解決當(dāng)前的問題。
詢問更多細(xì)節(jié):當(dāng)用戶的命令不明確時(shí),Visual ChatGPT應(yīng)該詢問用戶更多細(xì)節(jié),以幫助更好地利用VFMS。 這種設(shè)計(jì)是安全和關(guān)鍵的,因?yàn)長(zhǎng)LMS不允許任意篡改或毫無根據(jù)地猜測(cè)用戶的意圖,尤其是在輸入信息不足的情況下。
實(shí)驗(yàn)
實(shí)驗(yàn)設(shè)置
使用LangChain引導(dǎo)LLM,我們從HuggingFace Transformers、Maskformer和ControlNet中收集基礎(chǔ)模型。 全面部署所有22個(gè)VFMS需要4個(gè)NVIDIA V100 GPU,但允許用戶部署更少的基礎(chǔ)型號(hào),以靈活節(jié)省GPU資源。 聊天歷史記錄的最大長(zhǎng)度為2000個(gè),并截?cái)噙^多的令牌以滿足chatgpt的輸入長(zhǎng)度。
局限性:
雖然Visual ChatGPT是一種很有前途的多模式對(duì)話方法,但它有一些局限性,包括:
Visual ChatGPT在很大程度上依賴于ChatGPT來分配任務(wù),并依賴于VFMS來執(zhí)行任務(wù)。 因此,這些模型的準(zhǔn)確性和有效性嚴(yán)重影響了可視化ChatGPT的性能。
Visual ChatGPT需要大量的提示工程來將VFMS轉(zhuǎn)換為語言,并使這些模型描述變得可區(qū)分。 這個(gè)過程可能會(huì)占用時(shí)間,需要計(jì)算機(jī)視覺和自然語言處理方面的專業(yè)知識(shí)。
Visual ChatGPT 被設(shè)計(jì)為通用的。它試圖將一個(gè)復(fù)雜的任務(wù)自動(dòng)分解成幾個(gè)子任務(wù)。因此,在處理特定任務(wù)時(shí),Visual ChatGPT 可能會(huì)調(diào)用多個(gè) VFM,與專門為特定任務(wù)訓(xùn)練的專家模型相比,實(shí)時(shí)能力有限。
ChatGPT中的最大令牌長(zhǎng)度可能會(huì)限制可使用的基礎(chǔ)模型的數(shù)量。 如果有數(shù)以千計(jì)或數(shù)以百萬計(jì)的基礎(chǔ)模型,可能需要一個(gè)預(yù)濾波模塊來限制饋入ChatGPT的VFMS。
輕松插入和拔出基礎(chǔ)模型的能力可能會(huì)引起安全和隱私問題,特別是對(duì)于通過API訪問的遠(yuǎn)程模型。 必須仔細(xì)考慮和自動(dòng)檢查,以確保敏感數(shù)據(jù)不應(yīng)暴露或泄露。文章來源:http://www.zghlxwxcb.cn/news/detail-486497.html
由于VFMS的故障和提示的不穩(wěn)定,一些生成結(jié)果不能滿足。 因此,需要一個(gè)自校正模塊來檢查執(zhí)行結(jié)果與人類意圖之間的一致性,并據(jù)此進(jìn)行相應(yīng)的編輯。 這種自我修正行為會(huì)導(dǎo)致對(duì)模型的思考更加復(fù)雜,顯著增加推理時(shí)間。?文章來源地址http://www.zghlxwxcb.cn/news/detail-486497.html
到了這里,關(guān)于論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!