国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

這篇具有很好參考價(jià)值的文章主要介紹了論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

目錄

摘要

引言

相關(guān)工作

Visual ChatGPT

Prompt Managing of Sysytem Principles M(P)

Prompt Managing of Foundation Models M(F)

Prompt Managing of User Querie M(Qi)

Prompt Managing of Foundation Model Out-puts M(F(A(j)i ))

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置


摘要

?Visual ChatGPT的作用:

1、不僅可以發(fā)送和接收語言,也可以發(fā)送和接收?qǐng)D像;

2、提供了復(fù)雜的視覺問題或視覺編輯指令,這需要多個(gè)AI模型多步驟的協(xié)作;

3、提供反饋并且要求糾正結(jié)果。

考慮到多輸入/輸出模型和需要視覺反饋的模型,將一系列提示將可視化模型信息注入到ChatGPT中。

引言

ChatGPT是在InstructGPT的基礎(chǔ)上,專門訓(xùn)練它用真正對(duì)話的方式與用戶交互,從而允許它保持當(dāng)前對(duì)話的上下文,處理后續(xù)問題,從而產(chǎn)生正確的答案。

BLIP模型是理解和提供圖像描述的專家。Stable Diffusion是基于文本提示合成圖像的專家。

本文通過提出一個(gè)Visual ChatGPT系統(tǒng)。 我們不是從零開始訓(xùn)練一個(gè)新的多模態(tài)Chatgpt,而是直接基于Chatgpt構(gòu)建可視化Chatgpt并集成多種VFMS。 為了彌補(bǔ)ChatGPT與這些VFM之間的差距,我們提出了一個(gè)支持以下功能的提示管理器:1)顯式地告訴ChatGPT每個(gè)VFM的CAPA特性,并指定輸入輸出格式; 2)將不同的視覺信息,如PNG圖像、深度圖像和掩模矩陣轉(zhuǎn)換成語言格式,以幫助ChatGPT理解; 3)處理不同Visual Foundation模型的歷史、優(yōu)先級(jí)和沖突。 在提示管理器的幫助下,ChatGPT可以利用這些VFMs,并以迭代的方式接收它們的反饋,直到滿足用戶的要求或達(dá)到結(jié)束條件。

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

?如圖所示 1、用戶上傳一個(gè)黃花的圖像,并輸入一個(gè)復(fù)雜的語言指令“請(qǐng)根據(jù)該圖像的預(yù)測(cè)深度生成一朵紅花,然后使其像卡通一樣,一步一步地進(jìn)行”。 在提示管理器的幫助下,Visual ChatGPT啟動(dòng)了相關(guān)Visual Foundation模型的執(zhí)行鏈。 在這種情況下,首先應(yīng)用深度估計(jì)模型檢測(cè)深度信息,然后利用深度-圖像模型生成具有深度信息的紅花圖形,最后利用基于穩(wěn)定擴(kuò)散模型的風(fēng)格轉(zhuǎn)移VFM將該圖像的風(fēng)格轉(zhuǎn)換為卡通。 在上述流程中,prompt Manager通過提供可視化格式類型和記錄信息轉(zhuǎn)換過程來充當(dāng)ChatGPT的調(diào)度程序。 最后,當(dāng)Visual ChatGPT從提示管理器中獲得“卡通”提示時(shí),將結(jié)束執(zhí)行流水線并顯示最終結(jié)果。

相關(guān)工作

需要關(guān)注的幾篇論文:

1、LiT:《Lit: Zero-shot transfer with locked-image text tuning.》

2、CLIP:《Learning?transferable visual models from natural language supervision.》

3、ViT:《Scaling vision transformers.》

4、frozen pre-trained LLMs。

5、Chain-of-Thought(CoT):激發(fā)大規(guī)模語言模型的多步推理能力,也就是說CoT要求LLMs為最終結(jié)果生成中間答案?,F(xiàn)有的技術(shù)分為Few-Shot-CoT和Zero-Shot-CoT。這兩種用于單一的模態(tài)。MultimodalCoT將語言和視覺兩個(gè)模態(tài)結(jié)合到一個(gè)兩階段框架中,將理論生成和答案推理分開。本文的工作將CoT潛力擴(kuò)展到大規(guī)模任務(wù),包括但不限于文本到圖像的生成[27]、圖像到圖像的翻譯[18]、圖像到文本的生成[40]等。

Visual ChatGPT

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

?

Prompt Managing of Sysytem Principles M(P)

Visual ChatGPT是一個(gè)集成了不同的VFM來理解視覺信息并生成相應(yīng)答案的系統(tǒng)。為此,需要定制一些系統(tǒng)原理,然后將其轉(zhuǎn)化為ChatGPT可以理解的提示。這些提示有多種用途,包括:

visual chatgpt的角色:visual chatgpt旨在幫助一系列與文本和視覺相關(guān)的任務(wù),如VQA、圖像生成和編輯。

VFMS可訪問性:Visual ChatGPT可以訪問一個(gè)VFMS列表,以解決各種VL任務(wù)。 使用哪種基礎(chǔ)模型的決定完全由ChatGPT模型本身做出,因此很容易支持新的VFMS和VL任務(wù)。

文件名敏感性:Visual ChatGPT根據(jù)文件名訪問圖像文件,使用精確的文件名以避免歧義是至關(guān)重要的,因?yàn)橐惠唽?duì)話可能包含多個(gè)圖像及其不同的更新版本,誤用文件名將導(dǎo)致混淆當(dāng)前討論的是哪一個(gè)圖像。 因此,Visual ChatGPT被設(shè)計(jì)為嚴(yán)格使用文件名,以確保檢索和操作正確的圖像文件。

鏈?zhǔn)剿季S:處理一個(gè)看似簡(jiǎn)單的命令可能需要多個(gè)VFMs,例如“根據(jù)圖像的深度預(yù)測(cè)生成一朵紅花,然后使其像卡通一樣”的查詢需要深度估計(jì)、深度到圖像和樣式轉(zhuǎn)移VFMs。 為了通過將查詢分解為子問題來解決更具挑戰(zhàn)性的查詢,在Visual ChatGPT中引入了COT來幫助決策、利用和調(diào)度多個(gè)VFMS。

推理格式嚴(yán)格性:Visual ChatGPT必須遵循嚴(yán)格的推理格式。 因此,我們采用詳細(xì)的Regex匹配算法對(duì)中間推理結(jié)果進(jìn)行解析,并為ChatGPT模型構(gòu)造合理的輸入格式,以幫助其確定下一次執(zhí)行,如觸發(fā)新的VFM或返回最終響應(yīng)。

可靠性:作為一種語言模型,Visual ChatGPT可能會(huì)編造虛假的圖像文件名或事實(shí),從而使系統(tǒng)不可靠。 為了處理這些問題,我們?cè)O(shè)計(jì)提示,要求Visual ChatGPT忠于Vision Foundation模型的輸出,而不是捏造圖像內(nèi)容或文件名。 此外,多個(gè)VFMS的協(xié)作可以提高系統(tǒng)的可靠性,因此我們構(gòu)造的提示將指導(dǎo)ChatGPT優(yōu)先利用VFMS而不是基于會(huì)話歷史生成結(jié)果。

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Prompt Managing of Foundation Models M(F)

論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models

Visual ChatGPT配備了多個(gè)VFMS來處理各種VL任務(wù)。 由于這些不同的VFMS可能有一些相似之處,例如,圖像中對(duì)象的替換可以被視為生成新的圖像,圖像到文本(I2T)任務(wù)和圖像問答(VQA)任務(wù)都可以被理解為根據(jù)所提供的圖像給出響應(yīng),因此區(qū)分它們至關(guān)重要。 如圖所示 3、提示管理器具體定義了以下幾個(gè)方面,以幫助Visual ChatGPT準(zhǔn)確理解和處理VL任務(wù):

?名稱:名稱提示符為每個(gè)VFM提供了總體功能的摘要,例如回答有關(guān)圖像的問題,它不僅幫助Visual ChatGPT簡(jiǎn)明地理解VFM的目的,而且作為VFM的入口提供了幫助。

用法:用法提示描述了應(yīng)該使用 VFM 的具體場(chǎng)景。例如,Pix2Pix 模型適用于改變圖像的風(fēng)格。提供此信息有助于 Visual ChatGPT 做出有關(guān)將哪個(gè) VFM 用于特定任務(wù)的明智決策。

輸入/輸出:輸入和輸出提示概述了每個(gè) VFM 所需的輸入和輸出格式,因?yàn)楦袷娇赡軙?huì)有很大差異,并且為 Visual ChatGPT 正確執(zhí)行 VFM 提供明確的指導(dǎo)至關(guān)重要。

示例(可選):示例提示符是可選的,但它有助于Visual ChatGPT更好地理解如何在特定的輸入模板下使用特定的VFM,并處理更復(fù)雜的查詢。

Prompt Managing of User Querie M(Qi)

Visual ChatGPT 支持多種用戶查詢,包括語言或圖像,簡(jiǎn)單或復(fù)雜的查詢,以及多張圖片的引用。 Prompt Manager 從以下兩個(gè)方面處理用戶查詢:

生成唯一文件名:Visual ChatGPT 可以處理兩種類型的圖像相關(guān)查詢:涉及新上傳圖像的查詢和涉及引用現(xiàn)有圖像的查詢。對(duì)于新上傳的圖像,Visual ChatGPT 會(huì)生成一個(gè)具有通用唯一標(biāo)識(shí)符 (UUID) 的唯一文件名,并添加一個(gè)前綴字符串“image”來表示相對(duì)目錄,例如“image/{uuid}.png”。雖然新上傳的圖像不會(huì)被輸入 ChatGPT,但會(huì)生成一個(gè)虛假的對(duì)話歷史記錄,其中包含一個(gè)說明圖像文件名的問題和一個(gè)表明圖像已收到的答案。這個(gè)虛假的對(duì)話歷史有助于以下對(duì)話。對(duì)于涉及引用現(xiàn)有圖像的查詢,Visual ChatGPT 會(huì)忽略文件名檢查。這種方法已被證明是有益的,因?yàn)?ChatGPT 能夠理解用戶查詢的模糊匹配,前提是它不會(huì)導(dǎo)致歧義,例如 UUID 名稱。

強(qiáng)制VFM思考:為保證Visual ChatGPT的VFM成功觸發(fā),我們?cè)冢≦i)后面附加了一個(gè)后綴提示:“由于Visual ChatGPT是文本語言模型,Visual ChatGPT必須使用工具來觀察圖像,而不是想象。想法和觀察僅對(duì) Visual ChatGPT 可見,Visual ChatGPT 應(yīng)記住在最終響應(yīng)中為 Human 重復(fù)重要信息。想法:我需要使用工具嗎?這個(gè)提示有兩個(gè)目的:1)提示 Visual ChatGPT 使用基礎(chǔ)模型,而不是僅僅依靠它的想象; 2) 它鼓勵(lì) Visual ChatGPT 提供由基礎(chǔ)模型生成的特定輸出,而不是諸如“你在這里”之類的通用響應(yīng)。

Prompt Managing of Foundation Model Out-puts M(F(A(j)i ))

對(duì)于來自不同VFMs?F(A(j)i)的中間輸出,Visual ChatGPT將隱式匯總并反饋給ChatGPT進(jìn)行后續(xù)交互,即調(diào)用其他VFMS進(jìn)行進(jìn)一步操作,直到達(dá)到結(jié)束條件或反饋給用戶。 內(nèi)部步驟可以總結(jié)如下:

生成鏈?zhǔn)轿募河捎赩isual ChatGPT的中間輸出將成為下一輪隱式對(duì)話的輸入,我們應(yīng)該使這些輸出更符合邏輯,以幫助LLMS更好地理解推理過程。 具體地說,從Visual Foundation模型生成的圖像保存在“image/”文件夾下,該文件夾提示以下表示圖像名稱的字符串。 然后將圖像命名為“{name}{operation}{prev name}{org name}”,其中{name}為上述UUID名稱,以{operation}為操作名稱,以{prev name}為輸入圖像唯一標(biāo)識(shí)符,以{org name}為用戶上傳或VFMS生成圖像的原始名稱。 例如,“image/ui3c edge-ofo0ec nji9dcgf.png”是輸入“o0ec”的名為“ui3c”的canny邊緣圖像,該圖像的原始名稱是“nji9dcgf”。 通過這樣的命名規(guī)則,可以提示中間結(jié)果屬性(即圖像)的chatgpt,以及它是如何從一系列操作中生成的。

調(diào)動(dòng)更多的VFMs:visual chatgpt的一個(gè)核心是可以自動(dòng)調(diào)用更多的vfms來完成用戶的命令。 更具體地說,我們通過在每一代的末尾擴(kuò)展一個(gè)后綴“though:”,使ChatGPT不斷地問自己是否需要VFMS來解決當(dāng)前的問題。

詢問更多細(xì)節(jié):當(dāng)用戶的命令不明確時(shí),Visual ChatGPT應(yīng)該詢問用戶更多細(xì)節(jié),以幫助更好地利用VFMS。 這種設(shè)計(jì)是安全和關(guān)鍵的,因?yàn)長(zhǎng)LMS不允許任意篡改或毫無根據(jù)地猜測(cè)用戶的意圖,尤其是在輸入信息不足的情況下。

實(shí)驗(yàn)

實(shí)驗(yàn)設(shè)置

使用LangChain引導(dǎo)LLM,我們從HuggingFace Transformers、Maskformer和ControlNet中收集基礎(chǔ)模型。 全面部署所有22個(gè)VFMS需要4個(gè)NVIDIA V100 GPU,但允許用戶部署更少的基礎(chǔ)型號(hào),以靈活節(jié)省GPU資源。 聊天歷史記錄的最大長(zhǎng)度為2000個(gè),并截?cái)噙^多的令牌以滿足chatgpt的輸入長(zhǎng)度。

局限性:

雖然Visual ChatGPT是一種很有前途的多模式對(duì)話方法,但它有一些局限性,包括:

Visual ChatGPT在很大程度上依賴于ChatGPT來分配任務(wù),并依賴于VFMS來執(zhí)行任務(wù)。 因此,這些模型的準(zhǔn)確性和有效性嚴(yán)重影響了可視化ChatGPT的性能。

Visual ChatGPT需要大量的提示工程來將VFMS轉(zhuǎn)換為語言,并使這些模型描述變得可區(qū)分。 這個(gè)過程可能會(huì)占用時(shí)間,需要計(jì)算機(jī)視覺和自然語言處理方面的專業(yè)知識(shí)。

Visual ChatGPT 被設(shè)計(jì)為通用的。它試圖將一個(gè)復(fù)雜的任務(wù)自動(dòng)分解成幾個(gè)子任務(wù)。因此,在處理特定任務(wù)時(shí),Visual ChatGPT 可能會(huì)調(diào)用多個(gè) VFM,與專門為特定任務(wù)訓(xùn)練的專家模型相比,實(shí)時(shí)能力有限。

ChatGPT中的最大令牌長(zhǎng)度可能會(huì)限制可使用的基礎(chǔ)模型的數(shù)量。 如果有數(shù)以千計(jì)或數(shù)以百萬計(jì)的基礎(chǔ)模型,可能需要一個(gè)預(yù)濾波模塊來限制饋入ChatGPT的VFMS。

輕松插入和拔出基礎(chǔ)模型的能力可能會(huì)引起安全和隱私問題,特別是對(duì)于通過API訪問的遠(yuǎn)程模型。 必須仔細(xì)考慮和自動(dòng)檢查,以確保敏感數(shù)據(jù)不應(yīng)暴露或泄露。

由于VFMS的故障和提示的不穩(wěn)定,一些生成結(jié)果不能滿足。 因此,需要一個(gè)自校正模塊來檢查執(zhí)行結(jié)果與人類意圖之間的一致性,并據(jù)此進(jìn)行相應(yīng)的編輯。 這種自我修正行為會(huì)導(dǎo)致對(duì)模型的思考更加復(fù)雜,顯著增加推理時(shí)間。?文章來源地址http://www.zghlxwxcb.cn/news/detail-486497.html

到了這里,關(guān)于論文閱讀:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    Unsupervised Learning of Monocular Depth Estimation and Visual Odometry 論文閱讀

    論文鏈接 Unsupervised Learning of Monocular Depth Estimation and Visual Odometry with Deep Feature Reconstruction 0. Abstract 盡管基于學(xué)習(xí)的方法在單視圖深度估計(jì)和視覺里程計(jì)方面顯示出有希望的結(jié)果,但大多數(shù)現(xiàn)有方法以監(jiān)督方式處理任務(wù)。最近的單視圖深度估計(jì)方法探索了通過最小化光度誤差在

    2024年03月10日
    瀏覽(43)
  • 【論文閱讀】Reachability Queries with Label and Substructure Constraints on Knowledge Graphs

    【論文閱讀】Reachability Queries with Label and Substructure Constraints on Knowledge Graphs

    Wan X, Wang H. Reachability Queries With Label and Substructure Constraints on Knowledge Graphs[J]. IEEE Transactions on Knowledge and Data Engineering, 2022. 由于知識(shí)圖(KGs)描述和建模了現(xiàn)實(shí)世界中實(shí)體和概念之間的關(guān)系,因此對(duì)KGs的推理通常對(duì)應(yīng)于具有標(biāo)簽和實(shí)體的可達(dá)性查詢穿刺約束(LSCR)。特別地,對(duì)

    2024年02月04日
    瀏覽(19)
  • OrienterNet: visual localization in 2D public maps with neural matching 論文閱讀

    OrienterNet: visual localization in 2D public maps with neural matching 論文閱讀

    題目 :OrienterNet: visual localization in 2D public maps with neural matching 作者 :Paul-Edouard Sarlin, Daniel DeTone 項(xiàng)目地址 :github.com/facebookresearch/OrienterNet 來源 :CVPR 時(shí)間 :2023 人類可以使用簡(jiǎn)單的 2D 地圖在 3D 環(huán)境中定位自己。不同的是,視覺定位算法主要依賴于復(fù)雜的 3D 點(diǎn)云,隨著時(shí)

    2024年02月11日
    瀏覽(21)
  • 【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    【論文閱讀】SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness

    論文鏈接:SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness | IEEE Journals Magazine | IEEE Xplore 代碼:?GitHub - Linfeng-Tang/SuperFusion: This is official Pytorch implementation of \\\"SuperFusion: A Versatile Image Registration and Fusion Network with Semantic Awareness\\\" 圖像融合的重要性:由于攝影環(huán)境

    2024年03月19日
    瀏覽(22)
  • Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    Visual ChatGPT原理解讀——大模型論文閱讀筆記四

    論文:https://arxiv.org/abs/2303.04671 代碼:https://github.com/microsoft/TaskMatrix 如圖所示,用戶上傳一張黃花的圖像并輸入一個(gè)復(fù)雜的語言指令“請(qǐng)根據(jù)該圖像的預(yù)測(cè)深度生成一朵紅花,然后逐步使其像卡通一樣”。 在交互管理器的幫助下,Visual ChatGPT 開始了相關(guān)視覺基礎(chǔ)模型的執(zhí)行

    2024年02月09日
    瀏覽(19)
  • MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀

    MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 論文閱讀

    題目 :MaskVO: Self-Supervised Visual Odometry with a Learnable Dynamic Mask 作者 :Weihao Xuan, Ruijie Ren, Siyuan Wu, Changhao Chen 時(shí)間 :2022 來源 : IEEE/SICE International Symposium on System Integration (SII) 深度學(xué)習(xí)的最新進(jìn)展使移動(dòng)機(jī)器人能夠以自我監(jiān)督的方式聯(lián)合學(xué)習(xí)自我運(yùn)動(dòng)和深度圖。 然而,現(xiàn)有的方

    2024年02月09日
    瀏覽(20)
  • 《2023 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》閱讀筆記

    《2023 HuggingGPT: Solving AI Tasks with ChatGPT and its Friends in Hugging Face》閱讀筆記

    借助大語言模型(LLMS)在語言理解生成推理等方面表現(xiàn)出的出色能力,考慮將其作為控制器來管理現(xiàn)有的各種AI模型, 把語言作為通用接口 ?;谶@一理念,提出了HuggingGPT框架,利用LLMS(ChatGPT)來連接機(jī)器學(xué)習(xí)社區(qū)(Hug face)中的各種AI模型,具體來說就是在接收用戶請(qǐng)求

    2024年02月02日
    瀏覽(26)
  • VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 論文閱讀筆記

    VL 模型 Open-Set Domain Adaptation with Visual-Language Foundation Models 論文閱讀筆記

    寫在前面 ??又是一周周末,在家的時(shí)間感覺過得很快呀,下周就能回學(xué)校啦~ 論文地址:Open-Set Domain Adaptation with Visual-Language Foundation Models 代碼地址:當(dāng)前版本暫未提供代碼地址 預(yù)計(jì)提交于:CVPR 2024 Ps:2023 年每周一篇博文閱讀筆記,主頁 更多干貨,歡迎關(guān)注呀,期待 5

    2024年02月14日
    瀏覽(26)
  • 使用八叉樹模擬水和煙霧 Simulating Water and Smoke with an Octree Data Structure 論文閱讀筆記

    使用八叉樹模擬水和煙霧 Simulating Water and Smoke with an Octree Data Structure 論文閱讀筆記

    原文: Losasso, Frank, Frédéric Gibou, and Ron Fedkiw. “Simulating water and smoke with an octree data structure.” Acm siggraph 2004 papers. 2004. 457-462. 這篇文章擴(kuò)展了 [Popinet 2003] 的工作,拓展到表面自由流,并且使得八叉樹不受限制 自適應(yīng)網(wǎng)格劃分的一個(gè)缺點(diǎn)是,它的模板不是均勻的,進(jìn)而導(dǎo)致泊

    2024年02月19日
    瀏覽(19)
  • 【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    【論文閱讀】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相較于傳統(tǒng)的視覺里程計(jì),端到端的方法可以認(rèn)為是把特征提取、匹配、位姿估計(jì)等模塊用深度學(xué)習(xí)模型進(jìn)行了替代。不同于那種用深度學(xué)習(xí)模型取代里程計(jì)框架一部分的算法,端到端的視覺里程計(jì)是直接將整個(gè)任務(wù)替換為深度學(xué)習(xí),輸入依然是圖像流,結(jié)果也依然是位姿,

    2024年03月18日
    瀏覽(30)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包