国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出

這篇具有很好參考價值的文章主要介紹了邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

PAPER CODE
https://arxiv.org/pdf/2311.02782.pdf https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

????????圖1 GPT-4V在多模態(tài)多任務(wù)異常檢測中的綜合評估 在這項研究中,我們在多模態(tài)異常檢測的背景下對GPT-4V進行了全面評估。我們考慮了四種模式:圖像、視頻、點云和時間序列,并探索了九個具體任務(wù),包括工業(yè)圖像異常檢測/定位、點云異常檢測、醫(yī)學(xué)圖像異常檢測/定位、邏輯異常檢測、行人異常檢測、交通異常檢測和時間序列異常檢測。我們的評估包括 15 個數(shù)據(jù)集。

摘要

????????異常檢測是跨不同域和數(shù)據(jù)類型的關(guān)鍵任務(wù)。但是,現(xiàn)有的異常檢測模型通常是針對特定域和模式設(shè)計的。本研究探討了如何使用強大的視覺語言模型 GPT-4V(ision) 以通用方式處理異常檢測任務(wù)。我們研究了 GPT-4V 在多模態(tài)、多域異常檢測任務(wù)中的應(yīng)用,包括圖像、視頻、點云和時間序列數(shù)據(jù),涉及多個應(yīng)用領(lǐng)域,例如工業(yè)、醫(yī)療、邏輯、視頻、3D 異常檢測和定位任務(wù)。為了提高 GPT-4V 的性能,我們結(jié)合了不同類型的附加提示,例如類信息、人類專業(yè)知識和參考圖像作為提示。根據(jù)我們的實驗,GPT-4V 被證明在零/單次異常檢測中檢測和解釋全局和細粒度語義模式方面非常有效。這樣可以準確區(qū)分正常和異常實例。盡管我們在這項研究中進行了廣泛的評估,但仍有未來的評估空間,可以從不同方面進一步挖掘 GPT-4V 的通用異常檢測能力。其中包括探索定量指標、擴展評估基準、納入多輪互動以及納入人類反饋循環(huán)。盡管如此,GPT-4V 在通用異常檢測和理解方面表現(xiàn)出可喜的性能,從而為異常檢測開辟了一條新途徑。所有評估示例(包括圖像和文本提示)都將在 GPT4V-for-Generic-Anomaly-Detection https://github.com/caoyunkang/ 提供。

動機和概述

????????異常檢測技術(shù)已廣泛應(yīng)用于不同的領(lǐng)域,如工業(yè)檢測[29,98]、醫(yī)療對角線[107]、視頻監(jiān)控[84]、欺詐檢測[30]以及許多其他識別異常情況至關(guān)重要的領(lǐng)域。盡管存在許多用于異常檢測的技術(shù)[14,3,69,41,38,79,110,16,103],但許多現(xiàn)有方法主要依賴于描述正態(tài)數(shù)據(jù)分布的方法。他們經(jīng)常忽視高層次的感知,主要將其視為低層次的任務(wù)。但是,異常檢測的實際應(yīng)用通常需要對數(shù)據(jù)有更全面、更高級的理解。要實現(xiàn)這種理解,至少需要三個關(guān)鍵步驟:

  1. 了解數(shù)據(jù)類型和類別: 第一步涉及對數(shù)據(jù)集中存在的數(shù)據(jù)類型和類別的透徹理解。數(shù)據(jù)可以采取多種形式,包括圖像、視頻、點云、時間序列數(shù)據(jù)等。每種數(shù)據(jù)類型都可能需要特定的異常檢測方法和注意事項。此外,不同的類別可能對正常狀態(tài)有不同的定義。
  2. 確定正態(tài)的標準:在獲得數(shù)據(jù)類型和類別后,可以進一步推理正態(tài)態(tài)的標準,這需要對數(shù)據(jù)有較高的了解。
  3. 評估數(shù)據(jù)一致性:最后一步是評估提供的數(shù)據(jù)是否符合既定的正態(tài)性標準。任何偏離這些標準的行為都可以歸類為異常。

我們的方法

提示 GPT-4V 進行異常檢測

  1. 任務(wù)信息提示:為了有效提示 GPT-4V 進行異常檢測,必須提供清晰的任務(wù)信息。本研究將提示表述如下:“請確定圖像是否包含異常點或異常點。
  2. 類信息提示:對數(shù)據(jù)類型和類別的理解至關(guān)重要。如果 GPT-4V 可能難以識別數(shù)據(jù)類,可能會提供顯式類信息。例如,“請確定與 {CLS} 相關(guān)的圖像是否包含異?;蛉毕荨?/li>
  3. 正常標準提示:GPT-4V在回答與確定正常標準相關(guān)的問題時可能會遇到困難,有時如果沒有人類專業(yè)知識,甚至無法檢查標準。因此,本研究也明確提供了正常標準。例如,MVTec-LOCO [7] 中早餐盒的正常標準可以表示如下:“1.它應(yīng)該包含兩個橙子、一個桃子和一些谷物、堅果和香蕉片;2.水果應(yīng)該在飯盒的左邊,麥片在右上方,堅果和香蕉片在飯盒的右下方。
  4. 參考圖像提示:為確保正常標準和圖像之間更好地對齊,在語言提示旁邊提供了普通參考圖像。例如,“第一張圖片是正常的。請確定第二張圖像是否包含異常或缺陷。

基于GPT-4V的異常檢測評估的局限性

  1. 定性結(jié)果的優(yōu)勢:分析主要依賴于定性評估,缺乏定量指標,無法更客觀地評估模型在異常檢測方面的性能。納入量化措施將為評估提供更有力的基礎(chǔ)。
  2. 評估案例的范圍:評估僅限于有限的案例或場景范圍。這種狹隘的焦點可能無法完全捕捉到實際異常檢測任務(wù)中遇到的各種挑戰(zhàn)。擴大評估案例的范圍將更全面地了解模型的功能。
  3. 單次互動評估:該研究主要集中在單輪對話上。相比之下,正如GPT-4V的上下文學(xué)習(xí)能力所觀察到的那樣[101],多輪對話可以激發(fā)更深層次的互動。單輪對話方法限制了交互的深度,并可能限制模型的理解力及其在響應(yīng)異常檢測任務(wù)方面的有效性。探索多輪交互可以揭示模型性能的更細致入微的觀點。

實驗

????????本研究進行了廣泛的評估,以評估 GPT-4V 在異常檢測方面的能力,如圖 1 所示。從模態(tài)的角度來看,我們評估了圖像(第 3、4、6、7、8 節(jié))、點云(第 5 節(jié))、視頻(第 9、10 節(jié))和時間序列(第 11 節(jié))。從領(lǐng)域的角度,對工業(yè)檢查(第3、4、6、5節(jié))、醫(yī)療診斷(第7、8節(jié))和視頻監(jiān)控(第9、10節(jié))進行評估。據(jù)我們所知,這是第一項調(diào)查如此廣泛的異常檢測模式和領(lǐng)域的研究。

工業(yè)圖像異常檢測

  • 不同的提示 [ 101, 56 ] 可能會導(dǎo)致 GPT-4V 的不同響應(yīng)。我們旨在研究不同信息對提示 GPT-4V 進行工業(yè)異常檢測的影響。在前面討論的問題之后,本研究進一步發(fā)展了三個提示,a)類別信息:所需檢測產(chǎn)品的名稱,如“瓶子”和“蠟燭”,b)人類專業(yè)知識:正常外觀和潛在的異常狀態(tài),并用語言表達它們,例如,“通常,給出的圖像應(yīng)該顯示干凈且結(jié)構(gòu)良好的印刷電路板(PCB),并帶有清晰的痕跡, 焊接組件和不同的標簽。它可能存在引腳彎曲、冷焊點、元件缺失或標簽污跡等缺陷“, c) 參考圖像:正常參考圖像,以使 GPT-4V 更好地了解正態(tài)性。我們建議在零樣本設(shè)置(僅帶有語言提示)或單樣本設(shè)置(與語言提示一起提供一張參考圖像)中評估 GPT-4V。對于每個設(shè)置,我們測試了三種不同的變體:a) 幼稚的提示,例如“請確定圖像是否包含異?;蛉毕荨?,b) 帶有類信息,以及 c) 具有人類專業(yè)知識。

  • 突出顯示給定的類信息以及正常和異常狀態(tài)描述。綠色、紅色和藍色突出顯示 GPT-4V 輸出的正確、不正確和附加信息。

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理
邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理
邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

工業(yè)圖像異常定位

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

點云異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

邏輯異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

醫(yī)學(xué)圖像異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

行人異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

流量異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理

時間序列異常檢測

邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出,深度學(xué)習(xí),語言模型,人工智能,自然語言處理文章來源地址http://www.zghlxwxcb.cn/news/detail-768061.html

到了這里,關(guān)于邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • 人臉識別場景下Faiss大規(guī)模向量檢測性能測試評估分析

    人臉識別場景下Faiss大規(guī)模向量檢測性能測試評估分析

    在前面的兩篇博文中,主要是考慮基于之前以往的人臉識別項目經(jīng)歷結(jié)合最近使用到的faiss來構(gòu)建更加高效的檢索系統(tǒng),感興趣的話可以自行移步閱讀即可: 《基于facenet+faiss開發(fā)構(gòu)建人臉識別系統(tǒng)》 《基于arcFace+faiss開發(fā)構(gòu)建人臉識別系統(tǒng)》 在前面兩篇博文中整體的計算流程

    2024年02月13日
    瀏覽(28)
  • 【一等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘賽題「NUFE」解題思路

    【一等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘賽題「NUFE」解題思路

    第十屆CCF大數(shù)據(jù)與計算智能大賽(2022 CCF BDCI)已圓滿結(jié)束, 大賽官方競賽平臺DataFountain (簡稱DF平臺)正在陸續(xù)釋出各賽題獲獎隊伍的方案思路,歡迎廣大數(shù)據(jù)科學(xué)家交流討論。 本方案為 【大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘】 賽題的 一等獎 獲獎方案,賽題地址:

    2024年02月10日
    瀏覽(39)
  • 【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘賽題「Aries」解題思路

    【二等獎方案】大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘賽題「Aries」解題思路

    第十屆CCF大數(shù)據(jù)與計算智能大賽(2022 CCF BDCI)已圓滿結(jié)束, 大賽官方競賽平臺DataFountain (簡稱DF平臺)正在陸續(xù)釋出各賽題獲獎隊伍的方案思路,歡迎廣大數(shù)據(jù)科學(xué)家交流討論。 本方案為 【大規(guī)模金融圖數(shù)據(jù)中異常風(fēng)險行為模式挖掘】 賽題的 二等獎 獲獎方案,賽題地址:

    2024年02月10日
    瀏覽(24)
  • 【天衍系列 01】深入理解Flink的 FileSource 組件:實現(xiàn)大規(guī)模數(shù)據(jù)文件處理

    【天衍系列 01】深入理解Flink的 FileSource 組件:實現(xiàn)大規(guī)模數(shù)據(jù)文件處理

    Apache Flink 是一個流式處理框架,被廣泛應(yīng)用于大數(shù)據(jù)領(lǐng)域的實時數(shù)據(jù)處理和分析任務(wù)中。在 Flink 中,F(xiàn)ileSource 是一個重要的組件,用于從文件系統(tǒng)中讀取數(shù)據(jù)并將其轉(zhuǎn)換為 Flink 的數(shù)據(jù)流。本文將深入探討 FileSource 的工作原理、用法以及與其他數(shù)據(jù)源的比較。 FileSource 是 Fli

    2024年02月21日
    瀏覽(23)
  • 【音頻分類與檢測】PANNs:用于音頻模式識別的大規(guī)模預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò)

    【音頻分類與檢測】PANNs:用于音頻模式識別的大規(guī)模預(yù)訓(xùn)練音頻神經(jīng)網(wǎng)絡(luò)

    音頻模式識別是機器學(xué)習(xí)領(lǐng)域的一個重要研究課題,它包括 音頻標注、聲音場景分類、音樂分類、語音情感分類和聲音事件檢測 等任務(wù)。近年來,神經(jīng)網(wǎng)絡(luò)已被應(yīng)用于解決音頻模式識別問題。然而,以前的系統(tǒng)是建立在特定數(shù)據(jù)集上的,數(shù)據(jù)集時長有限。 最近,在計算機視

    2024年02月02日
    瀏覽(30)
  • 阿里云通義千問開源第二波!大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)

    阿里云通義千問開源第二波!大規(guī)模視覺語言模型Qwen-VL上線魔搭社區(qū)

    通義千問開源第二波!8月25日消息,阿里云推出大規(guī)模視覺語言模型Qwen-VL,一步到位、直接開源。Qwen-VL以通義千問70億參數(shù)模型Qwen-7B為基座語言模型研發(fā),支持圖文輸入,具備多模態(tài)信息理解能力。在主流的多模態(tài)任務(wù)評測和多模態(tài)聊天能力評測中,Qwen-VL取得了遠超同等規(guī)

    2024年02月11日
    瀏覽(28)
  • 無人機支持的空中無蜂窩大規(guī)模MIMO系統(tǒng)中上行鏈路分布式檢測

    無人機支持的空中無蜂窩大規(guī)模MIMO系統(tǒng)中上行鏈路分布式檢測

    在無人機(UAV)支持的空中蜂窩自由大規(guī)模多輸入多輸出(mMIMO)系統(tǒng)中,上行鏈路分布式檢測涉及以下幾個關(guān)鍵概念和步驟: “無蜂窩”意味著系統(tǒng)不是圍繞傳統(tǒng)的蜂窩結(jié)構(gòu)組織的,而是通過分散的多個基站協(xié)作提供覆蓋和容量,而不是單個固定的基站。 “上行鏈路”(

    2024年02月22日
    瀏覽(26)
  • BFT最前線丨浙江大學(xué)和螞蟻集團合作,成立智能視覺實驗室;ChatGPT 對亞洲節(jié)點大規(guī)模封號;谷歌CEO稱將推出Bard升級版

    BFT最前線丨浙江大學(xué)和螞蟻集團合作,成立智能視覺實驗室;ChatGPT 對亞洲節(jié)點大規(guī)模封號;谷歌CEO稱將推出Bard升級版

    文 | BFT機器人 浙江大學(xué)和螞蟻集團合作,成立智能視覺實驗室 據(jù)消息,浙江大學(xué)和螞蟻集團達成合作成立「智能視覺聯(lián)合實驗室」,旨在推進智能視覺的技術(shù)創(chuàng)新和產(chǎn)業(yè)應(yīng)用,重點攻堅包括機器視覺、三維重建、視覺內(nèi)容生成等人工智能及計算機視覺在內(nèi)的核心智能視覺技

    2024年02月09日
    瀏覽(25)
  • 大規(guī)模語言模型--LLaMA 家族

    大規(guī)模語言模型--LLaMA 家族

    LLaMA 模型集合由 Meta AI 于 2023 年 2 月推出, 包括四種尺寸(7B 、13B 、30B 和 65B)。由于 LLaMA 的 開放性和有效性, 自從 LLaMA 一經(jīng)發(fā)布, 就受到了研究界和工業(yè)界的廣泛關(guān)注。LLaMA 模型在開放基準的各 種方面都取得了非常出色的表現(xiàn), 已成為迄今為止最流行的開放語言模型。大

    2024年04月25日
    瀏覽(23)
  • 基于Spark的大規(guī)模日志分析

    摘要: 本篇文章將從一個實際項目出發(fā),分享如何使用 Spark 進行大規(guī)模日志分析,并通過代碼演示加深讀者的理解。 本文分享自華為云社區(qū)《【實戰(zhàn)經(jīng)驗分享】基于Spark的大規(guī)模日志分析【上進小菜豬大數(shù)據(jù)系列】》,作者:上進小菜豬。 隨著互聯(lián)網(wǎng)的普及和應(yīng)用范圍的擴

    2024年02月09日
    瀏覽(22)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包