PAPER | CODE |
---|---|
https://arxiv.org/pdf/2311.02782.pdf | https://github.com/caoyunkang/GPT4V-for-Generic-Anomaly-Detection |
????????圖1 GPT-4V在多模態(tài)多任務(wù)異常檢測中的綜合評估 在這項研究中,我們在多模態(tài)異常檢測的背景下對GPT-4V進行了全面評估。我們考慮了四種模式:圖像、視頻、點云和時間序列,并探索了九個具體任務(wù),包括工業(yè)圖像異常檢測/定位、點云異常檢測、醫(yī)學(xué)圖像異常檢測/定位、邏輯異常檢測、行人異常檢測、交通異常檢測和時間序列異常檢測。我們的評估包括 15 個數(shù)據(jù)集。
摘要
????????異常檢測是跨不同域和數(shù)據(jù)類型的關(guān)鍵任務(wù)。但是,現(xiàn)有的異常檢測模型通常是針對特定域和模式設(shè)計的。本研究探討了如何使用強大的視覺語言模型 GPT-4V(ision) 以通用方式處理異常檢測任務(wù)。我們研究了 GPT-4V 在多模態(tài)、多域異常檢測任務(wù)中的應(yīng)用,包括圖像、視頻、點云和時間序列數(shù)據(jù),涉及多個應(yīng)用領(lǐng)域,例如工業(yè)、醫(yī)療、邏輯、視頻、3D 異常檢測和定位任務(wù)。為了提高 GPT-4V 的性能,我們結(jié)合了不同類型的附加提示,例如類信息、人類專業(yè)知識和參考圖像作為提示。根據(jù)我們的實驗,GPT-4V 被證明在零/單次異常檢測中檢測和解釋全局和細粒度語義模式方面非常有效。這樣可以準確區(qū)分正常和異常實例。盡管我們在這項研究中進行了廣泛的評估,但仍有未來的評估空間,可以從不同方面進一步挖掘 GPT-4V 的通用異常檢測能力。其中包括探索定量指標、擴展評估基準、納入多輪互動以及納入人類反饋循環(huán)。盡管如此,GPT-4V 在通用異常檢測和理解方面表現(xiàn)出可喜的性能,從而為異常檢測開辟了一條新途徑。所有評估示例(包括圖像和文本提示)都將在 GPT4V-for-Generic-Anomaly-Detection https://github.com/caoyunkang/ 提供。
動機和概述
????????異常檢測技術(shù)已廣泛應(yīng)用于不同的領(lǐng)域,如工業(yè)檢測[29,98]、醫(yī)療對角線[107]、視頻監(jiān)控[84]、欺詐檢測[30]以及許多其他識別異常情況至關(guān)重要的領(lǐng)域。盡管存在許多用于異常檢測的技術(shù)[14,3,69,41,38,79,110,16,103],但許多現(xiàn)有方法主要依賴于描述正態(tài)數(shù)據(jù)分布的方法。他們經(jīng)常忽視高層次的感知,主要將其視為低層次的任務(wù)。但是,異常檢測的實際應(yīng)用通常需要對數(shù)據(jù)有更全面、更高級的理解。要實現(xiàn)這種理解,至少需要三個關(guān)鍵步驟:
- 了解數(shù)據(jù)類型和類別: 第一步涉及對數(shù)據(jù)集中存在的數(shù)據(jù)類型和類別的透徹理解。數(shù)據(jù)可以采取多種形式,包括圖像、視頻、點云、時間序列數(shù)據(jù)等。每種數(shù)據(jù)類型都可能需要特定的異常檢測方法和注意事項。此外,不同的類別可能對正常狀態(tài)有不同的定義。
- 確定正態(tài)的標準:在獲得數(shù)據(jù)類型和類別后,可以進一步推理正態(tài)態(tài)的標準,這需要對數(shù)據(jù)有較高的了解。
- 評估數(shù)據(jù)一致性:最后一步是評估提供的數(shù)據(jù)是否符合既定的正態(tài)性標準。任何偏離這些標準的行為都可以歸類為異常。
我們的方法
提示 GPT-4V 進行異常檢測
- 任務(wù)信息提示:為了有效提示 GPT-4V 進行異常檢測,必須提供清晰的任務(wù)信息。本研究將提示表述如下:“請確定圖像是否包含異常點或異常點。
- 類信息提示:對數(shù)據(jù)類型和類別的理解至關(guān)重要。如果 GPT-4V 可能難以識別數(shù)據(jù)類,可能會提供顯式類信息。例如,“請確定與 {CLS} 相關(guān)的圖像是否包含異?;蛉毕荨?/li>
- 正常標準提示:GPT-4V在回答與確定正常標準相關(guān)的問題時可能會遇到困難,有時如果沒有人類專業(yè)知識,甚至無法檢查標準。因此,本研究也明確提供了正常標準。例如,MVTec-LOCO [7] 中早餐盒的正常標準可以表示如下:“1.它應(yīng)該包含兩個橙子、一個桃子和一些谷物、堅果和香蕉片;2.水果應(yīng)該在飯盒的左邊,麥片在右上方,堅果和香蕉片在飯盒的右下方。
- 參考圖像提示:為確保正常標準和圖像之間更好地對齊,在語言提示旁邊提供了普通參考圖像。例如,“第一張圖片是正常的。請確定第二張圖像是否包含異常或缺陷。
基于GPT-4V的異常檢測評估的局限性
- 定性結(jié)果的優(yōu)勢:分析主要依賴于定性評估,缺乏定量指標,無法更客觀地評估模型在異常檢測方面的性能。納入量化措施將為評估提供更有力的基礎(chǔ)。
- 評估案例的范圍:評估僅限于有限的案例或場景范圍。這種狹隘的焦點可能無法完全捕捉到實際異常檢測任務(wù)中遇到的各種挑戰(zhàn)。擴大評估案例的范圍將更全面地了解模型的功能。
- 單次互動評估:該研究主要集中在單輪對話上。相比之下,正如GPT-4V的上下文學(xué)習(xí)能力所觀察到的那樣[101],多輪對話可以激發(fā)更深層次的互動。單輪對話方法限制了交互的深度,并可能限制模型的理解力及其在響應(yīng)異常檢測任務(wù)方面的有效性。探索多輪交互可以揭示模型性能的更細致入微的觀點。
實驗
????????本研究進行了廣泛的評估,以評估 GPT-4V 在異常檢測方面的能力,如圖 1 所示。從模態(tài)的角度來看,我們評估了圖像(第 3、4、6、7、8 節(jié))、點云(第 5 節(jié))、視頻(第 9、10 節(jié))和時間序列(第 11 節(jié))。從領(lǐng)域的角度,對工業(yè)檢查(第3、4、6、5節(jié))、醫(yī)療診斷(第7、8節(jié))和視頻監(jiān)控(第9、10節(jié))進行評估。據(jù)我們所知,這是第一項調(diào)查如此廣泛的異常檢測模式和領(lǐng)域的研究。
工業(yè)圖像異常檢測
-
不同的提示 [ 101, 56 ] 可能會導(dǎo)致 GPT-4V 的不同響應(yīng)。我們旨在研究不同信息對提示 GPT-4V 進行工業(yè)異常檢測的影響。在前面討論的問題之后,本研究進一步發(fā)展了三個提示,a)類別信息:所需檢測產(chǎn)品的名稱,如“瓶子”和“蠟燭”,b)人類專業(yè)知識:正常外觀和潛在的異常狀態(tài),并用語言表達它們,例如,“通常,給出的圖像應(yīng)該顯示干凈且結(jié)構(gòu)良好的印刷電路板(PCB),并帶有清晰的痕跡, 焊接組件和不同的標簽。它可能存在引腳彎曲、冷焊點、元件缺失或標簽污跡等缺陷“, c) 參考圖像:正常參考圖像,以使 GPT-4V 更好地了解正態(tài)性。我們建議在零樣本設(shè)置(僅帶有語言提示)或單樣本設(shè)置(與語言提示一起提供一張參考圖像)中評估 GPT-4V。對于每個設(shè)置,我們測試了三種不同的變體:a) 幼稚的提示,例如“請確定圖像是否包含異?;蛉毕荨?,b) 帶有類信息,以及 c) 具有人類專業(yè)知識。
-
突出顯示給定的類信息以及正常和異常狀態(tài)描述。綠色、紅色和藍色突出顯示 GPT-4V 輸出的正確、不正確和附加信息。
工業(yè)圖像異常定位
點云異常檢測
邏輯異常檢測
醫(yī)學(xué)圖像異常檢測
行人異常檢測
流量異常檢測
文章來源:http://www.zghlxwxcb.cn/news/detail-768061.html
時間序列異常檢測
文章來源地址http://www.zghlxwxcb.cn/news/detail-768061.html
到了這里,關(guān)于邁向通用異常檢測和理解:大規(guī)模視覺語言模型(GPT-4V)率先推出的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!