国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation

這篇具有很好參考價值的文章主要介紹了【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

Du Y, Bai F, Huang T, et al. SegVol: Universal and Interactive Volumetric Medical Image Segmentation[J]. arXiv preprint arXiv:2311.13385, 2023.[代碼開源]

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

【論文概述】

本文思路借鑒于自然圖像分割領(lǐng)域的SAM,介紹了一種名為SegVol的先進醫(yī)學圖像分割模型,旨在構(gòu)建一種圖像分割基礎(chǔ)模型,這是一個面向體積醫(yī)學圖像分割的通用和交互式模型。SegVol的設(shè)計目的是通過處理各種解剖類別來提高醫(yī)學圖像分割的準確性和效率。該模型通過在9萬個未標記的計算機斷層掃描(CT)體積和6千個標記的CT體積上進行訓練,能夠支持超過200個解剖類別的分割模型利用語義和空間prompts來實現(xiàn)。SegVol通過使用輕量級架構(gòu)實現(xiàn)高效率,采用**“縮小-放大”機制減少計算成本**,同時能保持精確的分割。通過一系列實驗,SegVol在多個分割基準測試中展現(xiàn)出卓越性能,尤其在復雜病變數(shù)據(jù)集上的表現(xiàn)顯著超過現(xiàn)有先進模型如nnU-Net。

【一.Introduction總結(jié)】

這篇論文的Introduction寫得很好,提供了對SegVol模型背景、動機、特點和性能的全面概覽,這里特別總結(jié)如下:

  1. 體積醫(yī)學圖像分割的重要性:論文首先強調(diào)體積圖像分割在醫(yī)學圖像分析中的重要作用,特別是在提取感興趣區(qū)域(如器官、病變和組織)方面。體積分割對于多種臨床應用至關(guān)重要,包括腫瘤監(jiān)測、手術(shù)規(guī)劃、疾病診斷和治療優(yōu)化等。
  2. 現(xiàn)有研究的局限性:盡管在醫(yī)學圖像分割方面取得了顯著進展,但現(xiàn)有的解決方案仍存在關(guān)鍵限制,特別是在處理復雜任務(如肝臟腫瘤或結(jié)腸癌分割)和實際任務(如交互式分割)方面?,F(xiàn)有模型通常受到可用數(shù)據(jù)集大小和類別差異性的限制,難以泛化到不同的數(shù)據(jù)集。此外,傳統(tǒng)模型在分割復雜結(jié)構(gòu)(如腫瘤和囊腫)時性能不佳,主要是因為數(shù)據(jù)不足和無法通過用戶交互利用空間信息。最后,現(xiàn)有解決方案在推理過程中計算成本高,通常采用滑動窗口方法進行推理,這不僅耗時,而且由于僅包含局部信息而視野狹窄。
  3. SegVol模型的介紹:為了克服上述限制,論文引出了SegVol——一種通用且交互式的體積醫(yī)學圖像分割模型。SegVol旨在分割200多種解剖類別,準確分割器官、組織和病變。該模型基于輕量級架構(gòu)構(gòu)建,確保其在實際醫(yī)學圖像分析中的高效性。
  4. SegVol的關(guān)鍵特性:論文概述了SegVol的幾個關(guān)鍵特點:
    • 預訓練:在96k CT體積上進行預訓練,并利用偽標簽減少數(shù)據(jù)集和分割類別之間的虛假相關(guān)性。
    • 文本提示分割:集成語言模型,通過在25個數(shù)據(jù)集的200多個解剖類別上的訓練,實現(xiàn)文本提示分割。
    • 語義和空間提示的協(xié)同策略:通過協(xié)調(diào)語義提示和空間提示,實現(xiàn)高精度分割。
    • 縮小-放大機制:顯著降低計算成本,同時保留精確分割。
  5. 性能評估:SegVol在多個分割數(shù)據(jù)集上進行了廣泛評估,主要涉及重要解剖類別的實驗,展示了其通用分割能力,并與四種最先進方法進行了比較,顯示出其顯著優(yōu)勢,特別是在難分割的類別中。

【二.數(shù)據(jù)處理】

數(shù)據(jù)預處理

本文收集了25個開源數(shù)據(jù)集,首先基于每個Voxels的平均體素值計算一個閾值。高于此閾值的體素被視為前景。計算前景體素的99.95百分位和0.05百分位,并將其作為剪切原始體素的上下界,進一步使用均值和標準偏差對前景體素進行歸一化。

偽掩模生成和去噪

大多數(shù)數(shù)據(jù)集僅具有少數(shù)分割目標的注釋,例如幾個器官。因此,深度模型可能會學習數(shù)據(jù)集和分割目標之間的虛假相關(guān)性,并在推理階段產(chǎn)生較差的結(jié)果。論文使用經(jīng)典FH算法先產(chǎn)生偽mask,但由于FH產(chǎn)生的偽mask可能含有噪聲或者錯誤,本文采取以下策略進一步處理:1)在應用時,偽掩碼被替換為ground-truth掩碼。2)過濾掉小于整個體積的1‰的微小結(jié)構(gòu)。3)對每個mask進行膨脹和腐蝕操作。

論文中用于預處理的FH分割算法,這里補充概述一下:“FH algorithm”指的是Felzenszwalb和Huttenlocher提出的圖像分割算法。這種算法是一種用于分割數(shù)字圖像的高效且有效的方法。其核心思想是將圖像視為一個圖(graph),其中像素代表節(jié)點,而節(jié)點之間的邊代表像素之間的相似度。算法的目的是將圖像分割成多個區(qū)域,這些區(qū)域內(nèi)部的像素在某種意義上是相似的,而不同區(qū)域的像素則具有較大差異。

FH算法的主要特點包括:

1.基于圖的表示:算法將圖像表示為圖,其中圖中的每個節(jié)點對應一個像素,節(jié)點之間的邊表示像素間的相似性。

2.分段準則:算法使用特定的準則來決定是否將圖中的兩個相鄰節(jié)點(即兩個像素)劃分到同一個分割區(qū)域。這通常涉及比較節(jié)點間的相似性(如顏色、亮度或紋理)和預設(shè)的閾值。

3.效率:該算法以其計算效率而聞名,能夠快速處理大型圖像,使其適合于各種應用。

4.靈活性和廣泛適用性:盡管該算法最初是為一般圖像分割設(shè)計的,但它可以通過調(diào)整參數(shù)適應不同類型的圖像和特定的分割需求。

在醫(yī)學圖像處理領(lǐng)域,這種類型的算法可能被用于生成偽標簽或輔助標記,從而幫助訓練更復雜的模型(如SegVol),尤其是在標記數(shù)據(jù)稀缺的情況下。通過使用這些偽標簽,可以增強模型對未標記數(shù)據(jù)的理解,從而提高其在實際醫(yī)學應用中的性能和準確性。

【三.模型結(jié)構(gòu)】

模型結(jié)構(gòu)圖:

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

a. SegVol的主要結(jié)構(gòu)包括圖像編碼器、文本編碼器、提示編碼器和mask解碼器。除了文本編碼器外,所有網(wǎng)絡都是可學習的。圖像編碼器提取體積輸入的圖像嵌入。圖像嵌入與提示嵌入一起輸入到解碼器中,以預測分割mask

具體組成的各部分概述如下:

  • Image encoder

使用VIT,以MAE方式先在96k CTs上自監(jiān)督訓練,然后在6k CT,帶有150k標記mask的數(shù)據(jù)上監(jiān)督訓練。(p.s 這一步就耗費很大了)

  • Text prompt encoder

    直接使用CLIP模型對輸入的prompts編碼,給定一個單詞或短語作為提示,使用模板s ='A computerized tomography of a [text prompt]'撰寫prompts。然后將 s s s標記化為 t t t。文本編碼器接受 t t t作為輸入并輸出文本嵌入。(p.s直接上多模態(tài)模型)

  • Spatial prompt encoder

    借鑒SAM,使用了point prompts,box prompts,分別編碼為embedding,然后和上一步的文本prompts embeddings 拼接: z prompt? = F P E ( p , b , s , θ P E ) = [ z point? , z box? , z text? ] . \boldsymbol{z}_{\text {prompt }}=\mathcal{F}_{\mathrm{PE}}\left(\boldsymbol{p}, \boldsymbol, \boldsymbol{s}, \boldsymbol{\theta}_{\mathrm{PE}}\right)=\left[\boldsymbol{z}_{\text {point }}, \boldsymbol{z}_{\text {box }}, \boldsymbol{z}_{\text {text }}\right] . zprompt??=FPE?(p,b,s,θPE?)=[zpoint??,zbox??,ztext??].

  • Mask decoder

解碼器設(shè)計稍微比常規(guī)的多了一些:使用自注意力和交叉注意力在兩個方向上融合圖像嵌入和提示嵌入,然后采用轉(zhuǎn)置卷積和插值操作來生成mask。由于文本嵌入是實現(xiàn)通用分割的關(guān)鍵,并且學習文本與體積區(qū)域之間的關(guān)聯(lián)也更為困難,通過在聯(lián)合提示嵌入 z prompt? \boldsymbol{z}_{\text {prompt }} zprompt??旁引入一個平行的文本輸入 z text? \boldsymbol{z}_{\text {text }} ztext??來增強文本信息。進一步在mask解碼器中計算轉(zhuǎn)置卷積輸出的上采樣嵌入與文本嵌入之間的相似度矩陣。在插值之前,將相似度矩陣與mask預測的逐元素乘法應用于模型,之后模型輸出mask。

【四.訓練方法】

  • Prompt generation

    模型支持point、box、text prompts及他們的混合prompts。

    segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記
    b. 輸入圖像轉(zhuǎn)換和提示生成的示意圖。
    • 點提示(Point Prompt):
      • 點提示由三種類型的點構(gòu)成:正點(positive point)、負點(negative point)和忽略點(ignore point)。
      • 正點位于目標遮罩區(qū)域內(nèi),表明這些點屬于感興趣的解剖結(jié)構(gòu)。
      • 負點位于目標遮罩區(qū)域外,表明這些點不屬于感興趣的結(jié)構(gòu)。
      • 忽略點用于輸入的完整性,這些點會被模型忽略,確保點提示的長度一致。
      • 點提示是基于真實或偽標注的遮罩(由專業(yè)標注或如FH算法產(chǎn)生的偽標注)構(gòu)建的。
    • 框提示(Box Prompt):
      • 框提示也是基于真實或偽遮罩生成的,但結(jié)合隨機抖動,以提高模型的魯棒性。
      • 在為某個偽遮罩生成框提示時,由于不規(guī)則的3D形狀,框可能會覆蓋其他遮罩。
      • 為解決這個問題,計算生成的框與包含的偽遮罩之間的交集比(Intersection over Union, IOU)。
      • 如果任何遮罩的IOU大于0.9,它也會被集成并視為該框提示對應的目標遮罩的一部分。
    • 小結(jié):
      • 點提示和框提示可以通過基于真實分割遮罩的點采樣來生成。
      • 文本提示是基于它們的類別名稱構(gòu)建的。
      • 由于非監(jiān)督的FH算法產(chǎn)生的偽遮罩沒有語義信息,因此在使用偽遮罩進行訓練時,只使用點提示和框提示。
  • 損失函數(shù)

binary cross-entropy (BCE) loss 和 Dice loss

【五.Zoom-out-zoom-in Mechanism】

這是本文的主要創(chuàng)新點之一,這里稍微詳細一點記錄一下

  • 設(shè)計動機

    zoom-out-zoom-in機制的設(shè)計動機源于處理體積醫(yī)學圖像分割時面臨的幾個關(guān)鍵挑戰(zhàn):

    • 高計算成本:體積醫(yī)學圖像(如CT或MRI掃描)通常包含大量的體素(三維像素),這導致分割這些圖像在計算上非常昂貴。傳統(tǒng)的分割方法,如滑動窗口技術(shù),雖然可以降低計算負荷,但仍然耗時且效率不高。
    • 保持細節(jié)信息:在降低圖像分辨率以減少計算負擔的同時,有必要保持足夠的細節(jié)信息,以確保分割的準確性。特別是對于較小的或邊緣不清的結(jié)構(gòu),如小腫瘤或細小的解剖結(jié)構(gòu),保持細節(jié)尤為重要。
    • 全局和局部信息的平衡:有效的醫(yī)學圖像分割需要同時考慮全局結(jié)構(gòu)(整個器官或身體部位)和局部細節(jié)(特定病變或特定解剖特征)。傳統(tǒng)方法在處理這兩方面信息時往往存在權(quán)衡。

    基于這些挑戰(zhàn),Zoom-out-zoom-in機制被設(shè)計出來,其目標是:

    • 提高效率:通過首先在較低分辨率(縮小視圖)處理整個圖像,快速確定感興趣區(qū)域(ROI),從而減少在高分辨率(放大視圖)下需要處理的數(shù)據(jù)量。
    • 保持精確性:在確定了ROI之后,只對這些區(qū)域進行高分辨率處理,確保關(guān)鍵細節(jié)的準確性和完整性。
    • 全局與局部的協(xié)調(diào):通過結(jié)合全局視圖(提供上下文信息和整體結(jié)構(gòu))和局部視圖(提供細節(jié)信息),Zoom-out-zoom-in機制在提高效率的同時保持了分割的準確性和細節(jié)豐富度。

    因此,Zoom-out-zoom-in機制是對現(xiàn)有體積醫(yī)學圖像分割方法的一種重要改進,它使得處理大規(guī)模醫(yī)學圖像數(shù)據(jù)集變得既高效又準確。

  • Multi-view training

為了適應不同大小的體數(shù)據(jù),并使放大縮小推理,構(gòu)造了兩種訓練數(shù)據(jù)。一種是對大尺寸CT進行縮放以適應模型的輸入尺寸,并獲得縮小視圖的訓練數(shù)據(jù);另一種方法是將原始的大尺寸CT裁剪成模型輸入尺寸的立方體。通過這種方式,獲得了放大視圖的訓練數(shù)據(jù)。該過程如圖C所示。

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記
c. 縮小-放大訓練:SegVol在全局和局部視圖的數(shù)據(jù)上進行訓練。
  • Zoom-out-zoom-in Inference

    segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記d. 縮小-放大推理:SegVol首先進行全局推理,然后對提取的感興趣區(qū)域(ROI)進行局部推理,以優(yōu)化結(jié)果。

    步驟總結(jié)如下:

    • Zoom-out和全局推理

      • 首先,對大型體積圖像進行縮小處理,即降低其分辨率以便于處理。
      • 縮小后的圖像被輸入到SegVol模型中進行全局推理。
      • 在全局推理階段,模型基于用戶提供的提示(如文本提示、點提示或框提示)生成全局預測的分割遮罩。
    • 定位感興趣區(qū)域(ROI)并Zoom-in

      • 根據(jù)全局預測結(jié)果,確定感興趣的區(qū)域(ROI)。
      • 對這些區(qū)域進行放大處理,即從原始尺寸的圖像中裁剪出這些區(qū)域。
    • 應用滑動窗口進行局部推理

      • 在放大的ROI上應用滑動窗口技術(shù),以執(zhí)行更精確的局部推理。
      • 為了適應局部推理,對輸入的提示進行調(diào)整。當放大時,原始的點提示和框提示可能不再適用于局部區(qū)域,因此會忽略位于局部區(qū)域外的正點或負點。
    • 生成局部框提示

      • 類似于訓練中的框提示生成,局部框提示是基于全局預測遮罩在局部區(qū)域內(nèi)視為偽遮罩來生成的。
    • 填充并輸出最終結(jié)果

      • 最后,將局部推理得到的分割遮罩填充到全局分割遮罩的相應ROI區(qū)域中。
      • 這樣,Zoom-out-zoom-in機制同時實現(xiàn)了高效和精確的推理。

      總體來說,這一機制通過首先進行快速的全局分析,然后對關(guān)鍵區(qū)域進行更詳細的局部分析,有效地平衡了處理速度和分割精度。

【六.數(shù)據(jù)集】

這里就貼圖了,不做太多解釋。從醫(yī)學開源數(shù)據(jù)集中收集了25個CT圖像分割數(shù)據(jù)集,形成了一個綜合數(shù)據(jù)集,涵蓋了CT圖像分割中的各種熱點問題。收集的綜合數(shù)據(jù)集包括四個主要人體區(qū)域:頭頸部、胸部、腹部和骨盆,包含47個重要區(qū)域中的200多個器官、組織和病變類型。共有5772個CT參與了該綜合數(shù)據(jù)集的訓練和測試,總共有149199個帶有語義的體積mask標簽。第二個圖展示了來自四個主要人體區(qū)域的綜合數(shù)據(jù)集樣本,以2D切片形式呈現(xiàn)。為了增強SegVol的空間分割能力,執(zhí)行了FH算法以生成510k個偽體積mask標簽,用于填補這些實例中未標注的區(qū)域。此外,為了構(gòu)建通用的體積醫(yī)學圖像特征提取器,收集了90k個未標注的開源CT進行預訓練。這些數(shù)據(jù)和標注構(gòu)成了SegVol的基礎(chǔ)。

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

聯(lián)合數(shù)據(jù)集的概述和示例。A.聯(lián)合數(shù)據(jù)集概述。聯(lián)合數(shù)據(jù)集包括47個重要區(qū)域,每個區(qū)域包含該空間區(qū)域內(nèi)的一個或多個重要解剖結(jié)構(gòu)。B.關(guān)節(jié)數(shù)據(jù)集的主要類別:其掩碼標簽數(shù)量排名前30位,以及人體四個主要部位的掩碼標簽計數(shù)在關(guān)節(jié)數(shù)據(jù)集中所占的比例。C.從關(guān)節(jié)數(shù)據(jù)集中采樣的15個不同類別的器官、組織和病變的示例,以切片視圖呈現(xiàn)。

【七.性能】

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

box prompts比point更加有效,組合的比單一的有效,增加Zoom操作漲點

segvol,基礎(chǔ)模型,SAM類,醫(yī)學圖像分割,論文閱讀,筆記

多模態(tài)大模型的共性,數(shù)據(jù)量增長,性能也在持續(xù)增長文章來源地址http://www.zghlxwxcb.cn/news/detail-794258.html

到了這里,關(guān)于【論文閱讀筆記】SegVol: Universal and Interactive Volumetric Medical Image Segmentation的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    【論文閱讀筆記】Pre-trained Universal Medical Image Transformer

    Luo L, Chen X, Tang B, et al. Pre-trained Universal Medical Image Transformer[J]. arXiv preprint arXiv:2312.07630, 2023.【代碼開源】 【論文概述】 本文介紹了一種名為“預訓練通用醫(yī)學圖像變換器(Pre-trained Universal Medical Image Transformer,簡稱PUMIT)”的新型算法,該算法旨在解決標記醫(yī)學圖像數(shù)據(jù)稀缺

    2024年02月04日
    瀏覽(29)
  • LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA模型論文《LLaMA: Open and Efficient Foundation Language Models》閱讀筆記

    LLaMA是meta在2023年2月開源的大模型,在這之后,很多開源模型都是基于LLaMA的,比如斯坦福大學的羊駝模型。 LLaMA的重點是比通常情況下使用更多的語料,來訓練一系列可在各種推理預算下實現(xiàn)可能的最佳性能的語言模型。 摘要翻譯:我們在此介紹LLaMA,這是一個參數(shù)范圍從

    2024年02月15日
    瀏覽(32)
  • 【論文閱讀筆記】Local and Central Differential Privacy for Robustness and Privacy in Federated Learning

    【論文閱讀筆記】Local and Central Differential Privacy for Robustness and Privacy in Federated Learning

    個人閱讀筆記,如有錯誤歡迎指出! 會議:NDSS 2022????????[2009.03561] Local and Central Differential Privacy for Robustness and Privacy in Federated Learning (arxiv.org) 問題: ????????盡管聯(lián)邦學習能在一定程度上保護數(shù)據(jù)隱私,但也存在隱私和魯棒性漏洞 主要貢獻: ????????首次發(fā)現(xiàn)

    2024年02月01日
    瀏覽(23)
  • Generative Diffusion Prior for Unified Image Restoration and Enhancement 論文閱讀筆記

    Generative Diffusion Prior for Unified Image Restoration and Enhancement 論文閱讀筆記

    這是CVPR2023的一篇用diffusion先驗做圖像修復和圖像增強的論文 之前有一篇工作做了diffusion先驗(Bahjat Kawar, Michael Elad, Stefano Ermon, and Jiaming Song, “Denoising diffusion restoration models,” arXiv preprint arXiv:2201.11793, 2022. 2, 4, 6, 7),但這個模型只能做線性的退化,對于暗圖增強這種非線性

    2024年02月15日
    瀏覽(27)
  • Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    Unifying Large Language Models and Knowledge Graphs: A Roadmap 論文閱讀筆記

    NLP, LLM, Generative Pre-training, KGs, Roadmap, Bidirectional Reasoning LLMs are black models and can\\\'t capture and access factual knowledge. KGs are structured knowledge models that explicitly store rich factual knowledge. The combinations of KGs and LLMs have three frameworks,? KG-enhanced LLMs, pre-training and inference stages to provide external knowl

    2024年02月19日
    瀏覽(21)
  • Exposure Normalization and Compensation for Multiple-Exposure Correction 論文閱讀筆記

    Exposure Normalization and Compensation for Multiple-Exposure Correction 論文閱讀筆記

    這是CVPR2022的一篇曝光校正的文章,是中科大的。一作作者按同樣的思路(現(xiàn)有方法加一個自己設(shè)計的即插即用模塊以提高性能的思路)在CVPR2023也發(fā)了一篇文章,名字是Learning Sample Relationship for Exposure Correction。 文章的動機是,多曝光圖像中,過曝和欠曝的圖片的調(diào)整方向是

    2024年02月05日
    瀏覽(25)
  • Learning Enriched Features for Fast Image Restoration and Enhancement 論文閱讀筆記

    Learning Enriched Features for Fast Image Restoration and Enhancement 論文閱讀筆記

    這是2022年TPAMI上發(fā)表的大名鼎鼎的MIRNetv2,是一個通用的圖像修復和圖像質(zhì)量增強模型,核心是一個多尺度的網(wǎng)絡 網(wǎng)絡結(jié)構(gòu)整體是殘差的遞歸,不斷把殘差展開可以看到是一些殘差塊的堆疊。核心是多尺度的MRB。網(wǎng)絡用的損失函數(shù)樸實無華: MRB的核心是RCB和SKFF兩個模塊,先

    2024年02月16日
    瀏覽(18)
  • 【論文閱讀筆記】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    【論文閱讀筆記】Emu Edit: Precise Image Editing via Recognition and Generation Tasks

    Emu edit是一篇 圖像編輯Image Editing 的文章,和instruct pix2pix類似,選擇了合成數(shù)據(jù)作為訓練數(shù)據(jù),不是zero-shot任務,并進一步將多種任務都整合為生成任務,從而提高模型的編輯能力。本篇文章的效果應該目前最好的,在local和global編輯甚至其他代理任務(分割、邊緣檢測等)

    2024年02月04日
    瀏覽(52)
  • Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    Llama 2 論文《Llama 2: Open Foundation and Fine-Tuned Chat Models》閱讀筆記

    繼2023年2月開源Llama之后,2023年7月Meta又開源了模型參數(shù)從70 億到 700 億不等的Llama 2,并同時開源了針對對話場景優(yōu)化的LLaMA2-CHAT。LLama2 論文描述了微調(diào)和提高LLM安全性的方法以及在模型開發(fā)過程中的一些的觀察。 論文摘要翻譯:在這項工作中,我們開發(fā)并開源了 Llama 2,這是

    2024年02月09日
    瀏覽(28)
  • SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning論文閱讀筆記

    SAFEFL: MPC-friendly Framework for Private and Robust Federated Learning論文閱讀筆記

    SAFEFL,這是一個利用安全多方計算 (MPC) 來評估聯(lián)邦學習 (FL) 技術(shù)在防止隱私推斷和中毒攻擊方面的有效性和性能的框架。 傳統(tǒng)機器學習(ML):集中收集數(shù)據(jù)-隱私保護問題 privacy-preserving ML (PPML)采用的隱私保護技術(shù):安全多方計算,同態(tài)加密(運算成本高) 聯(lián)邦學習(FL):

    2024年04月22日
    瀏覽(38)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包