国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”

這篇具有很好參考價值的文章主要介紹了【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

本系列博文為深度學(xué)習(xí)/計算機(jī)視覺論文筆記,轉(zhuǎn)載請注明出處

標(biāo)題:Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation

鏈接:Looking to listen at the cocktail party: a speaker-independent audio-visual model for speech separation: ACM Transactions on Graphics: Vol 37, No 4

譯者注:原文標(biāo)題中的“Cocktail Party”字面意思為“雞尾酒會”?!半u尾酒會效應(yīng)"是一個在聽覺科學(xué)中常用的術(shù)語,它是從人類對復(fù)雜聲音環(huán)境的驚人處理能力中得出的概念??紤]一個繁忙的雞尾酒會場景,人們可以專注于特定的對話或聲音,同時忽略背景中的其他噪音。這就是我們通常所說的"聽力選擇性注意"或"雞尾酒會效應(yīng)”。

授權(quán)聲明:

獲得本作品部分或全部的數(shù)字或硬拷貝以供個人或教室使用的許可,只要不是為了盈利或商業(yè)利益,且拷貝上有此通知和完整引用于第一頁,就無需支付費用。必須尊重本作品中第三方組件的版權(quán)。如需其他用途,請聯(lián)系作品的所有者/作者。

? 2018 版權(quán)由所有者/作者持有。

0730-0301/2018/8-ART112

https://doi.org/10.1145/3197517.3201357

摘要

我們提出了一個聯(lián)合的“音頻-視覺模型”(joint audio-visual model),用于從混合聲音(如其他講話者和背景噪音)中分離出單一的語音信號。僅使用音頻作為輸入來解決這個任務(wù)極其具有挑戰(zhàn)性,并且不能將分離出的語音信號與視頻中的講話者關(guān)聯(lián)起來。

在這篇論文中,我們提出了一個基于深度網(wǎng)絡(luò)的模型,它結(jié)合了視覺和聽覺信號(incorporates both visual and auditory signals)來解決這個任務(wù)。

視覺特征被用來將音頻“聚焦”在場景中期望的講話者上,以提高語音分離的質(zhì)量。為了訓(xùn)練我們的聯(lián)合音頻-視覺模型,我們引入了AVSpeech,這是一個新的數(shù)據(jù)集,由來自網(wǎng)絡(luò)的數(shù)千小時的視頻片段組成。

只需要用戶指定他們想要隔離的視頻中的人的臉,我們便證實了我們的方法適用于經(jīng)典的語音分離任務(wù),以及包含激烈的采訪、嘈雜的酒吧和尖叫的孩子的現(xiàn)實世界情況。

在混合語音的情況下,我們的方法明顯優(yōu)于最新的僅音頻語音分離。

此外,我們的模型是不依賴于講話者的(speaker-independent)(訓(xùn)練一次,適用于任何講話者),產(chǎn)生的結(jié)果優(yōu)于最近的依賴于講話者的音視頻語音分離方法(需要為每個感興趣的講話者訓(xùn)練一個單獨的模型)。

額外的關(guān)鍵詞和短語

音頻-視覺,源分離,語音增強(qiáng),深度學(xué)習(xí),卷積神經(jīng)網(wǎng)絡(luò)(CNN),雙向長短期記憶(BLSTM)

ACM參考文獻(xiàn)格式

Ariel Ephrat, Inbar Mosseri, Oran Lang, Tali Dekel, Kevin Wilson, Avinatan Hassidim, William T. Freeman, 和 Michael Rubinstein. 2018. Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation. ACM Trans. Graph. 37, 4, Article 112 (August 2018), 11 pages. https://doi.org/10.1145/3197517.3201357

1 引言

在嘈雜的環(huán)境中,人類有著將他們的聽覺注意力集中在一個單一的聲源上的令人驚嘆的能力,同時降低(“靜音”,muting)所有其他的聲音和噪音。神經(jīng)系統(tǒng)如何實現(xiàn)這一壯舉,也就是所謂的雞尾酒會效應(yīng) [Cherry 1953],仍然不清楚。

然而,研究已經(jīng)表明,觀察講話者的臉部可以增強(qiáng)一個人在嘈雜環(huán)境中解決感知模糊性的能力 [Golumbic et al. 2013; Ma et al. 2009]。在本文中,我們實現(xiàn)了這種能力的計算表達(dá)。

第一作者作為實習(xí)生在谷歌完成了這項工作

自動語音分離,即將輸入音頻信號分離為各個獨立的語音源,在音頻處理文獻(xiàn)中已有深入研究。由于該問題本質(zhì)上是病態(tài)問題,為了得到合理的解決方案,需要先有先驗知識或特殊的麥克風(fēng)配置 [McDermott 2009]。

此外,純音頻語音分離面臨一個根本性問題,即標(biāo)簽置換問題(label permutation problem) [Hershey et al. 2016]:沒有簡單的方法將每個分離的音頻源與視頻中對應(yīng)的說話者關(guān)聯(lián)起來 [Hershey et al. 2016; Yu et al. 2017]。

在這項工作中,我們提出了一種聯(lián)合音頻和視覺的方法,用于在視頻中"聚焦"特定的說話者。輸入視頻可以重新組合,以增強(qiáng)與特定人物相關(guān)的音頻,同時抑制所有其他聲音(圖1)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖1:我們提出了一個模型,用于在視頻中隔離和增強(qiáng)特定說話者的語音。(a) 輸入是一個視頻(幀 + 音頻軌道),其中一個或多個人在說話,感興趣的語音受到其他說話者和/或背景噪聲的干擾。(b) 提取音頻和視覺特征,并將其輸入聯(lián)合音頻-視覺語音分離模型。輸出是將輸入音頻軌道分解成干凈的語音軌道,每個檢測到的視頻中的人一個軌道 ?。這使得我們能夠合成視頻,其中特定人的語音得到增強(qiáng),而所有其他聲音被抑制。

我們的模型是使用我們的新數(shù)據(jù)集AVSpeech中數(shù)千小時的視頻片段進(jìn)行訓(xùn)練的。圖中的“Stand-Up”(類似“相聲”)視頻(a)由Team Coco提供。

具體而言,我們設(shè)計并訓(xùn)練了一個基于神經(jīng)網(wǎng)絡(luò)的模型,它以錄制的混合聲音和視頻中每幀檢測到的人臉的緊密裁剪圖作為輸入,并將混合物分割成每個檢測到的說話者的獨立音頻流。

該模型利用視覺信息既可以提高源分離的質(zhì)量(與僅使用音頻的結(jié)果相比),又可以將分離的語音軌與視頻中可見的說話者關(guān)聯(lián)起來。用戶所需做的就是指定希望從視頻中的哪些人的臉聽到說話。

為了訓(xùn)練我們的模型,我們從YouTube上收集了290,000個高質(zhì)量的講座、TED演講和教程視頻,然后自動從這些視頻中提取了大約4700小時的帶有可見說話者和干凈語音(沒有干擾聲音)的視頻剪輯(圖2)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖2:AVSpeech數(shù)據(jù)集:首先,我們收集了290,000個高質(zhì)量的在線公共講演和講座視頻(a)。從這些視頻中,我們提取了帶有干凈語音的片段(例如沒有混合音樂、聽眾聲音或其他說話者),并且在幀中可見說話者(有關(guān)處理細(xì)節(jié),請參閱第3節(jié)和圖3)。這導(dǎo)致了4700小時的視頻剪輯,每個剪輯都是單獨一個人說話,沒有背景干擾 (b)。這些數(shù)據(jù)涵蓋了各種各樣的人物、語言和臉部姿勢,其分布如?所示(年齡和頭部角度估計采用自動分類器;語言基于YouTube的元數(shù)據(jù))。關(guān)于數(shù)據(jù)集中視頻來源的詳細(xì)列表,請參考項目網(wǎng)頁。

我們將這個新數(shù)據(jù)集稱為AVSpeech。有了這個數(shù)據(jù)集,我們接著生成了一個“合成雞尾酒會”的訓(xùn)練集——將包含干凈語音的人臉視頻與其他說話者的音頻軌道和背景噪聲混合在一起。

我們通過兩種方式展示了我們的方法相對于最近的語音分離方法的優(yōu)勢。

  • 我們在純語音混合物上與最先進(jìn)的僅音頻方法相比展示了卓越的結(jié)果。
  • 我們展示了我們的模型在包含重疊語音和背景噪聲的混合物中,在真實世界場景下產(chǎn)生增強(qiáng)聲音流的能力。

總結(jié)起來,我們的論文提供了兩個主要的貢獻(xiàn)

  1. 一個音頻-視覺語音分離模型,在經(jīng)典的語音分離任務(wù)中優(yōu)于僅音頻和音頻-視覺模型,并適用于具有挑戰(zhàn)性的自然場景。據(jù)我們所知,我們的論文是第一個提出面向說話人無關(guān)的音頻-視覺語音分離模型的研究。
  2. 一個新的大規(guī)模音頻-視覺數(shù)據(jù)集AVSpeech,經(jīng)過精心收集和處理,其中包含視頻片段,其中可聽到的聲音屬于視頻中單個可見的人,并且沒有音頻背景干擾。該數(shù)據(jù)集使我們能夠在語音分離方面取得最先進(jìn)的結(jié)果,并可能對研究社區(qū)進(jìn)行進(jìn)一步研究。

我們的數(shù)據(jù)集、輸入輸出視頻以及其他補(bǔ)充材料都可以在項目網(wǎng)頁上找到:http://looking-to-listen.github.io/。

2 相關(guān)工作

我們簡要回顧了語音分離和音頻-視覺信號處理領(lǐng)域的相關(guān)工作。

語音分離:語音分離是音頻處理中的一個基本問題,近幾十年來一直是廣泛研究的課題。

  • Wang和Chen [2017]對近期基于深度學(xué)習(xí)的僅音頻方法進(jìn)行了全面的概述,這些方法涉及語音降噪 [Erdogan等人,2015; Weninger等人,2015] 和語音分離任務(wù)。

  • 最近出現(xiàn)了兩種解決前述**標(biāo)簽置換問題(label permutation problem)**的方法,用于在單聲道情況下進(jìn)行說話人無關(guān)的多說話人分離。

    • Hershey等人[2016]提出了一種稱為"深度聚類(deep clustering)"的方法,其中使用經(jīng)過判別式訓(xùn)練的語音嵌入來對不同的語音源進(jìn)行聚類和分離。

    • Hershey等人[2016]還介紹了一種無置換或置換不變的損失函數(shù)的思想,但他們并沒有發(fā)現(xiàn)它的效果很好。Isik等人[2016]和Yu等人[2017]隨后提出了一種成功使用**置換不變的損失函數(shù)(permutation invariant loss function)**來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的方法。

  • 我們的方法相對于僅音頻方法的優(yōu)勢有三點:

    • 我們展示了我們的音頻-視覺模型的分離結(jié)果質(zhì)量比最先進(jìn)的僅音頻模型更高。

    • 我們的方法在多說話者與背景噪聲混合的情況下表現(xiàn)良好,據(jù)我們所知,目前還沒有僅音頻方法令人滿意地解決這個問題。

    • 我們聯(lián)合解決了兩個語音處理問題:語音分離和將語音信號與其對應(yīng)的人臉進(jìn)行關(guān)聯(lián),這兩個問題到目前為止一直是分別獨立處理的 [Hoover等人,2017; Hu等人,2015; Monaci,2011]。

音頻-視覺信號處理:使用神經(jīng)網(wǎng)絡(luò)對聽覺和視覺信號進(jìn)行多模態(tài)融合,解決各種與語音相關(guān)的問題,正在引起越來越多的興趣。

  • 其中包括

    • 音頻-視覺語音識別 [Feng等人,2017; Mroueh等人,2015; Ngiam等人,2011]

    • 從無聲視頻(唇讀)中預(yù)測語音或文本 [Chung等人,2016; Ephrat等人,2017]

    • 從視覺和語音信號中無監(jiān)督學(xué)習(xí)語言 [Harwath等人,2016]。

    這些方法利用了同時錄制的視覺和聽覺信號之間的自然同步關(guān)系。

  • 音頻-視覺(Audio-visual,AV)方法也已被用于

    • 語音分離和增強(qiáng) [Hershey等人,2004; Hershey和Casey,2002; Khan,2016; Rivet等人,2014]。

    • Casanovas等人[2010]使用稀疏表示進(jìn)行AV源分離,但由于依賴于僅有活動的區(qū)域來學(xué)習(xí)源特征,并假設(shè)所有音頻源都在屏幕上可見,因此受到限制。

    • 近期的方法使用神經(jīng)網(wǎng)絡(luò)來執(zhí)行這一任務(wù)。

      • Hou等人[2018]提出了一個基于多任務(wù)CNN的模型,該模型輸出去噪的語音頻譜圖以及輸入嘴部區(qū)域的重建。

      • Gabbay等人[2017]在視頻上訓(xùn)練了一個語音增強(qiáng)模型,其中目標(biāo)說話者的其他語音樣本被用作背景噪聲,他們將這個方案稱為“無噪聲訓(xùn)練(noise-invariant training)”。在并行工作中,Gabbay等人[2018]使用視頻到音頻合成方法來過濾嘈雜的音頻。

    • 這些AV語音分離方法的主要局限性在于它們是面向特定說話者的,意味著必須為每個說話者單獨訓(xùn)練一個專用模型。雖然這些工作在設(shè)計上做出了特定的選擇,限制了它們只適用于特定說話者的情況。但我們推測迄今為止沒有廣泛研究面向說話者無關(guān)的AV模型的主要原因是缺乏足夠大和多樣的數(shù)據(jù)集來訓(xùn)練這樣的模型。而這正是我們在這項工作中構(gòu)建并提供的數(shù)據(jù)集所具備的特點。

  • 據(jù)我們所知,我們的論文是第一個解決面向無關(guān)說話者的AV語音分離問題的研究。我們的模型能夠分離和增強(qiáng)它以前從未見過的說話者,說著不在訓(xùn)練集中的語言。此外,我們的工作獨具特色,因為我們展示了在真實世界的例子中高質(zhì)量的語音分離,這些設(shè)置是之前的僅音頻和音頻-視覺語音分離工作所未涉及的。

  • 最近出現(xiàn)了許多獨立和同時進(jìn)行的工作,它們使用深度神經(jīng)網(wǎng)絡(luò)解決了音頻-視覺聲源分離的問題。

    • [Owens和Efros 2018]訓(xùn)練了一個網(wǎng)絡(luò)來預(yù)測音頻和視覺流是否在時間上對齊。從這個自監(jiān)督模型中提取的學(xué)習(xí)特征隨后用于條件化一個屏幕內(nèi)外的說話者源分離模型。

    • Afouras等人[2018]通過使用一個網(wǎng)絡(luò)來預(yù)測去噪語音頻譜圖的幅度和相位來進(jìn)行語音增強(qiáng)。

    • Zhao等人[2018]和Gao等人[2018]解決了與此密切相關(guān)的問題,即分離多個屏幕內(nèi)的對象的聲音(例如樂器)。

音頻-視覺數(shù)據(jù)集:大多數(shù)現(xiàn)有的AV數(shù)據(jù)集包含的視頻只涉及少數(shù)主體,并且說的是來自有限詞匯的單詞。

  • 例如,

    • CUAVE數(shù)據(jù)集[Patterson等人,2002]包含36個主體,每個主體分別說0到9的數(shù)字五次,每個數(shù)字共有180個示例。

    • 另一個例子是由Hou等人[2018]介紹的普通話句子數(shù)據(jù)集,其中包含一個母語者說的320個普通話句子的視頻錄音。每個句子包含10個中文字符,其中的音素等分布。

    • TCD-TIMIT數(shù)據(jù)集[Harte和Gillen,2015]包括60名志愿者演講者,每個演講者約有200個視頻。這些演講者朗讀來自TIMIT數(shù)據(jù)集[S Garofolo等人,1992]的各種句子,并使用面向前方和30度角的攝像機(jī)進(jìn)行錄制。

    為了與之前的工作進(jìn)行比較,我們在這三個數(shù)據(jù)集上評估了我們的結(jié)果。

  • 最近,Chung等人[2016]引入了大規(guī)模唇讀句子(LRS)數(shù)據(jù)集,其中包括各種不同的演講者和更大詞匯的單詞。然而,該數(shù)據(jù)集不僅不公開,而且LRS視頻中的語音不保證是干凈的,而這對于訓(xùn)練語音分離和增強(qiáng)模型是至關(guān)重要的。

3 AVSpeech數(shù)據(jù)集

我們引入了一個新的大規(guī)模音頻-視覺數(shù)據(jù)集,其中包含沒有干擾背景信號的語音片段。這些片段的長度各不相同,介于3到10秒之間,每個片段中視頻中唯一可見的臉和音頻中的聲音都屬于同一個說話人??偣?,該數(shù)據(jù)集包含大約4700小時的視頻片段,涵蓋約150,000個不同的說話者,涵蓋了各種各樣的人物、語言和臉部姿勢。圖2展示了一些代表性的幀、音頻波形和一些數(shù)據(jù)集統(tǒng)計信息。

我們采用了自動收集數(shù)據(jù)集的方式,因為對于組建這樣一個龐大的語料庫,不依賴于大量的人工反饋是很重要的。我們的數(shù)據(jù)集創(chuàng)建流程從大約290,000個YouTube視頻中收集了片段,這些視頻包括講座(例如TED演講)和教程視頻。對于這樣的頻道,大多數(shù)視頻都只包含一個說話者,而且視頻和音頻通常質(zhì)量較高。

數(shù)據(jù)集創(chuàng)建流程。我們的數(shù)據(jù)集收集過程有兩個主要階段,如圖3所示。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖3:用于數(shù)據(jù)集創(chuàng)建的視頻和音頻處理:(a) 我們使用人臉檢測和跟蹤從視頻中提取語音段候選,并拒絕那些人臉模糊或朝向不足夠正面的幀。(b) 我們通過估計語音的信噪比(見第3節(jié))來丟棄含有嘈雜語音的段落。圖表旨在展示我們的語音信噪比估計器的準(zhǔn)確性(從而反映數(shù)據(jù)集的質(zhì)量)。我們將真實的語音信噪比與通過合成的純凈語音和非語音噪聲在已知信噪比水平下生成的混合物的預(yù)測信噪比進(jìn)行比較。預(yù)測的信噪比值(以分貝為單位)是在每個信噪比區(qū)間內(nèi)進(jìn)行60次生成混合物后進(jìn)行平均的,誤差條表示1個標(biāo)準(zhǔn)差。我們丟棄預(yù)測的語音信噪比低于17dB的段落(在圖中由灰色虛線標(biāo)記)。

  • 首先,我們使用了Hoover等人[2017]的說話者跟蹤方法,來檢測視頻中人們正在積極講話并且臉部可見的段落。臉部幀如果模糊、光照不足或姿勢極端,則會從段落中丟棄。如果一個段落中超過15%的臉部幀缺失,則整個段落會被丟棄。在此階段,我們使用了Google Cloud Vision API1來進(jìn)行分類器,以及計算圖2中的統(tǒng)計數(shù)據(jù)。
  • 構(gòu)建數(shù)據(jù)集的第二個步驟是對語音段進(jìn)行優(yōu)化,只包含干凈、無干擾的語音。這是一個關(guān)鍵的組成部分,因為這些段落在訓(xùn)練時作為基準(zhǔn)真值。我們通過以下方式自動執(zhí)行這一優(yōu)化步驟,即通過估計每個段落的語音信噪比(主要語音信號與其他音頻信號之間的對數(shù)比)來實現(xiàn)。

    • 我們使用一個預(yù)訓(xùn)練的僅音頻語音降噪網(wǎng)絡(luò),通過使用降噪輸出作為干凈信號的估計,來預(yù)測給定段落的語音信噪比。這個網(wǎng)絡(luò)的架構(gòu)與第5節(jié)中實現(xiàn)的僅音頻語音增強(qiáng)基線的架構(gòu)相同,它是在LibriVox公共領(lǐng)域音頻書籍的語音數(shù)據(jù)上進(jìn)行訓(xùn)練的。

    • 對于那些估計的語音信噪比低于某個閾值的段落,我們將其丟棄。這個閾值是通過在不同已知信噪比水平下,使用純凈語音和非語音干擾噪聲的合成混合物進(jìn)行經(jīng)驗設(shè)置的2。這些合成混合物被輸入到降噪網(wǎng)絡(luò)中,然后將估計的(降噪后的)語音信噪比與基準(zhǔn)真值信噪比進(jìn)行比較(參見圖3(b))。

  • 我們發(fā)現(xiàn),在低信噪比情況下,平均而言,估計的語音信噪比非常準(zhǔn)確,因此可以被視為原始噪聲水平的良好預(yù)測器。而在較高信噪比情況下(即原始語音信號幾乎沒有干擾的段落),該估計器的準(zhǔn)確性會減弱,因為噪聲信號變得微弱。這種減弱發(fā)生的閾值約為17dB,如圖3(b)所示。我們隨機(jī)抽取了通過此過濾的100個片段進(jìn)行聽取,發(fā)現(xiàn)其中沒有一個含有明顯的背景噪聲。我們在補(bǔ)充材料中提供了來自數(shù)據(jù)集的樣本視頻片段。

4 音頻-視覺語音分離模型

音頻-視覺語音分離模型(AUDIO-VISUAL SPEECH SEPARATION MODEL)

從高層次來看,我們的模型由一個多流架構(gòu)組成,它接受檢測到的臉部的視覺流帶有噪聲的音頻作為輸入,并輸出復(fù)雜的頻譜掩模,每個掩模對應(yīng)視頻中檢測到的一個臉部(見圖4)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖4:我們模型的多流神經(jīng)網(wǎng)絡(luò)架構(gòu):視覺流接受視頻中每幀檢測到的臉部縮略圖作為輸入,而音頻流接受視頻的音軌作為輸入,其中包含了語音和背景噪聲的混合。視覺流使用預(yù)訓(xùn)練的人臉識別模型提取每個縮略圖的人臉嵌入,然后使用擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視覺特征。音頻流首先計算輸入信號的短時傅里葉變換(STFT)以獲得頻譜圖,然后使用類似的擴(kuò)張卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)音頻表示。然后通過連接學(xué)習(xí)到的視覺和音頻特征來創(chuàng)建聯(lián)合的音頻-視覺表示,并通過雙向LSTM和三個全連接層進(jìn)一步處理。網(wǎng)絡(luò)輸出每個說話者的復(fù)雜頻譜掩模,將其與噪聲輸入相乘,并轉(zhuǎn)換回波形(waveforms)以獲得每個說話者的獨立語音信號。

然后,將噪聲輸入頻譜與掩模相乘,從而得到每個說話者的獨立語音信號,并抑制其他所有干擾信號。

4.1 視頻和音頻表示

輸入特征。我們的模型同時接受視覺和聽覺特征作為輸入。

  • 對于包含多個說話者的視頻剪輯,我們使用一個現(xiàn)成的人臉檢測器(例如Google Cloud Vision API)在每幀中找到人臉(每個說話者總共有75個臉部縮略圖,假設(shè)每個剪輯為3秒,幀率為25 FPS)。

    • 我們使用預(yù)訓(xùn)練的人臉識別模型為每個檢測到的臉部縮略圖提取一個人臉嵌入。我們使用了網(wǎng)絡(luò)中最低的不會空間變化的層,類似于Cole等人[2016]用于合成人臉的方法。這樣做的理由是這些嵌入保留了識別數(shù)百萬個人臉?biāo)璧男畔?,同時去除了圖像之間的不相關(guān)變化,比如光照。

    • 實際上,最近的研究還表明,可以從這些嵌入中恢復(fù)出面部表情[Rudd等人,2016]。我們還嘗試了使用臉部圖像的原始像素,但并未導(dǎo)致性能的提升。

  • 至于音頻特征,我們計算3秒音頻片段的短時傅里葉變換(STFT)。每個時間-頻率(TF)bin包含一個復(fù)數(shù)的實部和虛部,我們將它們作為輸入。我們進(jìn)行**冪次壓縮(power-law compression)**來防止響亮的音頻淹沒了柔和的音頻。同樣的處理方式適用于噪聲信號和干凈參考信號。

  • 在推斷時,我們的分離模型可以應(yīng)用于任意長的視頻段。當(dāng)在一幀中檢測到多個說話者的臉部時,我們的模型可以接受多個臉部流作為輸入,我們稍后將討論這一點。

輸出。我們模型的輸出是一個乘法頻譜掩模(multiplicative spectrogram mask),它描述了干凈語音與背景干擾之間的時間-頻率關(guān)系。

  • 在之前的研究中[Wang and Chen 2017; Wang et al. 2014],乘法掩模被觀察到比其他選擇更有效,比如直接預(yù)測頻譜幅度或直接預(yù)測時域波形。在源分離文獻(xiàn)中存在許多基于掩模的訓(xùn)練目標(biāo)[Wang and Chen 2017],我們嘗試了其中的兩種:比率掩模(RM)和復(fù)數(shù)比率掩模(cRM)。

    • 理想的比率掩模(RM)被定義為干凈頻譜和噪聲頻譜之間的幅度比值,而且它被規(guī)范在0和1之間。

      • 當(dāng)使用比率掩模時,我們將預(yù)測的比率掩模和噪聲頻譜的幅度進(jìn)行逐點乘法,然后與噪聲原始相位一起進(jìn)行逆短時傅里葉變換(ISTFT),得到去噪后的波形 [Wang and Chen 2017]。
    • 復(fù)數(shù)理想比率掩模被定義為復(fù)數(shù)干凈頻譜和噪聲頻譜之間的比值。復(fù)數(shù)理想比率掩模有一個實部和一個虛部,這兩部分在實域中分別進(jìn)行估計。復(fù)數(shù)掩模的實部和虛部通常在-1和1之間,然而,我們使用sigmoid函數(shù)壓縮將這些復(fù)數(shù)掩模值限制在0和1之間[Wang et al. 2016]。

      • 當(dāng)使用復(fù)數(shù)理想比率掩模進(jìn)行掩蔽時,通過在預(yù)測的復(fù)數(shù)理想比率掩模和噪聲頻譜上進(jìn)行復(fù)數(shù)乘法,然后對結(jié)果進(jìn)行逆短時傅里葉變換(ISTFT),得到去噪后的波形。
  • 在給定多個檢測到的說話者臉部流作為輸入時,網(wǎng)絡(luò)為每個說話者和背景干擾輸出一個單獨的掩模。在大多數(shù)實驗中,我們使用cRM,因為我們發(fā)現(xiàn)使用cRM輸出的語音質(zhì)量明顯優(yōu)于RM。請參考表6,以獲得這兩種方法的定量比較。

    表6:消融實驗(Ablation study):我們研究了我們模型在分離兩個干凈說話者混合的場景中的不同部分的貢獻(xiàn)。信號混響比(SDR)與噪聲抑制有很好的相關(guān)性,而ViSQOL則表明語音質(zhì)量的水平(詳見附錄中的A節(jié))。

    【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

4.2 網(wǎng)絡(luò)架構(gòu)

圖4提供了我們網(wǎng)絡(luò)中各個模塊的高級概述,現(xiàn)在我們將詳細(xì)介紹這些模塊。

音頻和視覺流(Audio and visual streams)。

  • 我們模型中的音頻流部分由擴(kuò)張卷積層組成,其參數(shù)如表1所示。

    表1:構(gòu)成我們模型音頻流的擴(kuò)張卷積層。

    【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

  • 我們模型的視覺流用于處理輸入的臉部嵌入(見第4.1節(jié)),并由表2中詳細(xì)描述的擴(kuò)張卷積組成。請注意,視覺流中的“空間”卷積和擴(kuò)張是在時間軸上進(jìn)行的(而不是在1024維的臉部嵌入通道上進(jìn)行)。

    表2:構(gòu)成我們模型的視覺流的擴(kuò)張卷積層。

    【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

  • 為了補(bǔ)償音頻和視頻信號之間的采樣率差異,我們將視覺流的輸出上采樣以匹配頻譜圖的采樣率(100 Hz)。這是通過在每個視覺特征的時間維度上使用簡單的最近鄰插值來完成的。

音頻視覺融合(AV fusion)

  • 音頻和視覺流(The audio and visual streams)通過將每個流的特征圖連接在一起進(jìn)行合并,

  • 然后輸入到一個BLSTM(雙向長短時記憶網(wǎng)絡(luò)),接著是三個全連接層。

  • 最終輸出由每個輸入說話者的復(fù)雜掩模(兩個通道,實部和虛部)組成。

  • 對應(yīng)的頻譜圖(The corresponding spectrograms)是通過有噪聲輸入的頻譜圖與輸出掩模進(jìn)行復(fù)數(shù)乘法得到的。

  • 使用冪次壓縮后的干凈頻譜圖與增強(qiáng)頻譜圖之間的平方誤差(L2損失)用作訓(xùn)練網(wǎng)絡(luò)的損失函數(shù)。

  • 最終輸出的波形是通過逆短時傅里葉變換(ISTFT)得到的,如第4.1節(jié)所述。

多位說話者(Multiple speakers)。

我們的模型支持從視頻中隔離出多個可見的說話者,每個說話者由一個視覺流表示,如圖4所示。

  • 針對每個可見說話者數(shù)量,訓(xùn)練一個單獨的專用模型。例如,

    • 一個帶有一個視覺流的模型對應(yīng)一個可見說話者
    • 一個帶有雙視覺流的模型對應(yīng)兩個可見說話者

    等等。

  • 所有視覺流在卷積層上共享相同的權(quán)重。在這種情況下,每個視覺流的學(xué)習(xí)特征都與學(xué)習(xí)的音頻特征連接在一起,然后繼續(xù)進(jìn)行BLSTM。

  • 值得注意的是,在實踐中,可以使用一個以單個視覺流作為輸入的模型,以處理說話者數(shù)量未知或無法使用專用的多說話者模型的一般情況。

4.3 實現(xiàn)細(xì)節(jié)

我們的網(wǎng)絡(luò)使用TensorFlow實現(xiàn),其包含的操作用于控制波形和STFT轉(zhuǎn)換。

  • ReLU激活函數(shù)在除最后一層(掩碼)以外的所有網(wǎng)絡(luò)層后面都會跟隨,最后一層采用sigmoid

  • 所有卷積層之后執(zhí)行批歸一化[Ioffe和Szegedy 2015]。

  • 我們沒有使用Dropout,因為我們在大量數(shù)據(jù)上進(jìn)行訓(xùn)練,不會出現(xiàn)過擬合的情況。

  • 我們使用批量大?。╞atch size)為6個樣本,

  • 并使用Adam優(yōu)化器進(jìn)行500萬步(批次,batches)的訓(xùn)練,

  • 學(xué)習(xí)率(learning rate)為 3 ? 1 0 ? 5 3\cdot10^{?5} 3?10?5,每180萬步將其減半。

所有音頻數(shù)據(jù)都被重新采樣為16kHz,并且立體聲音頻將通過僅使用左聲道轉(zhuǎn)換為單聲道。使用長度為25毫秒的Hann窗口、10毫秒的跳躍長度和FFT大小為512計算STFT,從而得到一個 257 × 298 × 2 257\times298\times2 257×298×2個標(biāo)量的輸入音頻特征。采用 p = 0.3 p=0.3 p=0.3 A 0.3 A^{0.3} A0.3,其中 A A A是輸入/輸出音頻頻譜圖)進(jìn)行冪律壓縮。

我們在訓(xùn)練和推斷之前將所有視頻的人臉嵌入重新采樣為每秒25幀(FPS),通過刪除或復(fù)制嵌入來實現(xiàn)。這樣就得到了一個由75個人臉嵌入組成的輸入視覺流。使用Cole等人[2016]描述的工具進(jìn)行人臉檢測、對齊和質(zhì)量評估當(dāng)在特定樣本中遇到缺失的幀時,我們使用一個零向量代替面部嵌入。

5 實驗和結(jié)果

我們在各種條件下測試了我們的方法,并將結(jié)果與最先進(jìn)的僅音頻(AO)和音頻-視覺(AV)語音分離和增強(qiáng)方法進(jìn)行了定量和定性比較。

與僅音頻相比較(Comparison with Audio-Only)。

  • 目前沒有公開可用的最先進(jìn)的僅音頻語音增強(qiáng)/分離系統(tǒng),而且相對較少的公開可用數(shù)據(jù)集用于訓(xùn)練和評估僅音頻語音增強(qiáng)。

  • 雖然有大量關(guān)于音頻信號盲源分離的文獻(xiàn)[Comon和Jutten 2010],但大多數(shù)這些技術(shù)需要多個音頻通道(多個麥克風(fēng)),因此不適用于我們的任務(wù)。

出于這些原因,我們實現(xiàn)了一個僅音頻基線的語音增強(qiáng)模型,其架構(gòu)類似于我們的音頻流模型(圖4,當(dāng)去除視覺流時)。當(dāng)在廣泛用于語音增強(qiáng)工作的CHiME-2數(shù)據(jù)集[Vincent等人2013]上進(jìn)行訓(xùn)練和評估時,我們的僅音頻基線實現(xiàn)了14.6分貝的信噪比,幾乎與Erdogan等人[2015]報告的最先進(jìn)單聲道結(jié)果14.75分貝一樣好。

因此,我們的僅音頻增強(qiáng)模型被認(rèn)為是近乎最先進(jìn)的基線模型。

為了將我們的分離結(jié)果與最先進(jìn)的僅音頻模型進(jìn)行比較,我們實現(xiàn)了由Yu等人[2017]引入的置換不變訓(xùn)練方法。

  • 請注意,使用此方法進(jìn)行語音分離需要事先知道錄音中存在的源的數(shù)量,并且需要手動將每個輸出通道分配給其對應(yīng)說話者的面部(我們的AV方法會自動完成這個過程)。

我們在第5.1節(jié)的所有合成實驗中都使用這些AO方法,并在第5.2節(jié)中對實際視頻進(jìn)行質(zhì)量比較。

與最近的音頻-視覺方法的比較(Comparison with Recent Audio-Visual Methods)。

  • 由于現(xiàn)有的音頻-視覺語音分離和增強(qiáng)方法是面向特定說話者的,我們無法在合成混合語音的實驗(第5.1節(jié))中輕松地與它們進(jìn)行比較,也無法在自然視頻中運行它們(第5.2節(jié))。

  • 然而,我們通過在那些論文中的視頻上運行我們的模型,展示了與這些方法在現(xiàn)有數(shù)據(jù)集上的定量比較。我們將在第5.3節(jié)中更詳細(xì)地討論這個比較。

  • 此外,我們在附錄材料中展示了定性比較。

5.1 合成混合語音的定量分析

我們?yōu)閹讉€不同的單聲道語音分離任務(wù)生成了數(shù)據(jù)。每個任務(wù)都需要其獨特的語音和非語音背景噪聲混合配置。我們以下描述每個訓(xùn)練數(shù)據(jù)變體的生成過程,以及每個任務(wù)相關(guān)的模型,這些模型是從頭開始訓(xùn)練的。

  • 在所有情況下,干凈的語音片段和對應(yīng)的臉部圖像都來自我們的AVSpeech (AVS)數(shù)據(jù)集。

  • 非語音背景噪聲來自AudioSet [Gemmeke et al. 2017],這是一個大規(guī)模的數(shù)據(jù)集,包含了從YouTube視頻中手動標(biāo)注的片段。

使用BSS Eval工具箱 [Vincent et al. 2006] 中的信號失真比(SDR)改進(jìn)來評估分離后的語音質(zhì)量,SDR是用于評估語音分離質(zhì)量的常用指標(biāo)(詳見附錄中的A節(jié))。

我們從我們的數(shù)據(jù)集中提取了3秒不重疊的片段(例如,一個10秒的片段將會產(chǎn)生3個3秒的片段)。我們?yōu)樗械哪P秃蛯嶒炆闪?50萬個合成混合語音。對于每個實驗,生成的數(shù)據(jù)中的90%被用作訓(xùn)練集,剩余的10%用作測試集。我們沒有使用任何驗證集,因為沒有進(jìn)行參數(shù)調(diào)整或提前停止。

一個說話者+噪聲(One speaker+noise (1S+Noise))。

這是一個經(jīng)典的語音增強(qiáng)任務(wù),其訓(xùn)練數(shù)據(jù)是通過線性組合未歸一化的干凈語音AudioSet噪聲生成的:
M i x i = A V S j + 0.3 ? A u d i o S e t k Mix_i=AVS_j+0.3*AudioSet_k Mixi?=AVSj?+0.3?AudioSetk?
其中:

  • A V S j AVS_j AVSj? A V S AVS AVS中的一個話語(utterance)
  • A u d i o S e t k AudioSet_k AudioSetk? A u d i o S e t AudioSet AudioSet中的一個片段,其幅度乘以0.3
  • M i x i Mix_i Mixi?是合成混合語音數(shù)據(jù)集中的一個樣本

我們的純音頻模型在這種情況下表現(xiàn)得非常好,因為噪聲的特征頻率通常與語音的特征頻率有很好的分離。我們的音頻-視覺(AV)模型的性能與音頻-只有(AO)基線相當(dāng),都具有16dB的SDR(見表3的第一列)。

表3:定量分析和與純音頻語音分離和增強(qiáng)的比較:質(zhì)量改進(jìn)(以SDR為單位,詳見附錄中的A節(jié))作為輸入視覺流數(shù)量的函數(shù),使用不同的網(wǎng)絡(luò)配置。第一行(純音頻)是我們實現(xiàn)的一種最先進(jìn)的語音分離模型,并作為基準(zhǔn)顯示。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

兩個干凈說話者(Two clean speakers (2S clean))。

用于這個兩個說話者分離場景的數(shù)據(jù)集是通過混合來自我們的AVS數(shù)據(jù)集中兩個不同說話者的干凈語音生成的:
M i x i = A V S j + A V S k Mix_i=AVS_j+AVS_k Mixi?=AVSj?+AVSk?
其中:

  • A V S j AVS_j AVSj? A V S k AVS_k AVSk?是來自數(shù)據(jù)集中不同源視頻的干凈語音樣本

  • M i x i Mix_i Mixi?是合成混合語音數(shù)據(jù)集中的一個樣本

除了我們的AO基準(zhǔn)模型,我們在這個任務(wù)上訓(xùn)練了兩種不同的AV模型:

  1. (i)只接受一個視覺流作為輸入,并且只輸出其對應(yīng)的去噪信號的模型。

    在這種情況下,在推斷時,每個說話者的去噪信號通過網(wǎng)絡(luò)進(jìn)行兩次前向傳遞(每個說話者一次)獲得。對該模型的SDR結(jié)果進(jìn)行平均,相比我們的AO基準(zhǔn)模型,可以提高1.3dB(表3的第二列)。

  2. (ii)以兩個分開的視覺流的形式同時接受兩個說話者的視覺信息作為輸入(如第4節(jié)所述)。

    在這種情況下,輸出由兩個掩模組成,每個掩模對應(yīng)一個說話者,并且推斷只需要進(jìn)行一次前向傳遞。使用這個模型獲得額外的0.4dB提升,總共達(dá)到了10.3dB的SDR改進(jìn)。直觀地說,聯(lián)合處理兩個視覺流為網(wǎng)絡(luò)提供了更多信息,并對分離任務(wù)施加了更多約束,從而改善了結(jié)果。

圖5顯示了這項任務(wù)中,基于輸入SDR的改進(jìn)SDR情況,包括僅音頻基線模型和我們的雙說話者音頻-視覺模型( two-speaker audio-visual model)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖5:輸入SDR對比改進(jìn)后的輸出SDR:這是一個散點圖,顯示將兩個干凈說話者(2S clean)分離任務(wù)中的分離性能(SDR改進(jìn))作為原始(嘈雜)SDR的函數(shù)。每個點對應(yīng)于測試集中的單個3秒音頻視覺樣本。

兩個說話者+噪聲(Two speakers+noise (2S+Noise))。

在這里,我們考慮從兩個說話者和非語音背景噪聲的混合中隔離出一個說話者的聲音的任務(wù)。據(jù)我們所知,這個音頻-視覺任務(wù)之前還沒有被解決過。訓(xùn)練數(shù)據(jù)是通過將兩個不同說話者的干凈語音(如2S clean任務(wù)所生成的)與 A u d i o S e t AudioSet AudioSet的背景噪聲混合而成的:
M i x i = A V S j + A V S k + 0.3 ? A u d i o S e t l Mix_i=AVS_j+AVS_k+0.3*AudioSet_l Mixi?=AVSj?+AVSk?+0.3?AudioSetl?
在這種情況下,我們用三個輸出來訓(xùn)練AO網(wǎng)絡(luò),分別對應(yīng)每個說話者和背景噪聲。

此外,我們訓(xùn)練了兩種不同配置的模型,

  • 一個接收一個視覺流作為輸入

    • 一個視覺流的AV模型的配置與前面實驗中的模型(i)相同。
  • 另一個接收兩個視覺流作為輸入

    • 兩個視覺流的AV模型輸出三個信號,分別對應(yīng)每個說話者和背景噪聲。

正如表3(第三列)所示,一個視覺流的AV模型相對于僅音頻的基準(zhǔn)模型的SDR增益為0.1dB,兩個視覺流的AV模型的增益為0.5dB,使總的SDR改進(jìn)達(dá)到了10.6dB。

圖6展示了來自這個任務(wù)的一個樣本段的推斷掩模和輸出頻譜圖,以及它的噪聲輸入和真實頻譜圖。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖6:輸入和輸出音頻的示例:頂部一行顯示了我們訓(xùn)練數(shù)據(jù)中一個片段的音頻頻譜圖,涉及兩個說話者和背景噪聲(a),以及每個說話者的真實、分離的頻譜圖(b,c)。在底部一行,我們展示了我們的結(jié)果:我們方法對該段的估計掩模,疊加在一個頻譜圖上,每個說話者使用不同的顏色表示(d),以及每個說話者相應(yīng)的輸出頻譜圖(e,f)。

三個干凈說話者(Three clean speakers (3S clean))。

這個任務(wù)的數(shù)據(jù)集是通過將來自三個不同說話者的干凈語音混合而成的:
M i x i = A V S j + A V S k + A V S l Mix_i=AVS_j+AVS_k+AVS_l Mixi?=AVSj?+AVSk?+AVSl?
與前面的任務(wù)類似,我們訓(xùn)練了一個接收一個、兩個和三個視覺流作為輸入的AV模型,并分別輸出一個、兩個和三個信號。

我們發(fā)現(xiàn),即使使用單個視覺流,AV模型的性能也比AO模型更好,相比之下提高了0.5dB。兩個視覺流的配置對AO模型也有相同的改進(jìn),而使用三個視覺流則導(dǎo)致1.4dB的增益,使總的SDR改進(jìn)達(dá)到了10dB(表3的第四列)。

相同性別的分離(Same-gender separation)。

許多先前的語音分離方法在嘗試分離包含相同性別語音的語音混合時表現(xiàn)下降[Delfarah and Wang 2017; Hershey et al. 2016]。

表4顯示了我們根據(jù)不同性別組合的分離質(zhì)量情況。

表4:**相同性別的分離。**這個表格中的結(jié)果來自2S clean實驗,表明我們的方法對于從相同性別混合中分離語音具有魯棒性。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

有趣的是,我們的模型在女-女混合中表現(xiàn)最好(略微領(lǐng)先),但在其他組合中也表現(xiàn)良好,表明它對性別具有魯棒性。

5.2 現(xiàn)實世界中的語音分離

為了展示我們模型在現(xiàn)實場景中的語音分離能力,我們在包含激烈辯論和采訪、嘈雜的酒吧和尖叫的孩子的各種視頻中對其進(jìn)行了測試(見圖7)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖7:野外語音分離:展示了在各種現(xiàn)實場景中應(yīng)用我們方法的自然視頻中的代表性幀。所有視頻和結(jié)果可以在附錄材料中找到。"不容置疑的采訪(Undisputed Interview)"視頻由??怂贵w育提供。

在每個場景中,我們使用的訓(xùn)練模型的視覺輸入流數(shù)量與視頻中可見說話者的數(shù)量相匹配。

  • 例如,對于一個有兩個可見說話者的視頻,我們使用了一個雙說話者模型。

我們使用每個視頻的單次前向傳遞進(jìn)行分離,我們的模型支持這種操作,因為我們的網(wǎng)絡(luò)架構(gòu)從未強(qiáng)制施加特定的時間持續(xù)性。

  • 這樣可以避免需要在視頻的較短片段上進(jìn)行后處理和整合結(jié)果。

由于這些示例沒有干凈的參考音頻,這些結(jié)果及其與其他方法的比較是定性評估的;它們將在我們的附錄材料中呈現(xiàn)。

值得注意的是,我們的方法不支持實時處理,目前我們的語音增強(qiáng)更適合于視頻后期處理階段。

  • 在我們的附錄材料中的合成視頻"Double Brady"凸顯了我們模型對視覺信息的利用,因為僅通過音頻中包含的特征語音頻率在這種情況下很難進(jìn)行語音分離。

  • 在"嘈雜的酒吧(Noisy Bar)"場景中,我們的方法在從低信噪比混合中分離語音時顯示出了一些局限性。在這種情況下,背景噪聲幾乎被完全抑制,但輸出的語音質(zhì)量明顯下降。

    • Sun等人[2017]觀察到這一限制源于使用基于掩模的方法進(jìn)行分離,而在這種情況下,直接預(yù)測去噪后的頻譜圖可能有助于克服這個問題。
    • 在經(jīng)典的語音增強(qiáng)情況下,即一個說話者和非語音背景噪聲,我們的AV模型獲得了與我們強(qiáng)大的AO基準(zhǔn)模型類似的結(jié)果。我們懷疑這是因為噪聲的特征頻率通常與語音的特征頻率明顯分離,因此加入視覺信息并未提供額外的區(qū)分能力。

5.3 與先前的音頻-視覺語音分離和增強(qiáng)工作進(jìn)行比較

如果不將我們的結(jié)果與先前的音頻-視覺語音分離和增強(qiáng)工作的結(jié)果進(jìn)行比較,我們的評估將不完整。

表5中包含了在三個不同的音頻-視覺數(shù)據(jù)集(Mandarin、TCD-TIMIT和CUAVE,見第2節(jié))上進(jìn)行的比較,使用了各自論文中描述的評估協(xié)議和指標(biāo)。

表5:與現(xiàn)有音頻-視覺語音分離工作的比較:我們將我們在幾個數(shù)據(jù)集上的語音分離和增強(qiáng)結(jié)果與先前工作的結(jié)果進(jìn)行了比較,使用了原始論文中報告的評估協(xié)議和客觀得分。需要注意的是,先前的方法是依賴于說話者的,而我們的結(jié)果是通過使用通用的、不依賴于特定說話者的模型獲得的。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

報告的客觀質(zhì)量分?jǐn)?shù)是PESQ [Rix et al. 2001]、STOI [Taal et al. 2010]和BSS eval工具包中的SDR [Vincent et al. 2006]。這些比較的定性結(jié)果可在我們的項目頁面上找到。

需要注意的是,這些先前的方法要求為他們的數(shù)據(jù)集中的每個說話者單獨訓(xùn)練一個專門的模型(說話者相關(guān)),而我們對他們的數(shù)據(jù)進(jìn)行的評估是使用我們的通用AVS數(shù)據(jù)集上訓(xùn)練的模型(說話者無關(guān))。盡管我們從未遇到過這些特定的說話者,但我們的結(jié)果明顯優(yōu)于原始論文中報告的結(jié)果,表明我們模型具有強(qiáng)大的泛化能力。

5.4 應(yīng)用于視頻轉(zhuǎn)錄

雖然本文的重點是語音分離和增強(qiáng),但我們的方法也可以用于自動語音識別(ASR)和視頻轉(zhuǎn)錄(video transcription)。

為了驗證這個概念,我們進(jìn)行了以下的定性實驗。我們將“Stand-Up”視頻的語音分離結(jié)果上傳到Y(jié)ouTube,并將YouTube自動字幕生成的結(jié)果3與原始視頻中混合語音的相應(yīng)部分生成的結(jié)果進(jìn)行了比較。對于原始“Stand-Up”視頻的部分,ASR系統(tǒng)無法在視頻的混合語音片段生成任何字幕。結(jié)果中包含了兩位說話者的語音,導(dǎo)致了難以閱讀的句子。

然而,對于我們分離后的語音結(jié)果產(chǎn)生的字幕明顯更準(zhǔn)確。我們在附錄材料中展示了完整的字幕視頻。

5.5 附加分析

我們還進(jìn)行了大量實驗,以更好地理解模型的行為以及其不同組件對結(jié)果的影響。

消融實驗(Ablation study)

為了更好地理解我們模型的不同部分的貢獻(xiàn),我們對從兩個清晰說話者的混合中分離語音的任務(wù)(2S Clean)進(jìn)行了消融實驗。除了消融幾個組合的網(wǎng)絡(luò)模塊(視覺和音頻流,BLSTM和FC層),我們還研究了更高層次的變化,比如不同的輸出掩模(幅度),減少學(xué)習(xí)的視覺特征到每個時間步的一個標(biāo)量的效果,以及不同的融合方法(早期融合(early fusion))。

  • 在早期融合模型中,我們沒有單獨的視覺和音頻流,而是在輸入時將兩種模態(tài)組合起來。這是通過

    1. 使用兩個全連接層將每個視覺嵌入的維度減少到與每個時間步的頻譜圖維度相匹配,
    2. 然后將視覺特征堆疊為第三個頻譜圖“通道”,并在整個模型中聯(lián)合處理它們實現(xiàn)的。
  • 表6顯示了我們的消融實驗的結(jié)果。該表包括使用SDR和ViSQOL [Hines等人,2015]進(jìn)行評估,ViSQOL是一種旨在近似人類聽眾對語音質(zhì)量的平均意見得分(MOS)的客觀度量。ViSQOL分?jǐn)?shù)是在我們測試數(shù)據(jù)的隨機(jī)2000個樣本子集上計算的。我們發(fā)現(xiàn),SDR與分離后音頻中剩余噪音的數(shù)量密切相關(guān),而ViSQOL更好地表征輸出語音的質(zhì)量。有關(guān)這些得分的更多細(xì)節(jié),請參閱附錄的A部分?!癘racle” RMs和cRMs是如第4.1節(jié)所述獲取的掩模,分別使用了地面真實的實值和復(fù)值頻譜圖。

本研究最有趣的發(fā)現(xiàn)是,使用實值幅度掩模而不是復(fù)值幅度掩模時,MOS的降低,以及將視覺信息壓縮成每個時間步的一個標(biāo)量出乎意料的有效,如下所述。

瓶頸特征(Bottleneck features)

譯者注:之所以稱之為瓶頸,是因為瓶頸層長得比較像一個瓶頸。

在我們的消融分析中,我們發(fā)現(xiàn)在每個時間步中將視覺信息壓縮為一個標(biāo)量的網(wǎng)絡(luò)(“Bottleneck (cRM)”)表現(xiàn)幾乎與我們的完整模型(“Full model (cRM)”)相當(dāng)(只差0.5dB)。后者在每個時間步使用了64個標(biāo)量。

模型如何利用視覺信號?(How does the model utilize the visual signal?)

我們的模型使用人臉嵌入作為輸入的視覺表示(第4.1節(jié))。我們希望了解這些高級特征中捕獲的信息,并確定模型輸入幀中的哪些區(qū)域用于分離語音。

為此,我們遵循類似于[Zeiler和Fergus 2014;Zhou等2014]的視覺網(wǎng)絡(luò)感受野可視化協(xié)議。我們將該協(xié)議從2D圖像擴(kuò)展到3D(空間-時間)視頻。

更具體地說,我們以滑動窗口的方式,使用一個空間-時間遮擋器(11px × 11px × 200ms的遮擋器(patch)4)。對于每個空間-時間遮擋器,我們將被遮擋的視頻輸入到我們的模型中,并將得到的語音分離結(jié)果Socc與原始(未被遮擋)視頻的結(jié)果Sori進(jìn)行比較。

為了量化網(wǎng)絡(luò)輸出之間的差異,我們使用SNR,將沒有遮擋的結(jié)果視為“信號”5。也就是說,對于每個空間-時間遮擋器,我們計算:
E = 10 ? l o g ( S o r i g 2 ( S o c c ? S o r i g ) 2 ) (1) E=10\cdot{log(\frac{{S_{orig}}^2}{(S_{occ}-S_{orig})^2})}\tag{1} E=10?log((Socc??Sorig?)2Sorig?2?)(1)
對視頻中的所有空間-時間遮擋器重復(fù)這個過程,會得到每個幀的熱圖。為了進(jìn)行可視化,我們將熱圖歸一化為視頻的最大SNR:
E ~ = E m a x ? E \tilde{E}=E_{max}?E E~=Emax??E
E ~ \tilde{E} E~中,大值對應(yīng)于對語音分離結(jié)果影響較大的遮擋器。

在圖8中,我們展示了來自幾個視頻的代表性幀的熱圖結(jié)果(完整的熱圖視頻可在我們的項目頁面上找到)。如預(yù)期所示,對于貢獻(xiàn)最大的人臉區(qū)域主要位于嘴巴周圍,然而可視化結(jié)果顯示其他區(qū)域,比如眼睛和臉頰也有一定的貢獻(xiàn)。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖8:**模型如何利用視覺信號?**我們在來自幾個視頻的代表性輸入幀上顯示了疊加的熱圖,可視化不同區(qū)域?qū)ξ覀兊恼Z音分離結(jié)果的貢獻(xiàn)(以分貝為單位,參見文本),從藍(lán)色(低貢獻(xiàn))到紅色(高貢獻(xiàn))。

缺失視覺信息的影響(Effect of missing visual information)

我們進(jìn)一步通過逐漸去除視覺嵌入來測試視覺信息對模型的貢獻(xiàn)。具體來說,我們首先運行模型,并使用完整的3秒視頻進(jìn)行評估,得到帶有視覺信息的語音分離質(zhì)量。然后,我們逐漸丟棄段落的兩端的嵌入,并重新評估2秒、1秒、0.5秒和0.2秒的視覺持續(xù)時間的分離質(zhì)量。

結(jié)果如圖9所示。有趣的是,當(dāng)在段落中丟棄多達(dá)2/3的視覺嵌入時,語音分離質(zhì)量平均只下降了0.8 dB。這表明模型對缺失的視覺信息具有魯棒性,在真實世界的場景中,由于頭部運動或遮擋,可能會出現(xiàn)視覺信息的缺失。

【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”,計算機(jī)視覺/情感分析/多模態(tài),計算機(jī)視覺,音視頻,人工智能,深度學(xué)習(xí),多模態(tài)

圖9:缺失視覺信息的影響:該圖顯示了視覺信息持續(xù)時間對于在2個干凈說話者(2S clean)場景中輸出SDR改進(jìn)的影響。我們通過逐漸將輸入的人臉嵌入從樣本的兩端逐漸置零來進(jìn)行測試。結(jié)果顯示,即使只有少數(shù)的視覺幀,也足以進(jìn)行高質(zhì)量的分離。

結(jié)論

我們提出了一種新穎的音頻-視覺神經(jīng)網(wǎng)絡(luò)模型,用于單通道、說話人無關(guān)的語音分離。我們的模型在多種具有挑戰(zhàn)性的場景中表現(xiàn)出色,包括具有背景噪聲的多說話人混音。為了訓(xùn)練該模型,我們創(chuàng)建了一個新的音頻-視覺數(shù)據(jù)集,其中包含從網(wǎng)絡(luò)上收集的可見說話人和干凈語音的數(shù)千小時的視頻片段。我們的模型在語音分離方面取得了最先進(jìn)的結(jié)果,并顯示了在視頻字幕和語音識別方面的潛在應(yīng)用。我們還進(jìn)行了大量實驗,分析了我們的模型及其各個組件的行為和有效性。總體而言,我們的方法在音頻-視覺語音分離和增強(qiáng)方面代表了重要的進(jìn)展。

致謝

我們要感謝Yossi Matias和Google Research Israel對該項目的支持,以及John Hershey對我們寶貴的意見。我們還要感謝Arkady Ziefman對圖表設(shè)計和視頻編輯的幫助,以及Rachel Soh幫助我們獲得結(jié)果中視頻內(nèi)容的許可。

參考文獻(xiàn)

  1. T. Afouras, J. S. Chung, and A. Zisserman. 2018. 《對話:深度視聽語音增強(qiáng)》. In arXiv:1804.04121.
  2. Anna Llagostera Casanovas, Gianluca Monaci, Pierre Vandergheynst, and Rémi Gribonval. 2010. 《基于稀疏冗余表示的盲音視頻源分離》. IEEE多媒體交易期刊 12, 5 (2010), 358–371.
  3. E Colin Cherry. 1953. 《單耳和雙耳識別語音的一些實驗》. 美國聲學(xué)學(xué)會雜志 25, 5 (1953), 975–979.
  4. Joon Son Chung, Andrew W. Senior, Oriol Vinyals, and Andrew Zisserman. 2016. 《野外唇讀句子》. CoRR abs/1611.05358 (2016).
  5. Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, and William T Freeman. 2016. 《從面部身份特征合成規(guī)范化面部》. CVPR’17.
  6. Pierre Comon and Christian Jutten. 2010. 《盲源分離手冊:獨立分量分析及應(yīng)用》. 學(xué)術(shù)出版社.
  7. Masood Delfarah and DeLiang Wang. 2017. 《混響環(huán)境中基于掩蔽的單聲道語音分離的特征》. IEEE/ACM音頻、語音和語言處理交易期刊 25 (2017), 1085–1094.
  8. Ariel Ephrat, Tavi Halperin, and Shmuel Peleg. 2017. 《從無聲視頻中改進(jìn)的語音重建》. ICCV 2017計算機(jī)視覺工作坊.
  9. Hakan Erdogan, John R. Hershey, Shinji Watanabe, and Jonathan Le Roux. 2015. 《基于深度遞歸神經(jīng)網(wǎng)絡(luò)的相位敏感和增強(qiáng)語音分離》. IEEE國際聲學(xué)、語音和信號處理會議(ICASSP) (2015).
  10. Weijiang Feng, Naiyang Guan, Yuan Li, Xiang Zhang, and Zhigang Luo. 2017. 《多模態(tài)遞歸神經(jīng)網(wǎng)絡(luò)的音頻-視覺語音識別》. 2017年國際聯(lián)合會議上的神經(jīng)網(wǎng)絡(luò)(IJCNN)。IEEE, 681–688.
  11. Aviv Gabbay, Ariel Ephrat, Tavi Halperin, and Shmuel Peleg. 2018. 《透過噪聲看清:使用視覺派生的語音的說話人分離和增強(qiáng)》. IEEE國際聲學(xué)、語音和信號處理會議(ICASSP) (2018).
  12. Aviv Gabbay, Asaph Shamir, and Shmuel Peleg. 2017. 《使用抗噪音訓(xùn)練的視覺語音增強(qiáng)》. arXiv預(yù)印本arXiv:1711.08789 (2017).
  13. R. Gao, R. Feris, and K. Grauman. 2018. 《通過觀看未標(biāo)記視頻學(xué)習(xí)分離物體聲音》. arXiv預(yù)印本arXiv:1804.01665 (2018).
  14. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter. 2017. 《音頻集:音頻事件的本體和人工標(biāo)記數(shù)據(jù)集》. 2017年IEEE ICASSP會議文集。
  15. Elana Zion Golumbic, Gregory B Cogan, Charles E. Schroeder, and David Poeppel. 2013. 《視覺輸入增強(qiáng)了“雞尾酒會”中聽覺皮層對選擇性語音包絡(luò)的跟蹤》. 美國神經(jīng)科學(xué)學(xué)會官方期刊《神經(jīng)科學(xué)》33卷4期(2013),1417–26。
  16. Naomi Harte and Eoin Gillen. 2015. 《TCD-TIMIT:連續(xù)語音的音頻-視覺語料庫》. IEEE多媒體交易期刊 17, 5 (2015), 603–615。
  17. David F. Harwath, Antonio Torralba, and James R. Glass. 2016. 《帶有視覺背景的無監(jiān)督學(xué)習(xí)口語》. In NIPS.
  18. John Hershey, Hagai Attias, Nebojsa Jojic, and Trausti Kristjansson. 2004. 《語音處理的音頻-視覺圖形模型》. IEEE國際聲學(xué)、語音和信號處理會議(ICASSP)。
  19. John R Hershey and Michael Casey. 2002. 《使用隱馬爾可夫模型的音頻-視覺聲音分離》. Advances in Neural Information Processing Systems. 1173–1180.
  20. John R. Hershey, Zhuo Chen, Jonathan Le Roux, and Shinji Watanabe. 2016. 《深度聚類:分割和分離的鑒別嵌入》. IEEE國際聲學(xué)、語音和信號處理會議(ICASSP) (2016),31–35。
  21. Andrew Hines, Eoin Gillen, Damien Kelly, Jan Skoglund, Anil C. Kokaram, and Naomi Harte. 2015. 《低比特率編解碼器的客觀音頻質(zhì)量度量ViSQOLAudio》. 《美國聲學(xué)學(xué)會雜志》137卷6期(2015),EL449–55。
  22. Andrew Hines and Naomi Harte. 2012. 《使用神經(jīng)圖相似度指數(shù)測量的語音可懂度預(yù)測》. 《語音交際》54卷2期(2012),306–320。DOI: http://dx.doi.org/10.1016/j.specom.2011.09.004
  23. Ken Hoover, Sourish Chaudhuri, Caroline Pantofaru, Malcolm Slaney, and Ian Sturdy. 2017. 《面對聲音:融合視頻中的音頻和視覺信號來確定說話者》. CoRR abs/1706.00079 (2017)。
  24. Jen-Cheng Hou, Syu-Siang Wang, Ying-Hui Lai, Jen-Chun Lin, Yu Tsao, Hsiu-Wen Chang, and Hsin-Min Wang. 2018. 《使用多模態(tài)深度卷積神經(jīng)網(wǎng)絡(luò)的音頻-視覺語音增強(qiáng)》. 《IEEE計算智能新興主題交易期刊》2卷2期(2018),117–128。
  25. Yongtao Hu, Jimmy SJ Ren, Jingwen Dai, Chang Yuan, Li Xu, and Wenping Wang. 2015. 《深度多模態(tài)說話者命名》. Proceedings of the 23rd ACM international conference on Multimedia. ACM, 1107–1110。
  26. Sergey Ioffe and Christian Szegedy. 2015. 《批量標(biāo)準(zhǔn)化:通過減少內(nèi)部協(xié)變量轉(zhuǎn)移加速深度網(wǎng)絡(luò)訓(xùn)練》. 《國際機(jī)器學(xué)習(xí)會議》。
  27. Yusuf Isik, Jonathan Le Roux, Zhuo Chen, Shinji Watanabe, and John R Hershey. 2016. 《使用深度聚類的單聲道多說話者分離》. Interspeech (2016),545–549。
  28. Faheem Khan. 2016. 《音頻-視覺說話者分離》. 博士學(xué)位論文。東安格利亞大學(xué)。
  29. Wei Ji Ma, Xiang Zhou, Lars A. Ross, John J. Foxe, and Lucas C. Parra. 2009. 《在中等噪聲下,通過高維特征空間的貝葉斯解釋輔助詞匯識別》. PLoS ONE 4卷(2009),233–252。
  30. Josh H McDermott. 2009. 《雞尾酒會問題》. 《當(dāng)代生物學(xué)》19卷22期(2009),R1024–R1027。
  31. Gianluca Monaci. 2011. 《實時音頻視覺說話者定位的發(fā)展》. Signal Processing Conference,2011年第19屆歐洲。IEEE,1055–1059。
  32. Youssef Mroueh, Etienne Marcheret, and Vaibhava Goel. 2015. 《用于音頻-視覺語音識別的深度多模態(tài)學(xué)習(xí)》. In 2015年IEEE國際聲學(xué)、語音和信號處理會議(ICASSP)。IEEE,2130–2134。
  33. Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y. Ng. 2011. 《多模態(tài)深度學(xué)習(xí)》. In ICML.
  34. Andrew Owens and Alexei A Efros. 2018. 《使用自監(jiān)督多感官特征的音頻-視覺場景分析》。 (2018)。
  35. Eric K. Patterson, Sabri Gurbuz, Zekeriya Tufekci, and John N. Gowdy. 2002. 《CUAVE多模態(tài)語音語料庫的移動說話人、說話人獨立特征研究和基線結(jié)果》. 《歐拉西亞先進(jìn)信號處理期刊》2002卷(2002),1189–1201。
  36. Jie Pu, Yannis Panagakis, Stavros Petridis, and Maja Pantic. 2017. 《使用低秩和稀疏性的音頻-視覺對象定位和分離》. In 2017年IEEE國際聲學(xué)、語音和信號處理會議(ICASSP)。IEEE,2901–2905。
  37. Bertrand Rivet, Wenwu Wang, Syed M. Naqvi, and Jonathon A. Chambers. 2014. 《音頻-視覺說話者分離:關(guān)鍵方法概述》. IEEE信號處理雜志31期(2014),125–134。
  38. Antony W Rix, John G Beerends, Michael P Hollier, and Andries P Hekstra. 2001. 《語音質(zhì)量的感知評估(PESQ)——一種用于電話網(wǎng)絡(luò)和編解碼器語音質(zhì)量評估的新方法》. 《聲學(xué)、語音和信號處理》2001年國際會議(ICASSP’01)。IEEE,749–752。
  39. Ethan M Rudd, Manuel Günther, and Terrance E Boult. 2016. 《Moon:用于識別面部屬性的混合目標(biāo)優(yōu)化網(wǎng)絡(luò)》. 《歐洲計算機(jī)視覺大會》。Springer,19–35。
  40. J S Garofolo, Lori Lamel, W M Fisher, Jonathan Fiscus, D S. Pallett, N L. Dahlgren, and V Zue. 1992. 《TIMIT語音語音語料庫》。 (1992)。
  41. Lei Sun, Jun Du, Li-Rong Dai, and Chin-Hui Lee. 2017. 《基于LSTM-RNN的多目標(biāo)深度學(xué)習(xí)語音增強(qiáng)》。在HSCMA。
  42. Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen. 2010. 《用于時頻加權(quán)噪聲語音的短時客觀可懂性測量》。在2010年IEEE國際聲學(xué)、語音和信號處理會議(ICASSP)。IEEE,4214–4217。
  43. Emmanuel Vincent, Jon Barker, Shinji Watanabe, Jonathan Le Roux, Francesco Nesta, and Marco Matassoni. 2013. 《第二屆“鐘聲”語音分離和識別挑戰(zhàn):數(shù)據(jù)集、任務(wù)和基線》。在2013年IEEE國際聲學(xué)、語音和信號處理會議(ICASSP)。IEEE,126–130。
  44. E. Vincent, R. Gribonval, and C. Fevotte. 2006. 《盲音頻源分離的性能測量》?!兑纛l、語音和語言處理的交易》14卷4期(2006),1462–1469。
  45. DeLiang Wang and Jitong Chen. 2017. 《基于深度學(xué)習(xí)的監(jiān)督語音分離:綜述》。CoRR abs/1708.07524 (2017)。
  46. Yuxuan Wang, Arun Narayanan, and DeLiang Wang. 2014. 《用于監(jiān)督語音分離的訓(xùn)練目標(biāo)》。IEEE/ACM音頻、語音和語言處理的交易(TASLP) 22卷12期(2014),1849–1858。
  47. Ziteng Wang, Xiaofei Wang, Xu Li, Qiang Fu, and Yonghong Yan. 2016. 《理想掩碼的Oracle性能調(diào)查》。在IWAENC。
  48. Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R. Hershey, and Bj?rn W. Schuller. 2015. 《使用LSTM遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行語音增強(qiáng)及其在噪聲魯棒性ASR中的應(yīng)用》。在LVA/ICA。
  49. Dong Yu, Morten Kolb?k, Zheng-Hua Tan, and Jesper Jensen. 2017. 《用于說話者無關(guān)多說話者語音分離的深度模型的排列不變性訓(xùn)練》。在IEEE國際聲學(xué)、語音和信號處理會議(ICASSP) (2017),241–245。
  50. Matthew D Zeiler and Rob Fergus. 2014. 《可視化和理解卷積網(wǎng)絡(luò)》。在歐洲計算機(jī)視覺大會。Springer,818–833。
  51. Hang Zhao, Chuang Gan, Andrew Rouditchenko, Carl Vondrick, Josh McDermott, and Antonio Torralba. 2018. 《像素的聲音》。 (2018)。
  52. Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. 2014. 《深度場景CNN中出現(xiàn)的物體探測器》。arXiv預(yù)印本arXiv:1412.6856 (2014)。

REFERENCES

  1. T. Afouras, J. S. Chung, and A. Zisserman. 2018. The Conversation: Deep Audio-Visual Speech Enhancement. In arXiv:1804.04121.
  2. Anna Llagostera Casanovas, Gianluca Monaci, Pierre Vandergheynst, and Rémi Gribonval. 2010. Blind audiovisual source separation based on sparse redundant representations. IEEE Transactions on Multimedia 12, 5 (2010), 358–371.
  3. E Colin Cherry. 1953. Some experiments on the recognition of speech, with one and with two ears. The Journal of the acoustical society of America 25, 5 (1953), 975–979.
  4. Joon Son Chung, Andrew W. Senior, Oriol Vinyals, and Andrew Zisserman. 2016. Lip Reading Sentences in the Wild. CoRR abs/1611.05358 (2016).
  5. Forrester Cole, David Belanger, Dilip Krishnan, Aaron Sarna, Inbar Mosseri, and William T Freeman. 2016. Synthesizing normalized faces from facial identity features. In CVPR’17.
  6. Pierre Comon and Christian Jutten. 2010. Handbook of Blind Source Separation: Independent component analysis and applications. Academic press.
  7. Masood Delfarah and DeLiang Wang. 2017. Features for Masking-Based Monaural Speech Separation in Reverberant Conditions. IEEE/ACM Transactions on Audio, Speech, and Language Processing 25 (2017), 1085–1094.
  8. Ariel Ephrat, Tavi Halperin, and Shmuel Peleg. 2017. Improved Speech Reconstruction from Silent Video. In ICCV 2017 Workshop on Computer Vision for Audio-Visual Media.
  9. Hakan Erdogan, John R. Hershey, Shinji Watanabe, and Jonathan Le Roux. 2015. Phase-sensitive and recognition-boosted speech separation using deep recurrent neural networks. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2015).
  10. Weijiang Feng, Naiyang Guan, Yuan Li, Xiang Zhang, and Zhigang Luo. 2017. Audio-visual speech recognition with multimodal recurrent neural networks. In Neural Networks (IJCNN), 2017 International Joint Conference on. IEEE, 681–688.
  11. Aviv Gabbay, Ariel Ephrat, Tavi Halperin, and Shmuel Peleg. 2018. Seeing Through Noise: Speaker Separation and Enhancement using Visually-derived Speech. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2018).
  12. Aviv Gabbay, Asaph Shamir, and Shmuel Peleg. 2017. Visual Speech Enhancement using Noise-Invariant Training. arXiv preprint arXiv:1711.08789 (2017).
  13. R. Gao, R. Feris, and K. Grauman. 2018. Learning to Separate Object Sounds by Watching Unlabeled Video. arXiv preprint arXiv:1804.01665 (2018).
  14. Jort F. Gemmeke, Daniel P. W. Ellis, Dylan Freedman, Aren Jansen, Wade Lawrence, R. Channing Moore, Manoj Plakal, and Marvin Ritter. 2017. Audio Set: An ontology and human-labeled dataset for audio events. In Proc. IEEE ICASSP 2017.
  15. Elana Zion Golumbic, Gregory B Cogan, Charles E. Schroeder, and David Poeppel. 2013. Visual input enhances selective speech envelope tracking in auditory cortex at a “cocktail party”. The Journal of neuroscience: the official journal of the Society for Neuroscience 33 4 (2013), 1417–26.
  16. Naomi Harte and Eoin Gillen. 2015. TCD-TIMIT: An audio-visual corpus of continuous speech. IEEE Transactions on Multimedia 17, 5 (2015), 603–615.
  17. David F. Harwath, Antonio Torralba, and James R. Glass. 2016. Unsupervised Learning of Spoken Language with Visual Context. In NIPS.
  18. John Hershey, Hagai Attias, Nebojsa Jojic, and Trausti Kristjansson. 2004. Audio-visual graphical models for speech processing. In IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP).
  19. John R Hershey and Michael Casey. 2002. Audio-visual sound separation via hidden Markov models. In Advances in Neural Information Processing Systems. 1173–1180.
  20. John R. Hershey, Zhuo Chen, Jonathan Le Roux, and Shinji Watanabe. 2016. Deep clustering: Discriminative embeddings for segmentation and separation. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2016), 31–35.
  21. Andrew Hines, Eoin Gillen, Damien Kelly, Jan Skoglund, Anil C. Kokaram, and Naomi Harte. 2015. ViSQOLAudio: An objective audio quality metric for low bitrate codecs. The Journal of the Acoustical Society of America 137 6 (2015), EL449–55.
  22. Andrew Hines and Naomi Harte. 2012. Speech Intelligibility Prediction Using a Neurogram Similarity Index Measure. Speech Commun. 54, 2 (Feb. 2012), 306–320. DOI: http://dx.doi.org/10.1016/j.specom.2011.09.004
  23. Ken Hoover, Sourish Chaudhuri, Caroline Pantofaru, Malcolm Slaney, and Ian Sturdy. 2017. Putting a Face to the Voice: Fusing Audio and Visual Signals Across a Video to Determine Speakers. CoRR abs/1706.00079 (2017).
  24. Jen-Cheng Hou, Syu-Siang Wang, Ying-Hui Lai, Jen-Chun Lin, Yu Tsao, Hsiu-Wen Chang, and Hsin-Min Wang. 2018. Audio-Visual Speech Enhancement Using Multi-modal Deep Convolutional Neural Networks. IEEE Transactions on Emerging Topics in Computational Intelligence 2, 2 (2018), 117–128.
  25. Yongtao Hu, Jimmy SJ Ren, Jingwen Dai, Chang Yuan, Li Xu, and Wenping Wang. 2015. Deep multimodal speaker naming. In Proceedings of the 23rd ACM international conference on Multimedia. ACM, 1107–1110.
  26. Sergey Ioffe and Christian Szegedy. 2015. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. In ICML.
  27. Yusuf Isik, Jonathan Le Roux, Zhuo Chen, Shinji Watanabe, and John R Hershey. 2016. Single-Channel Multi-Speaker Separation Using Deep Clustering. Interspeech (2016), 545–549.
  28. Faheem Khan. 2016. Audio-visual speaker separation. Ph.D. Dissertation. University of East Anglia.
  29. Wei Ji Ma, Xiang Zhou, Lars A. Ross, John J. Foxe, and Lucas C. Parra. 2009. Lip-Reading Aids Word Recognition Most in Moderate Noise: A Bayesian Explanation Using High-Dimensional Feature Space. PLoS ONE 4 (2009), 233 – 252.
  30. Josh H McDermott. 2009. The cocktail party problem. Current Biology 19, 22 (2009), R1024–R1027.
  31. Gianluca Monaci. 2011. Towards real-time audiovisual speaker localization. In Signal Processing Conference, 2011 19th European. IEEE, 1055–1059.
  32. Youssef Mroueh, Etienne Marcheret, and Vaibhava Goel. 2015. Deep multimodal learning for audio-visual speech recognition. In Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on. IEEE, 2130–2134.
  33. Jiquan Ngiam, Aditya Khosla, Mingyu Kim, Juhan Nam, Honglak Lee, and Andrew Y. Ng. 2011. Multimodal Deep Learning. In ICML.
  34. Andrew Owens and Alexei A Efros. 2018. Audio-Visual Scene Analysis with Self-Supervised Multisensory Features. (2018).
  35. Eric K. Patterson, Sabri Gurbuz, Zekeriya Tufekci, and John N. Gowdy. 2002. Moving-Talker, Speaker-Independent Feature Study, and Baseline Results Using the CUAVE Multimodal Speech Corpus. EURASIP J. Adv. Sig. Proc. 2002 (2002), 1189–1201.
  36. Jie Pu, Yannis Panagakis, Stavros Petridis, and Maja Pantic. 2017. Audio-visual object localization and separation using low-rank and sparsity. In Acoustics, Speech and Signal Processing (ICASSP), 2017 IEEE International Conference on. IEEE, 2901–2905.
  37. Bertrand Rivet, Wenwu Wang, Syed M. Naqvi, and Jonathon A. Chambers. 2014. Audio-visual Speech Source Separation: An overview of key methodologies. IEEE Signal Processing Magazine 31 (2014), 125–134.
  38. Antony W Rix, John G Beerends, Michael P Hollier, and Andries P Hekstra. 2001. Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs. In Acoustics, Speech, and Signal Processing, 2001. Proceedings.(ICASSP’01). 2001 IEEE International Conference on, Vol. 2. IEEE, 749–752.
  39. Ethan M Rudd, Manuel Günther, and Terrance E Boult. 2016. Moon: A mixed objective optimization network for the recognition of facial attributes. In European Conference on Computer Vision. Springer, 19–35.
  40. J S Garofolo, Lori Lamel, W M Fisher, Jonathan Fiscus, D S. Pallett, N L. Dahlgren, and V Zue. 1992. TIMIT Acoustic-phonetic Continuous Speech Corpus. (11 1992).
  41. Lei Sun, Jun Du, Li-Rong Dai, and Chin-Hui Lee. 2017. Multiple-target deep learning for LSTM-RNN based speech enhancement. In HSCMA.
  42. Cees H Taal, Richard C Hendriks, Richard Heusdens, and Jesper Jensen. 2010. A short-time objective intelligibility measure for time-frequency weighted noisy speech. In Acoustics Speech and Signal Processing (ICASSP), 2010 IEEE International Conference on. IEEE, 4214–4217.
  43. Emmanuel Vincent, Jon Barker, Shinji Watanabe, Jonathan Le Roux, Francesco Nesta, and Marco Matassoni. 2013. The second ’chime’ speech separation and recognition challenge: Datasets, tasks and baselines. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (2013), 126–130.
  44. E. Vincent, R. Gribonval, and C. Fevotte. 2006. Performance Measurement in Blind Audio Source Separation. Trans. Audio, Speech and Lang. Proc. 14, 4 (2006), 1462–1469.
  45. DeLiang Wang and Jitong Chen. 2017. Supervised Speech Separation Based on Deep Learning: An Overview. CoRR abs/1708.07524 (2017).
  46. Yuxuan Wang, Arun Narayanan, and DeLiang Wang. 2014. On training targets for supervised speech separation. IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP) 22, 12 (2014), 1849–1858.
  47. Ziteng Wang, Xiaofei Wang, Xu Li, Qiang Fu, and Yonghong Yan. 2016. Oracle performance investigation of the ideal masks. In IWAENC.
  48. Felix Weninger, Hakan Erdogan, Shinji Watanabe, Emmanuel Vincent, Jonathan Le Roux, John R. Hershey, and Bj?rn W. Schuller. 2015. Speech Enhancement with LSTM Recurrent Neural Networks and its Application to Noise-Robust ASR. In LVA/ICA.
  49. Dong Yu, Morten Kolb?k, Zheng-Hua Tan, and Jesper Jensen. 2017. Permutation invariant training of deep models for speaker-independent multi-talker speech separation. IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2017), 241–245.
  50. Matthew D Zeiler and Rob Fergus. 2014. Visualizing and understanding convolutional networks. In European conference on computer vision. Springer, 818–833.
  51. Hang Zhao, Chuang Gan, Andrew Rouditchenko, Carl Vondrick, Josh McDermott, and Antonio Torralba. 2018. The Sound of Pixels. (2018).
  52. Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. 2014. Object detectors emerge in deep scene cnns. arXiv preprint arXiv:1412.6856 (2014).

A 用于評估分離質(zhì)量的客觀度量指標(biāo)

A.1 信噪比(SDR)

信號與失真比(Signal-to-Distortion Ratio,SDR)由Vincent等人于2006年引入,是一系列用于評估盲音頻源分離(BASS)算法的指標(biāo)之一,其中原始源信號作為基準(zhǔn)事實存在。這些指標(biāo)基于將每個估計的源信號分解為真實源部分(s_target)和對應(yīng)于干擾(e_interf)、加性噪聲(e_noise)以及算法造成的偽跡(e_artif)的誤差項。

SDR是最通用的分?jǐn)?shù),常用于報告語音分離算法的性能。它以分貝(dB)為單位衡量,定義如下:
S D R : = 10 ? log ? 10 ( ∣ ∣ S t a r g e t ∣ ∣ 2 ∣ ∣ e i n t e r f + e n o i s e + e a r t i f ∣ ∣ 2 ) (2) SDR:=10\cdot\log_{10}(\frac{||S_{target}||^{2}}{||e_{interf}+e_{noise}+e_ {artif}||^ {2}})\tag{2} SDR:=10?log10?(∣∣einterf?+enoise?+eartif?2∣∣Starget?2?)(2)
我們將讀者引用到原始論文中,以獲取有關(guān)信號分解成其組成部分的詳細(xì)信息。我們發(fā)現(xiàn)這個指標(biāo)與分離后剩余噪聲的數(shù)量之間有很好的相關(guān)性。

A.2 虛擬語音質(zhì)量客觀監(jiān)聽器(ViSQOL)

虛擬語音質(zhì)量客觀監(jiān)聽器(ViSQOL)是一種客觀語音質(zhì)量模型,由Hines等人[2015]提出。該指標(biāo)使用參考(r)和降質(zhì)(d)語音信號之間的譜時相似度測量來建模人類的語音質(zhì)量感知,并基于Neurogram相似性指數(shù)測量(NSIM)[Hines和Harte 2012]。 NSIM的定義如下:
N S I M ( r , d ) = 2 μ r μ d + C 1 μ r 2 + μ d 2 + C 1 ? σ r d + C 2 σ r σ d + C 2 (3) NSIM(r,d)=\frac{2\mu_{r}\mu_n5n3t3z+C_{1}}{\mu_{r}^{2}+\mu^{2}_n5n3t3z+C_{1}}\cdot\frac{\sigma _{rd}+C_{2}}{\sigma_{r}\sigma_n5n3t3z+C_{2}}\tag{3} NSIM(r,d)=μr2?+μd2?+C1?2μr?μd?+C1???σr?σd?+C2?σrd?+C2??(3)
在這里,μs和σs分別是參考信號和降質(zhì)信號之間的均值和相關(guān)系數(shù),是在頻譜圖之間計算得出的。在ViSQOL中,NSIM是在參考信號的頻譜圖塊及其對應(yīng)的來自降質(zhì)信號的圖塊上計算的。然后,該算法將NSIM得分聚合并轉(zhuǎn)化為介于1到5之間的平均意見得分(MOS)。
DR是最通用的分?jǐn)?shù),常用于報告語音分離算法的性能。它以分貝(dB)為單位衡量,定義如下:
S D R : = 10 ? log ? 10 ( ∣ ∣ S t a r g e t ∣ ∣ 2 ∣ ∣ e i n t e r f + e n o i s e + e a r t i f ∣ ∣ 2 ) (2) SDR:=10\cdot\log_{10}(\frac{||S_{target}||^{2}}{||e_{interf}+e_{noise}+e_ {artif}||^ {2}})\tag{2} SDR:=10?log10?(∣∣einterf?+enoise?+eartif?2∣∣Starget?2?)(2)
我們將讀者引用到原始論文中,以獲取有關(guān)信號分解成其組成部分的詳細(xì)信息。我們發(fā)現(xiàn)這個指標(biāo)與分離后剩余噪聲的數(shù)量之間有很好的相關(guān)性。

A.2 虛擬語音質(zhì)量客觀監(jiān)聽器(ViSQOL)

虛擬語音質(zhì)量客觀監(jiān)聽器(ViSQOL)是一種客觀語音質(zhì)量模型,由Hines等人[2015]提出。該指標(biāo)使用參考(r)和降質(zhì)(d)語音信號之間的譜時相似度測量來建模人類的語音質(zhì)量感知,并基于Neurogram相似性指數(shù)測量(NSIM)[Hines和Harte 2012]。 NSIM的定義如下:
N S I M ( r , d ) = 2 μ r μ d + C 1 μ r 2 + μ d 2 + C 1 ? σ r d + C 2 σ r σ d + C 2 (3) NSIM(r,d)=\frac{2\mu_{r}\mu_n5n3t3z+C_{1}}{\mu_{r}^{2}+\mu^{2}_n5n3t3z+C_{1}}\cdot\frac{\sigma _{rd}+C_{2}}{\sigma_{r}\sigma_n5n3t3z+C_{2}}\tag{3} NSIM(r,d)=μr2?+μd2?+C1?2μr?μd?+C1???σr?σd?+C2?σrd?+C2??(3)
在這里,μs和σs分別是參考信號和降質(zhì)信號之間的均值和相關(guān)系數(shù),是在頻譜圖之間計算得出的。在ViSQOL中,NSIM是在參考信號的頻譜圖塊及其對應(yīng)的來自降質(zhì)信號的圖塊上計算的。然后,該算法將NSIM得分聚合并轉(zhuǎn)化為介于1到5之間的平均意見得分(MOS)。


  1. https://cloud.google.com/vision/ ??

  2. 這樣的混合物很好地模擬了我們數(shù)據(jù)集中的干擾類型,通常涉及單個說話者受到非語音聲音(如觀眾鼓掌或開場音樂)的干擾。 ??

  3. https://support.google.com/youtube/answer/6373554?hl=en ??

  4. 我們使用200毫秒的長度來覆蓋典型的音素持續(xù)時間范圍:30-200毫秒。 ??

  5. 我們建議讀者參考補(bǔ)充材料,以驗證我們對非遮擋視頻進(jìn)行語音分離后的結(jié)果,我們將其視為在這個例子中“正確”的結(jié)果,確實是準(zhǔn)確的。 ??文章來源地址http://www.zghlxwxcb.cn/news/detail-622843.html

到了這里,關(guān)于【計算機(jī)視覺|語音分離】期望在嘈雜環(huán)境中聆聽:一個用于語音分離的不依賴于講話者的“音頻-視覺模型”的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進(jìn)行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費用

相關(guān)文章

  • Docker容器部署OpenCV,打造高效可移植的計算機(jī)視覺開發(fā)環(huán)境

    Docker容器部署OpenCV,打造高效可移植的計算機(jī)視覺開發(fā)環(huán)境

    海鯨AI-ChatGPT4.0國內(nèi)站點:https://www.atalk-ai.com 在計算機(jī)視覺領(lǐng)域,快速部署和測試算法是研究和開發(fā)的關(guān)鍵。OpenCV作為一個強(qiáng)大的開源計算機(jī)視覺庫,廣泛應(yīng)用于各種圖像處理和視頻分析任務(wù)。然而,配置OpenCV環(huán)境可能會因為不同操作系統(tǒng)和依賴庫的版本差異而變得復(fù)雜。這

    2024年04月26日
    瀏覽(21)
  • Docker容器中的OpenCV:輕松構(gòu)建可移植的計算機(jī)視覺環(huán)境

    Docker容器中的OpenCV:輕松構(gòu)建可移植的計算機(jī)視覺環(huán)境

    「作者主頁」 :雪碧有白泡泡 「個人網(wǎng)站」 :雪碧的個人網(wǎng)站 chatgpt體驗地址 計算機(jī)視覺是一門涉及圖像和視頻處理的領(lǐng)域,可以應(yīng)用于目標(biāo)檢測、圖像識別、人臉識別等各種任務(wù)。 不同的開發(fā)環(huán)境、操作系統(tǒng)和硬件配置可能導(dǎo)致部署和運行計算機(jī)視覺應(yīng)用的困難。 目的

    2024年02月05日
    瀏覽(23)
  • 【計算機(jī)視覺 | 目標(biāo)檢測】Grounding DINO 深度學(xué)習(xí)環(huán)境的配置(含案例)

    【計算機(jī)視覺 | 目標(biāo)檢測】Grounding DINO 深度學(xué)習(xí)環(huán)境的配置(含案例)

    “ Grounding DINO:Marrying DINO with Grounded Pre-Training for Open-Set Object Detection ”的官方 PyTorch 實現(xiàn): SoTA 開放集對象檢測器。 論文地址: 在 YouTube 上觀看介紹視頻: Try the Colab Demo: Try Official Huggingface Demo: Grounded-SAM: Marrying Grounding DINO with Segment Anything Grounding DINO with Stable Diffusion

    2024年02月07日
    瀏覽(97)
  • 【計算機(jī)視覺 | 目標(biāo)檢測】RegionCLIP的環(huán)境部署和代碼測試(含源代碼)

    【計算機(jī)視覺 | 目標(biāo)檢測】RegionCLIP的環(huán)境部署和代碼測試(含源代碼)

    RegionCLIP: Region-based Language-Image Pretraining This is the official PyTorch implementation of RegionCLIP (CVPR 2022). 我們提出 RegionCLIP,它顯著擴(kuò)展了 CLIP 以學(xué)習(xí)區(qū)域級視覺表示。 RegionCLIP 支持圖像區(qū)域和文本概念之間的細(xì)粒度對齊,從而支持基于區(qū)域的推理任務(wù),包括零樣本對象檢測和開放詞匯

    2024年01月15日
    瀏覽(49)
  • 云原生Docker容器中的OpenCV:輕松構(gòu)建可移植的計算機(jī)視覺環(huán)境

    云原生Docker容器中的OpenCV:輕松構(gòu)建可移植的計算機(jī)視覺環(huán)境

    構(gòu)建可移植的計算機(jī)視覺環(huán)境 計算機(jī)視覺是一門涉及圖像和視頻處理的領(lǐng)域,可以應(yīng)用于目標(biāo)檢測、圖像識別、人臉識別等各種任務(wù)。 不同的開發(fā)環(huán)境、操作系統(tǒng)和硬件配置可能導(dǎo)致部署和運行計算機(jī)視覺應(yīng)用的困難。 目的和重要性: Docker容器提供了一種輕量級、可移植、

    2024年04月11日
    瀏覽(19)
  • 【計算機(jī)視覺】DINOv2(Facebook自監(jiān)督視覺學(xué)習(xí))的環(huán)境部署和使用代碼示范(含源代碼)

    【計算機(jī)視覺】DINOv2(Facebook自監(jiān)督視覺學(xué)習(xí))的環(huán)境部署和使用代碼示范(含源代碼)

    我的代碼示范已經(jīng)上傳了Kaggle平臺,具體的筆記地址為: DINOv2:在沒有監(jiān)督的情況下學(xué)習(xí)魯棒的視覺特征 這是第一種訓(xùn)練計算機(jī)視覺模型的方法,它使用自我監(jiān)督學(xué)習(xí)來實現(xiàn)與該領(lǐng)域使用的標(biāo)準(zhǔn)方法相匹配或超過標(biāo)準(zhǔn)方法的結(jié)果。 最近,自然語言處理在大量數(shù)據(jù)上進(jìn)行模型

    2024年02月12日
    瀏覽(25)
  • 計算機(jī)視覺入門 - MacOS搭建Python的OpenCV環(huán)境并在VScode上使用的詳細(xì)步驟(完整版)

    計算機(jī)視覺入門 - MacOS搭建Python的OpenCV環(huán)境并在VScode上使用的詳細(xì)步驟(完整版)

    目錄 過程: 下載VScode編輯器: 在VScode中安裝Python插件:? 安裝Python解釋器: 測試Python程序:? 安裝wget插件: 安裝cmake插件:? 安裝opencv: 通過程序來測試opencv: 運行成功:? 要使用的東西:VScode編輯器、Terminal終端、Homebrew軟件包管理工具、Python、OpenCV 首先在Mac上下載

    2024年01月16日
    瀏覽(39)
  • 計算機(jī)視覺 計算機(jī)視覺識別是什么?

    計算機(jī)視覺 計算機(jī)視覺識別是什么?

    計算機(jī)視覺識別(Computer Vision Recognition)是計算機(jī)科學(xué)和人工智能領(lǐng)域中的一個重要分支,它致力于使計算機(jī)系統(tǒng)能夠模擬和理解人類視覺的過程,從而能夠自動識別、分析和理解圖像或視頻中的內(nèi)容。這一領(lǐng)域的發(fā)展旨在讓計算機(jī)具備視覺感知和理解的能力,使其能夠從視

    2024年02月07日
    瀏覽(23)
  • 計算機(jī)視覺框架OpenMMLab(一):計算機(jī)視覺基礎(chǔ)

    計算機(jī)視覺框架OpenMMLab(一):計算機(jī)視覺基礎(chǔ)

    ????? 作者簡介: 大數(shù)據(jù)專業(yè)碩士在讀,CSDN人工智能領(lǐng)域博客專家,阿里云專家博主,專注大數(shù)據(jù)與人工智能知識分享。 公眾號: GoAI的學(xué)習(xí)小屋,免費分享書籍、簡歷、導(dǎo)圖等資料,更有交流群分享AI和大數(shù)據(jù),加群方式公眾號回復(fù)“加群”或??點擊鏈接。 ?? 專欄推

    2024年01月22日
    瀏覽(24)
  • 計算機(jī)視覺(P2)-計算機(jī)視覺任務(wù)和應(yīng)用

    計算機(jī)視覺(P2)-計算機(jī)視覺任務(wù)和應(yīng)用

    在本文中,我們將探討主要的計算機(jī)視覺任務(wù)以及每個任務(wù)最流行的應(yīng)用程序。 ????????圖像分類是計算機(jī)視覺領(lǐng)域的主要任務(wù)之一[1]。在該任務(wù)中,經(jīng)過訓(xùn)練的模型根據(jù)預(yù)定義的類集為圖像分配特定的類。下圖是著名的CIFAR-10數(shù)據(jù)集[1],它由十個類別的8000萬張圖像組成

    2024年02月02日
    瀏覽(28)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包