每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
大神回歸學(xué)界:何愷明宣布加入 MIT
「作為一位 FAIR 研究科學(xué)家,我將于 2024 年加入麻省理工學(xué)院(MIT)電氣工程與計算機(jī)科學(xué)系 EECS 擔(dān)任教職?!?/p>
AI 領(lǐng)域的著名學(xué)者,ResNet 發(fā)明人何愷明,最近在個人網(wǎng)站上宣布即將回歸學(xué)界了。
Meta新開源模型AudioCraft炸場!文本自動生成音樂
8月3日,全球社交、科技巨頭Meta(Facebook、Instagram等母公司)宣布開源文本生成音樂模型Audiocraft。據(jù)悉,Audiocraft是一個混合模型,由MusicGen、AudioGen和EnCodec組合而成。僅用文本就能生成鳥叫、汽車?yán)嚷?、腳步等背景音頻,或更復(fù)雜的音樂,適用于游戲開發(fā)、社交、視頻配音等業(yè)務(wù)場景。
從「生成式AI」轉(zhuǎn)化為「生產(chǎn)力」,亞馬遜云科技劃出重點
憑借過去數(shù)年的客戶需求洞察和技術(shù)積累,亞馬遜云科技將大量的 AI 能力集成到了簡單易用的產(chǎn)品之中,希望以最簡潔的方式將技術(shù)進(jìn)步輸送到各行各業(yè)。在這場技術(shù)盛會上,亞馬遜云科技一口氣推出了七項生成式 AI 新功能。
人類創(chuàng)造的數(shù)據(jù)太貴了!開發(fā)者悄悄使用AI合成數(shù)據(jù)訓(xùn)練模型
現(xiàn)在,開發(fā)者都在悄悄使用AI生成的數(shù)據(jù)來訓(xùn)練AI模型。原因就是——人類創(chuàng)造的數(shù)據(jù),實在是太貴了!
在以往,大多數(shù)AI模型都是靠人類的數(shù)據(jù)訓(xùn)練的,但現(xiàn)在,越來越多的公司(包括OpenAI、微軟,以及Cohere這樣的初創(chuàng)公司)都開始使用這種AI生成的「合成數(shù)據(jù)」,或者在努力搞清如何使用AI生成的數(shù)據(jù)了。
報告:數(shù)見潮流,洞見未來——發(fā)現(xiàn)內(nèi)容行業(yè)新機(jī)遇
中國內(nèi)容應(yīng)用生態(tài)覆蓋用戶規(guī)模穩(wěn)步增長,結(jié)構(gòu)性變化呈現(xiàn)視頻形態(tài)規(guī)模與粘性雙增長,深度信息內(nèi)容消費增加,進(jìn)而影響企業(yè)層面品牌認(rèn)知與種草轉(zhuǎn)化,同時,AIGC變革生產(chǎn)力,內(nèi)容產(chǎn)業(yè)生態(tài)多元化入局+平臺賦能縱深,內(nèi)容資產(chǎn)成為企業(yè)核心資產(chǎn)之一,內(nèi)容運營是必選項。
如何設(shè)計一顆AI芯片?來自Meta的實踐!
機(jī)器學(xué)習(xí)(ML)已經(jīng)在在線活動中變得無處不在。近年來,這些模型的規(guī)模和復(fù)雜性大幅增長,這有助于提高預(yù)測的準(zhǔn)確性和有效性。然而,與此同時,這種增長給用于大規(guī)模訓(xùn)練和推理這些模型的硬件平臺帶來了巨大挑戰(zhàn)??倱碛谐杀荆═CO)是在數(shù)據(jù)中心將模型投入生產(chǎn)的主要制約因素之一,而功率是這些平臺TCO的重要組成部分。因此,單位TCO的性能(以及每瓦的性能)已成為針對機(jī)器學(xué)習(xí)的所有硬件平臺的重要衡量標(biāo)準(zhǔn)。
三雄并立的MCU市場
微控制器(Microcontroller Unit,MCU)是一類集成了中央處理器、內(nèi)存、輸入輸出接口和定時器等功能的微型計算機(jī)芯片。自20世紀(jì)70年代問世以來,MCU技術(shù)在各個領(lǐng)域取得了巨大成功,并在當(dāng)今數(shù)字化時代發(fā)揮著至關(guān)重要的作用。驚人的是,一個小小的微控制器卻占據(jù)著處理器市場的80%以上份額!隨著世界各地的半導(dǎo)體企業(yè)都參與到MCU技術(shù)的研發(fā)和生產(chǎn)中,MCU市場呈現(xiàn)多元化、競爭激烈的格局。
自動駕駛企業(yè)擺脫高精地圖依賴的情況下,SLAM算法在行車過程中還有什么意義?
這篇文章由多個知乎高贊回答整理而成,希望對關(guān)注自動駕駛領(lǐng)域SLAM算法應(yīng)用的讀者有所幫助。
動態(tài)環(huán)境下竟然能在嵌入式系統(tǒng)上實現(xiàn)實時語義RGB-D SLAM?
大多數(shù)現(xiàn)有的視覺SLAM方法嚴(yán)重依賴于靜態(tài)世界假設(shè),在動態(tài)環(huán)境中很容易失效。本文提出了一個動態(tài)環(huán)境下的實時語義RGB-D SLAM系統(tǒng),該系統(tǒng)能夠檢測已知和未知的運動物體。為了減少計算成本,其只對關(guān)鍵幀進(jìn)行語義分割以去除已知的動態(tài)對象,并保持靜態(tài)映射以實現(xiàn)穩(wěn)健的攝像機(jī)跟蹤。此外,文章還提出了一個有效的幾何模塊,通過將深度圖像聚類到幾個區(qū)域,并通過它們的重投影誤差來識別動態(tài)區(qū)域,從而檢測未知的運動物體。
動態(tài)視覺SLAM的億點點思考
動態(tài)環(huán)境下的視覺SLAM一直都是研究的重點和難點,但最近動態(tài)SLAM的paper越來越少,感覺主要原因是動態(tài)SLAM的框架已經(jīng)固化,很難做出大的創(chuàng)新?,F(xiàn)有的模板基本就是使用目標(biāo)檢測或者語義分割網(wǎng)絡(luò)剔除動態(tài)特征點,然后用幾何一致性做進(jìn)一步的驗證。筆者最近也在思考突破口,所以打算深入分析一下目前的主流方案,希望能夠?qū)ふ业届`感。
F-LIC:基于FPGA的細(xì)粒度管道的學(xué)習(xí)型圖像壓縮
最近,學(xué)習(xí)圖像壓縮(LIC)在壓縮比和重建圖像質(zhì)量方面都表現(xiàn)出了卓越的能力。通過采用變異自動編碼器框架,LIC 可以超越最新傳統(tǒng)編碼標(biāo)準(zhǔn) VVC 的內(nèi)部預(yù)測。為了加快編碼速度,大多數(shù) LIC 框架都在 GPU 上使用浮點運算。然而,如果編碼和解碼在不同的平臺上進(jìn)行,浮點運算結(jié)果在不同硬件平臺上的不匹配會導(dǎo)致解碼錯誤。因此,非常需要采用定點運算的 LIC 。
這篇論文給出了 8 位定點量化 LIC 的 FPGA 設(shè)計。不同于現(xiàn)有的 FPGA 加速器,該文提出了一種細(xì)粒度流水線結(jié)構(gòu),以實現(xiàn)較高的 DSP 效率。此外,還開發(fā)了級聯(lián) DSP 和跳零解卷功能,以提高硬件性能。
CVPR 2023 | 屏幕圖像超分中的B樣條紋理系數(shù)估計
隨著多媒體應(yīng)用的快速發(fā)展,屏幕內(nèi)容圖像(SCI)已在人們?nèi)粘I钪蓄l繁出現(xiàn)。但是顯示設(shè)備和SCI之間經(jīng)常發(fā)生分辨率不匹配,并且,SCI有著邊緣薄而銳利等特點,與自然圖像很不同。然而,大多數(shù)超分辨率方法是應(yīng)用于自然圖像的。因此,本文提出了一種針對SCI的超分辨率方法。本文提出了利用INR連續(xù)表示SCI的B樣條紋理系數(shù)估計器(BTC),從低分辨率(LR)圖像中預(yù)測B樣條曲線的系數(shù)、節(jié)點和膨脹參數(shù)。然后,將查詢點的坐標(biāo)投影到2維B樣條表示的空間中,并將其饋送到MLP。利用B樣條基函數(shù)的正約束和緊支撐性,在SCI的不連續(xù)處減少了下沖/過沖帶來的失真。
Zoom正式支持AV1了!
當(dāng)?shù)貢r間7月28日的Zoom更新,官方發(fā)布的Release notes中的增強(qiáng)功能部分顯示,“為了提供更高質(zhì)量的視頻而不增加帶寬使用量,Zoom正在推出一種新的視頻編解碼器給免費賬戶使用”?,F(xiàn)在Windows,macOS,Linux,Android,iOS端的Zoom都已經(jīng)支持AV1這個“下一代編碼器”。
https://support.zoom.us/hc/en-us/articles/17763841523213-Release-notes-for-July-24-2023? ?
BILIVVC編碼器首次亮相MSU國際視頻編碼器大賽并獲得多項好成績
BILIVVC在1fps和5fps檔位的YUV-SSIM指標(biāo)下均獲得了第三名的成績。BILIVVC編碼器的性能在眾多參賽編碼器中名列前茅。
BILIVVC編碼器在H266內(nèi)核的基礎(chǔ)上,實現(xiàn)了VVC標(biāo)準(zhǔn)支持的絕大多數(shù)編碼工具,同時對這些編碼工具進(jìn)行了大量優(yōu)化,相較于參考代碼的實現(xiàn)方式而言,各個工具在BILIVVC上的性能表現(xiàn)更為高效。
基于AI和NPU的Codec變革——VPU與NPU的協(xié)同創(chuàng)新
在這個快速變化的數(shù)字媒體時代,Codec技術(shù)在視頻和音頻處理中扮演著至關(guān)重要的角色。AI的崛起為Codec帶來了前所未有的機(jī)遇和挑戰(zhàn),同時VPU與NPU的發(fā)展與協(xié)同創(chuàng)新,使得Codec能夠更好地適應(yīng)復(fù)雜的場景和需求,并實現(xiàn)更高水平的圖像和聲音處理能力。
LiveVideoStackCon2022北京站邀請到了中心微電子多媒體技術(shù)總監(jiān)的孔德輝老師,從多個角度探討AI和NPU對Codec的影響,包括算法優(yōu)化、性能提升、能效改進(jìn)等方面。深入了解基于AI和NPU的Codec變革的關(guān)鍵因素和潛在機(jī)會,進(jìn)一步推動數(shù)字媒體領(lǐng)域的創(chuàng)新和發(fā)展。
Streaming Media East 2023 | About VVC
VVC(Versatile Video Codec)是基于 HEVC 的混合視頻編碼,通過完善現(xiàn)有的技術(shù)和增加一系列在 HEVC 及過去的編解碼器中所沒有的工具,它的性能相較 HEVC 在主客觀上分別提升了 30% 和 40+%。VVC 面向 8k、360°、HDR 等一系列場景,這也是它被命名為多功能視頻編解碼器的原因。
VVC在云端和瀏覽器播放中的應(yīng)用
通用視頻編碼(VVC)是由ITU-T和ISO/IEC聯(lián)合開發(fā)的最新國際視頻編碼標(biāo)準(zhǔn)。雖然VVC具備廣泛的功能集,可應(yīng)用于多種領(lǐng)域,但相較其前身高效視頻編碼(HEVC),VVC在保持相同主觀視頻質(zhì)量的前提下,可顯著降低約50%的比特率。標(biāo)準(zhǔn)化工作于2020年7月完成后,已開始許多活動,以便將VVC集成到實際應(yīng)用中。
這篇論文展示了如何在流媒體應(yīng)用中實現(xiàn)使用VVC的實際工作流程。我們展示了弗勞恩霍夫(Fraunhofer)VVenC VVC編碼器如何被應(yīng)用于Bitmovin的基于云的編碼解決方案。同時詳細(xì)介紹了VVC如何影響實際決策,如選擇最佳比特率階梯,以及與其他編碼器相比的成本和性能對比。最后,演示了弗勞恩霍夫VVdeC解碼器如何與WebAssembly結(jié)合,實現(xiàn)在瀏覽器中實時播放VVC視頻的可能性。
https://dl.acm.org/doi/10.1145/3510450.3517305
蘋果空間音頻新專利 | 為可穿戴設(shè)備用戶提供空間音頻導(dǎo)航系統(tǒng)
近日,美國專利商標(biāo)局正式授予蘋果一項與空間音頻導(dǎo)航相關(guān)的專利,該專利將在未來的AirPods、智能眼鏡和更輕量級的Vision Pro上使用。該系統(tǒng)通過雙耳音頻設(shè)備播放指向性音頻,為用戶提供導(dǎo)航提示,幫助他們找到穿過商場、其他場所或城市公園的路。該系統(tǒng)還可以為車輛駕駛員提供音頻導(dǎo)航。
Interspeech2023 | 跨語言語音識別中基于聯(lián)合語音表征學(xué)習(xí)的音素到詞轉(zhuǎn)碼器
跨語言語音識別(Cross-lingual Speech Recognition)的目標(biāo)是利用高資源語言的發(fā)音信息,應(yīng)用于低資源語言,提升低資源語言語音識別性能。全球共有7000多種語言,其中大部分語言的標(biāo)注數(shù)據(jù)嚴(yán)重不足。為了應(yīng)對低資源語音識別的挑戰(zhàn),跨語言語音識別成為了一種有效的解決方案。新近研究表明,基于無監(jiān)督預(yù)訓(xùn)練技術(shù),通過在可用語言的標(biāo)注和無標(biāo)注數(shù)據(jù)上進(jìn)行大規(guī)模訓(xùn)練,可以構(gòu)建一個通用的語音表示模型,并通過微調(diào)將其遷移到目標(biāo)低資源語言上,取得了顯著的成果。
學(xué)術(shù)簡訊 | CN-Celeb-AV: 多場景視聽多模態(tài)數(shù)據(jù)集發(fā)布
近日,清華大學(xué)語音和語言技術(shù)團(tuán)隊聯(lián)合北京郵電大學(xué)發(fā)布了中國明星多場景音視頻多模態(tài)數(shù)據(jù)集 (CN-Celeb-AV),供音視頻多模態(tài)身份識別 (AVPR) 等領(lǐng)域的研究者使用。本數(shù)據(jù)集包含來自1,136名中國明星,超過419,000個視頻片段,涵蓋11種不同的場景,并提供了完備模態(tài)和非完備模態(tài)兩套標(biāo)準(zhǔn)評測集。
通話降噪算法在手機(jī)和IOT設(shè)備上的應(yīng)用和挑戰(zhàn)
隨著電子產(chǎn)品的升級換代,用戶對通話質(zhì)量的要求也越來越高。通話降噪算法對通話質(zhì)量起到了關(guān)鍵核心的作用。計算資源的提升使得深度學(xué)習(xí)模型在便攜式的低功耗芯片上面跑起來了,器件成本降低讓IoT設(shè)備開始使用骨導(dǎo)傳感器,,那怎么樣才能將深度學(xué)習(xí)和傳統(tǒng)算法結(jié)合?怎么樣充分利用好骨導(dǎo)傳感器?怎么樣將客觀測試的結(jié)果轉(zhuǎn)化為真實的用戶體驗?這也是新時期通話算法面臨的新的挑戰(zhàn)。LiveVideoStackCon 2022北京站邀請到了王林章老師,為我們分享通話降噪算法在手機(jī)和IOT設(shè)備上的應(yīng)用和挑戰(zhàn)。?
第15種XR視頻模式—3.5D矩形視頻模式
今年(2023年),隨著Apple Vision Pro的發(fā)布,視頻透視(VST)有了標(biāo)桿性產(chǎn)品。根據(jù)VST本身的價值,我預(yù)測未來市場上將會新增3種融合現(xiàn)實視頻模式。3.5D矩形視頻模式,可透視3D全景視頻模式,BR/MR虛實拼接模式模式。?
蘋果Vision Pro中文開發(fā)教程匯總(第3期)
本文包含了探索空間計算的Quick Look 、將SwiftUI帶到下一個維度、 適用于空間計算的Safari等7個視頻教程。
微軟AR/VR專利分享改進(jìn)的顯示基板和背板基板的Micro-LED顯示器件
由于分辨率,尺寸,效率,以及耐燒屏方面的優(yōu)勢,Micro-LED正在成為AR/VR頭顯廠商關(guān)注的一個重要領(lǐng)域。實際上,微軟同樣有所關(guān)注,并已申請了名為“Micro-led display”的專利。
半導(dǎo)體工藝控制設(shè)備行業(yè)研究:國產(chǎn)化率不足5%,替代空間大
半導(dǎo)體工藝控制設(shè)備主要包括“面向晶圓制造的前道檢測”和“面向先進(jìn)封裝的中道檢測”。傳統(tǒng)的集成電路工藝主要分為前道和后道,隨著集成電路行業(yè)的不斷發(fā)展進(jìn)步,后道封裝 技術(shù)向晶圓級封裝發(fā)展,從而衍生出先進(jìn)封裝工藝。
OpenAI首席科學(xué)家最新訪談:對模型創(chuàng)業(yè)兩點建議、安全與對齊、Transformer夠好嗎?
OpenAI首席科學(xué)家Ilya Sutskever最近和他的朋友Sven Strohband進(jìn)行了一次簡短的對話。訪談中主要提及了以下幾個問題:對深度學(xué)習(xí)的信仰、對AGI的暢想,Transformer夠不夠好,讓人震驚的涌現(xiàn)能力,安全和對齊,以及對模型創(chuàng)業(yè)者的兩點建議。
直播+X——直播行業(yè)新趨勢
人類對感受與體驗的不斷追求,趨勢音視頻技術(shù)迅猛發(fā)展,音視頻服務(wù)以前所未有之勢被各行業(yè)強(qiáng)烈需要。如今,直播已然是一個所有人耳熟能詳?shù)拿~,直播業(yè)務(wù)和生態(tài),以及關(guān)鍵支撐技術(shù),都在持續(xù)演進(jìn)和迭代,生機(jī)勃勃。本次LiveVideoStackCon 2023上海站邀請到華為云陸振宇為大家分享如何在直播行業(yè)讓“老樹長新芽”。
對話云從姜迅:大模型不是企業(yè)、國與國之間的競爭,可能是人類命運共同體的鑰匙
如今,人機(jī)協(xié)同操作系統(tǒng)的定位也一直延續(xù)到了大模型時代。姜迅表示,雖然公司內(nèi)部沒有明確的‘最高戰(zhàn)略’的提法,但對這件事情的重視度已經(jīng)非常高了,我們不用‘最’這個詞,用優(yōu)先級來說,它確實是一個非常高的優(yōu)先級。
反觀國內(nèi)大模型的發(fā)展,大部分企業(yè)仍停留在追熱點階段,并沒有實質(zhì)性進(jìn)展。那云從是否也在追熱點?姜迅給出了否定的答案。他表示,我們還在研究我們的人機(jī)協(xié)同操作系統(tǒng),在GPT技術(shù)之上,人機(jī)協(xié)同操作系統(tǒng)的智商會越來越高,它不僅會增加其上限,還能降低成本,這能在很大程度上讓該系統(tǒng)更好地服務(wù)客戶,競爭優(yōu)勢也會增加。
LiveVideoStackCon 2023 深圳站 已啟動
LiveVideoStackCon 2023 深圳站音視頻技術(shù)大會以「沉浸·新視界」為主題。經(jīng)過近十年的快速發(fā)展,多媒體生態(tài)正在向精致優(yōu)化發(fā)展,更注重細(xì)節(jié)、成本,內(nèi)卷和出海成為壓力輸出口。一方面,在現(xiàn)有市場及業(yè)務(wù)競爭仍舊相當(dāng)激烈的環(huán)境下,企業(yè)開始更多關(guān)注于如何降低成本、追求更高的利潤,以及面向用戶提供更優(yōu)質(zhì)的服務(wù)與體驗;另一方面,對于不斷涌現(xiàn)的更多新的技術(shù)、場景,逐步探索并利用其創(chuàng)造更多的業(yè)務(wù)、產(chǎn)品與商業(yè)價值是各企業(yè)持續(xù)關(guān)注的目標(biāo)。
本次深圳站,我們擬邀請幾十位來自海內(nèi)外的音視頻領(lǐng)域的專家聚集一堂,與你共同分享他們的專業(yè)見解。
▲點擊“閱讀原文”?▲文章來源:http://www.zghlxwxcb.cn/news/detail-633344.html
跳轉(zhuǎn)LiveVideoStackCon 2023 深圳站 官網(wǎng),了解更多信息文章來源地址http://www.zghlxwxcb.cn/news/detail-633344.html
到了這里,關(guān)于音視頻技術(shù)開發(fā)周刊 | 305的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!