每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
「緊急通知」LiveVideoStackCon 2022 音視頻技術(shù)大會(huì)北京站改期
各位LVSer們:
因疫情影響,北京近期不再允許舉辦大型線下活動(dòng),我們無(wú)奈且抱歉的通知大家LiveVideoStackCon 2022音視頻技術(shù)大會(huì)北京站大會(huì)將暫停舉辦,延期至2023年第一季度召開(kāi),具體時(shí)間待疫情穩(wěn)定允許后再另行通知。我們感謝所有為此次大會(huì)付出時(shí)間和努力的伙伴們,相見(jiàn)是肯定的,非常情況下,好事更多磨吧!因此給大家?guī)?lái)的不便,我們深表歉意。
LiveVideoStack會(huì)務(wù)組
2022年11月24日
流媒體服務(wù)新手入門(mén)教程01--什么是流媒體服務(wù)及m7s介紹
流媒體是指采用流式傳輸?shù)姆绞絺鞑ザ嗝襟w文件。比如現(xiàn)在常見(jiàn)的直播應(yīng)用抖音、快手以及視頻網(wǎng)站,它們的背后都是流媒體服務(wù)支撐著。
https://juejin.cn/post/6988659336457240590
一看就懂的 OpenGL 基礎(chǔ)概念(3):各種 O 之 VBO、EBO、VAO丨音視頻基礎(chǔ)
在前面的文章里,我們介紹了 OpenGL 在圖形渲染應(yīng)用中的角色,OpenGL 的渲染架構(gòu)、狀態(tài)機(jī)、渲染管線,以及 OpenGL 要在設(shè)備上實(shí)現(xiàn)渲染的橋梁 EDL 等內(nèi)容,接下來(lái)我們來(lái)介紹一下在 OpenGL 開(kāi)發(fā)中幫助我們提升渲染性能的幾種數(shù)據(jù)對(duì)象。
一種自適應(yīng)邊緣增強(qiáng)的顏色插值處理器的VLSI實(shí)現(xiàn)
這篇文章介紹了一種面向?qū)崟r(shí)視頻應(yīng)用的、基于自適應(yīng)邊緣增強(qiáng)的去馬賽克模塊的VLSI實(shí)現(xiàn),在保持低復(fù)雜度的同時(shí),提高了圖像質(zhì)量。
使用 OpenCV 和 Python 在直播中模糊人臉
本文將學(xué)習(xí)如何使用 OpenCV 和 Python 在直播中模糊人臉。這將是一個(gè)非常有趣的博客,讓我們開(kāi)始吧!
FFmpeg filter淺析--下篇
在之前的兩篇文章中,我們熟悉了FFmpeg filter的基本概念,命令行用法和關(guān)鍵結(jié)構(gòu)體、API使用流程,本篇文章我們?cè)谥暗腄emo演示工程中通過(guò)調(diào)用libavfilter相關(guān)API來(lái)實(shí)現(xiàn)drawgrid filter效果。
音視頻開(kāi)發(fā)之旅(39)- 高斯模糊實(shí)現(xiàn)與優(yōu)化
我們?cè)谄綍r(shí)開(kāi)發(fā)中模糊是非常常用的技能,在android中有java的開(kāi)源方案,也有RenderScript方案,今天我們來(lái)學(xué)習(xí)實(shí)踐通過(guò)OpenGL如何實(shí)現(xiàn)高斯模糊。
語(yǔ)音前處理技術(shù)在會(huì)議場(chǎng)景中的應(yīng)用及挑戰(zhàn)
隨著在線會(huì)議的普及,用戶(hù)已經(jīng)不再滿(mǎn)足于能聽(tīng)到,而是要有更為極致的聽(tīng)感體驗(yàn),如何能夠在復(fù)雜多變的應(yīng)用場(chǎng)景中依舊保證聲音清晰流暢是對(duì)會(huì)議系統(tǒng)的極大挑戰(zhàn)。
INTERSPEECH 2022|FS-CANet: 基于全帶子帶交叉注意力機(jī)制的語(yǔ)音增強(qiáng)
本文提出了一個(gè)全帶-子帶交叉注意模塊來(lái)交互融合全局信息和局部信息,并將其應(yīng)用于FullSubNet,提出了新的語(yǔ)音增強(qiáng)方法FS-CANet。通過(guò)FS-CANet,我們?cè)谌珟?子帶語(yǔ)音增強(qiáng)模型內(nèi)有效交互融合全帶與子帶信息,在降低參數(shù)量的情況下進(jìn)一步提升了原有語(yǔ)音增強(qiáng)模型在復(fù)雜聲學(xué)環(huán)境下的降噪性能。
流式語(yǔ)音識(shí)別的大廈已經(jīng)落成,天空中只漂浮著兩朵烏云
在本文中,我們發(fā)現(xiàn)了解決尖峰漂移還有一種新的視角:那就是“ 數(shù)據(jù) ”。深度學(xué)習(xí)的奧秘,絕大部分隱藏在數(shù)據(jù)中,我們深信:模型的潛能上限不在于模型結(jié)構(gòu)/訓(xùn)練技巧,而在于數(shù)據(jù)。
蘋(píng)果AirPods Max新專(zhuān)利 | 用于隱私的骨傳導(dǎo)換能器
近日,美國(guó)專(zhuān)利和商標(biāo)局正式授予蘋(píng)果一項(xiàng)專(zhuān)利,該專(zhuān)利與保護(hù)隱私的骨傳導(dǎo)換能器有關(guān)。更具體地說(shuō),該專(zhuān)利涵蓋了一種在蘋(píng)果AirPods Max等無(wú)線頭戴式耳機(jī)上執(zhí)行的方法。
Dirac Virtuo音頻解決方案概覽
Dirac Virtuo通過(guò)精確的聲音定位,打造一個(gè)寬敞、自然的聲景,超越用戶(hù)音響系統(tǒng)的物理限制,以實(shí)現(xiàn)具有空間感的沉浸式聲音體驗(yàn)。
被“白嫖”拖垮的開(kāi)源維護(hù)者,缺的從來(lái)就不只是錢(qián)......
在開(kāi)源領(lǐng)域,有一個(gè)存在很久但始終難以解決的問(wèn)題——開(kāi)源維護(hù)者全力維護(hù)開(kāi)源項(xiàng)目,卻沒(méi)有穩(wěn)定資金來(lái)源,而“用愛(ài)發(fā)電”注定難以為繼,各種開(kāi)源項(xiàng)目開(kāi)始 Bug 頻出。對(duì)此,很多人呼吁要對(duì)開(kāi)源維護(hù)者提供資助,但這真的能徹底解決問(wèn)題嗎?
BEV常見(jiàn)的開(kāi)源算法系列一 | BEV空間的生成
本篇將從BEV空間的生成算法開(kāi)始,介紹BEV算法的發(fā)展歷史,并且重點(diǎn)介紹基于Transformer的BEV空間生成算法。這些算法開(kāi)創(chuàng)性地使用Transformer更高效,更精確地生成BEV空間。
聲紋識(shí)別開(kāi)源工具 ASV-Subtools
今天我分享的主要有5個(gè)部分的內(nèi)容,分別是背景介紹、工具介紹、實(shí)驗(yàn)結(jié)果、Subtools工程化、總結(jié)與展望。其中Subtools工程化是我這次報(bào)告的一個(gè)重點(diǎn)。
這個(gè)懂中文的 AI 高手,畫(huà)出的高山明月太驚艷!中英雙語(yǔ) AltDiffusion 模型已開(kāi)源
日前,智源研究院大模型研究團(tuán)隊(duì)開(kāi)源最新雙語(yǔ) AltDiffusion 模型,為中文世界帶來(lái)專(zhuān)業(yè)級(jí) AI 文圖創(chuàng)作的強(qiáng)勁動(dòng)力。AltDiffusion 和 AltCLIP 模型均為多語(yǔ)言模型,中英雙語(yǔ)為第一階段工作,代碼與模型已開(kāi)源。
開(kāi)源大盤(pán)點(diǎn) | 各國(guó)車(chē)牌識(shí)別開(kāi)源數(shù)據(jù)集匯總
本文整理了11個(gè)車(chē)牌檢測(cè)識(shí)別相關(guān)的開(kāi)源數(shù)據(jù)集資源,一起來(lái)看看吧。
CVPR 2022 | CLIP-NeRF: 文字-圖像驅(qū)動(dòng)的 NeRF 操作
本文提出了 CLIP-NeRF,一種用于神經(jīng)輻射場(chǎng)的多模態(tài) 3D 對(duì)象操作方法。通過(guò)利用最近的對(duì)比語(yǔ)言-圖像預(yù)訓(xùn)練 (CLIP) 模型的聯(lián)合語(yǔ)言-圖像嵌入空間提出了一個(gè)統(tǒng)一的框架,允許使用短文本提示或示例圖像以用戶(hù)友好的方式操作 NeRF。
數(shù)字圖像處理:邊緣檢測(cè)
在之前的文章中,我介紹了傅里葉變換,這次我將介紹另一種圖像處理方法,邊緣檢測(cè)。在openCV中,有很多函數(shù)可以讓我們找到圖像的邊緣,在這篇文章中,我將挑選出比較有代表性的Sobal算子和Laplacian算子進(jìn)行介紹。
12個(gè)常用的圖像數(shù)據(jù)增強(qiáng)技術(shù)總結(jié)
本文總結(jié)了圖像增強(qiáng)常用的一些方法,并附相關(guān)實(shí)現(xiàn)代碼。圖像本身的變化將有助于模型對(duì)未見(jiàn)數(shù)據(jù)的泛化,從而不會(huì)對(duì)數(shù)據(jù)進(jìn)行過(guò)擬合。
深度學(xué)習(xí)在圖像處理中的應(yīng)用一覽
計(jì)算機(jī)視覺(jué)的底層,圖像處理,根本上講是基于一定假設(shè)條件下的信號(hào)重建。這個(gè)重建不是3-D結(jié)構(gòu)重建,是指恢復(fù)信號(hào)的原始信息,比如去噪聲。
淘寶拍立淘iOS相冊(cè)架構(gòu)設(shè)計(jì)小結(jié)
這篇文章從系統(tǒng)權(quán)限、API 調(diào)用、架構(gòu)設(shè)計(jì)等角度,生動(dòng)演示了一個(gè)設(shè)計(jì)友好、模塊獨(dú)立、易拓展以及用戶(hù)體驗(yàn)優(yōu)秀的相冊(cè)是如何開(kāi)發(fā)出來(lái)的。除此之外,作者針對(duì)各種小細(xì)節(jié)也做了優(yōu)化和解析,使得功能實(shí)現(xiàn)更加的豐滿(mǎn)。
【RTSCon 2022】實(shí)時(shí)通信與價(jià)值賦能
初雪將至,萬(wàn)眾期待的一年一度RTSCon再次來(lái)襲,本次RTSCon 2022由RTS社區(qū)和LiveVideoStack社區(qū)聯(lián)合出品。本次大會(huì)主題圍繞“實(shí)時(shí)通信與價(jià)值賦能”開(kāi)展,屆時(shí)我們?yōu)榇蠹覝?zhǔn)備了業(yè)內(nèi)大咖主題演講以及圓桌會(huì)議兩個(gè)模塊,歡迎報(bào)名參會(huì)收看。
? 時(shí)間:2022年12月3日 9:00-19:00
?? 地點(diǎn):線上免費(fèi)直播
入門(mén)必讀系列(七)Batch Size對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的影響
這篇文章非常全面細(xì)致地介紹了Batch Size的相關(guān)問(wèn)題。結(jié)合一些理論知識(shí),通過(guò)大量實(shí)驗(yàn),文章探討了Batch Size的大小對(duì)模型性能的影響、如何影響以及如何縮小影響等有關(guān)內(nèi)容。
差分卷積在計(jì)算機(jī)視覺(jué)中的應(yīng)用
文章主要介紹由Oulu大學(xué)主導(dǎo)的幾個(gè)差分卷積(Difference Convolution)工作及其在圖像、視頻領(lǐng)域中的應(yīng)用。
首個(gè)目標(biāo)檢測(cè)擴(kuò)散模型,比Faster R-CNN、DETR好,從隨機(jī)框中直接檢測(cè)
近日,來(lái)自香港大學(xué)的羅平團(tuán)隊(duì)、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè)。據(jù)了解,還沒(méi)有研究可以成功地將擴(kuò)散模型應(yīng)用于目標(biāo)檢測(cè),可以說(shuō)這是第一個(gè)采用擴(kuò)散模型進(jìn)行目標(biāo)檢測(cè)的工作。
三維點(diǎn)云深度學(xué)習(xí)技術(shù)綜述
點(diǎn)云學(xué)習(xí)因其在計(jì)算機(jī)視覺(jué)、自動(dòng)駕駛、機(jī)器人等領(lǐng)域的廣泛應(yīng)用而受到越來(lái)越多的關(guān)注。本文是對(duì)<Deep Learning for 3D Point Clouds:A Survey>的解讀,歡迎大家一起進(jìn)行技術(shù)交流。
NeurIPS 2022 | 姿態(tài)估計(jì)也開(kāi)始玩最優(yōu)傳輸分配了
NeurIPS 2022 的一篇工作,思想很簡(jiǎn)單,也非常契合我一直以來(lái)關(guān)于 Pose 和 Detection 大一統(tǒng)的思路,在此做一下簡(jiǎn)單的記錄與分享。
像背單詞一樣搞定機(jī)器學(xué)習(xí)關(guān)鍵概念!機(jī)器學(xué)習(xí)通關(guān)(5)
“如何高效學(xué)習(xí)機(jī)器學(xué)習(xí)關(guān)鍵概念?”機(jī)器學(xué)習(xí)網(wǎng)紅Chris Albon博士的小抄表可以幫到你。他總結(jié)了近300個(gè)機(jī)器學(xué)習(xí)概念,并彩筆手繪,制作了這份精美的小抄。
像背單詞一樣搞定機(jī)器學(xué)習(xí)關(guān)鍵概念!機(jī)器學(xué)習(xí)通關(guān)(6)
“如何高效學(xué)習(xí)機(jī)器學(xué)習(xí)關(guān)鍵概念?”機(jī)器學(xué)習(xí)網(wǎng)紅Chris Albon博士的小抄表可以幫到你。他總結(jié)了近300個(gè)機(jī)器學(xué)習(xí)概念,并彩筆手繪,制作了這份精美的小抄。
機(jī)器學(xué)習(xí)特征選擇方法總結(jié)
在本文中,我將介紹如何使用 python 減少 kaggle Mushroom Classification 數(shù)據(jù)集中的特性數(shù)量。本文中使用的所有代碼在?kaggle 和我的?github 帳號(hào)上都有。
不拽術(shù)語(yǔ),如何通俗地講解機(jī)器學(xué)習(xí)?
我決定寫(xiě)一篇醞釀已久的文章,對(duì)那些想了解機(jī)器學(xué)習(xí)的人做一個(gè)簡(jiǎn)單的介紹。不涉及高級(jí)原理,只用簡(jiǎn)單的語(yǔ)言來(lái)談現(xiàn)實(shí)世界的問(wèn)題和實(shí)際的解決方案。不管你是一名程序員還是管理者,都能看懂。那我們開(kāi)始吧!
萬(wàn)字解讀首篇「人臉復(fù)原」綜述!南大、中山、澳國(guó)立、帝國(guó)理工等聯(lián)合發(fā)布
最近,來(lái)自南京大學(xué)、澳大利亞國(guó)立大學(xué)、中山大學(xué)、帝國(guó)理工學(xué)院和騰訊的研究者們?nèi)婊仡櫜⒖偨Y(jié)了基于深度學(xué)習(xí)的人臉復(fù)原技術(shù)的研究進(jìn)展,對(duì)人臉復(fù)原方法進(jìn)行了分類(lèi),討論了網(wǎng)絡(luò)架構(gòu)、損失函數(shù)和基準(zhǔn)數(shù)據(jù)集,并對(duì)現(xiàn)有SOTA方法進(jìn)行了系統(tǒng)性性能評(píng)測(cè)。
用PS的照片申請(qǐng)理賠,保險(xiǎn)公司能過(guò)嗎?——基于人工智能的影像管理在智能理賠中的實(shí)踐
如何做好影像資料的自動(dòng)識(shí)別、真假判定等成為保險(xiǎn)公司降本增效、風(fēng)險(xiǎn)防范的重要課題。本文就保險(xiǎn)行業(yè)的影像資料技術(shù)和應(yīng)用給出探討。
最全自動(dòng)駕駛數(shù)據(jù)集分享系列六 | 定位與地圖數(shù)據(jù)集
目前關(guān)于自動(dòng)駕駛數(shù)據(jù)集你想知道的,應(yīng)該都在這里了,這是「整數(shù)智能」自動(dòng)駕駛數(shù)據(jù)集八大系列分享之系列六:定位與地圖數(shù)據(jù)集,共包括7個(gè)數(shù)據(jù)集。
五萬(wàn)字讀懂汽車(chē)線控制動(dòng)系統(tǒng)(BBW)
介紹線控制動(dòng)是怎么回事,分析線控制動(dòng)技術(shù)類(lèi)型、結(jié)構(gòu)和優(yōu)缺點(diǎn)及研究現(xiàn)狀,闡述其功能特點(diǎn)和工作原理。簡(jiǎn)述在當(dāng)前新形勢(shì)下線控制動(dòng)系統(tǒng)面臨的主要需求和未來(lái)發(fā)展趨勢(shì)。
實(shí)現(xiàn)自動(dòng)駕駛的車(chē)路協(xié)同規(guī)劃決策障礙和挑戰(zhàn)是什么?
要想解釋清楚這個(gè)問(wèn)題,必須要先對(duì)車(chē)輛協(xié)同自動(dòng)駕駛的技術(shù)架構(gòu)有基本統(tǒng)一的認(rèn)識(shí)。概括起來(lái)講就是車(chē)-路-云-圖-網(wǎng)四個(gè)方面發(fā)揮的作用拆解,四者之間的聯(lián)系還要考慮信息的傳輸,也就是網(wǎng)端。
全景環(huán)視系統(tǒng):自動(dòng)泊車(chē)之AVM算法框架
作者在工作中搭建了一套AVM算法框架,有一些效果還不錯(cuò)的demo。撰寫(xiě)本文,主要是想將AVM算法框架中每個(gè)算子講述清楚,與大家共同進(jìn)步。本博文的風(fēng)格為理論與實(shí)踐結(jié)合,含有部分代碼,適合有一些計(jì)算機(jī)視覺(jué)基礎(chǔ)的同學(xué)。
BEV和單目圖像車(chē)道線檢測(cè)方法總結(jié)
本文主要對(duì)主流的車(chē)道線檢測(cè)(包括BEV視角和圖像視角)方法進(jìn)行總結(jié)。由于基于深度學(xué)習(xí)的方法性能遠(yuǎn)超傳統(tǒng)方法,所以本文只總結(jié)了基于學(xué)習(xí)的方法。
4D毫米波成像雷達(dá)在智能汽車(chē)中的應(yīng)用研究
新一代4D毫米波成像雷達(dá)不僅可實(shí)現(xiàn)4D點(diǎn)云輸出,還可以使用神經(jīng)網(wǎng)絡(luò)技術(shù),根據(jù)呈現(xiàn)的點(diǎn)云圖像信息,對(duì)道路的使用者和障礙物進(jìn)行目標(biāo)檢測(cè)及分類(lèi)。
VR負(fù)面影響專(zhuān)題(下)
抑制沉浸式內(nèi)容傳播的一個(gè)主要原因是 VR 體驗(yàn)引起的不適感。在 VR 體驗(yàn)中,會(huì)引發(fā)一種與虛擬場(chǎng)景的視覺(jué)運(yùn)動(dòng)相對(duì)應(yīng)的自我運(yùn)動(dòng)感覺(jué)。在本文中,運(yùn)動(dòng)由 360° 視頻視覺(jué)誘導(dǎo),并用 GVS 設(shè)備刺激前庭。
高通發(fā)布第一代驍龍AR2平臺(tái),旨在變革AR眼鏡
2022驍龍峰會(huì)期間,高通技術(shù)公司推出第一代驍龍AR2平臺(tái),該平臺(tái)提供開(kāi)創(chuàng)性AR技術(shù),將助力打造新一代功能強(qiáng)大的輕薄AR智能眼鏡。
啥是AR?啥是VR?如果西游路上有AR,結(jié)局會(huì)……
混知公眾號(hào)以漫畫(huà)的形式普及AR、VR知識(shí),十分生動(dòng)有趣。
元宇宙的前世今生,業(yè)內(nèi)大佬帶你一遍過(guò)!
本篇文章講述了元宇宙從業(yè)者從(1)元宇宙是什么(2)元宇宙需要的要素以及(3)元宇宙如何步入主流社會(huì)的觀點(diǎn),帶你清晰地認(rèn)識(shí)元宇宙的當(dāng)下存在的問(wèn)題以及未來(lái)發(fā)展的趨勢(shì)。
閱讀推薦
程序員上手 Rust 2年后感悟:它的確強(qiáng)大,但想要取代C還遠(yuǎn)著呢
接觸 Rust 開(kāi)發(fā)快兩年了。我覺(jué)得,回顧下自己在這個(gè)過(guò)程中的一些感想和汲取的經(jīng)驗(yàn)教訓(xùn),應(yīng)該會(huì)很有趣。
“我讓 AI 來(lái)處理我 24 小時(shí)的音頻信息——這會(huì)是未來(lái)嗎?”
當(dāng) AI 逐漸融入我們的生活,你是否設(shè)想過(guò),我們的未來(lái)會(huì)如何發(fā)展?會(huì)像許多科幻電影和賽博朋克類(lèi)小說(shuō)中說(shuō)的那樣,讓 AI 管理和安排我們的日常?
2022年,中國(guó)汽車(chē)行業(yè)“打臉”報(bào)告
距離2023年已經(jīng)不到50天了,對(duì)于一貫喜歡立flag的車(chē)企來(lái)說(shuō),也到了該交作業(yè)的時(shí)候。事實(shí)上,2022年可能是過(guò)去十年中黑天鵝最多的一年。所以對(duì)于車(chē)企來(lái)說(shuō),今年完不成KPI是常態(tài),完成才是意外。
自動(dòng)駕駛十年風(fēng)云:寒冬過(guò)后,曙光初現(xiàn)
完全無(wú)人駕駛何時(shí)商業(yè)落地雖然沒(méi)有統(tǒng)一共識(shí),但路徑中形成的技術(shù)能力正進(jìn)入大規(guī)模商業(yè)應(yīng)用的前夜,誘因則是中國(guó)智能電動(dòng)汽車(chē)銷(xiāo)量激增帶來(lái)的高階輔助駕駛商用需求。對(duì)于懷揣自動(dòng)駕駛夢(mèng)想的創(chuàng)業(yè)者們來(lái)說(shuō),曙光已經(jīng)出現(xiàn)。
課程推薦
輕松掌握WebAssembly視頻播放器——LiveVideoStack與李超聯(lián)合打造
緊抓多媒體生態(tài)趨勢(shì),將瀏覽器、WebAssembly和Rust等熱點(diǎn)結(jié)合
熟知播放器工作原理,為實(shí)現(xiàn)商業(yè)化H.264/H.265播放器打下堅(jiān)實(shí)基礎(chǔ)
課程包含圖文、代碼、視頻,降低學(xué)習(xí)門(mén)檻
李超精準(zhǔn)講解,及時(shí)詳細(xì)解答文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-421108.html
↑識(shí)別上圖二維碼或點(diǎn)擊上圖立即訂閱。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-421108.html
到了這里,關(guān)于音視頻技術(shù)開(kāi)發(fā)周刊 | 273的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!