每周一期,縱覽音視頻技術領域的干貨。
新聞投稿:contribute@livevideostack.com。
人工智能研究人員聲稱,通過Zoom音頻檢測擊鍵的準確率為93%
通過記錄按鍵并訓練深度學習模型,三位研究人員聲稱,基于單個按鍵的聲音特征,他們在解釋遠程按鍵方面的準確率達到了90%以上。
https://arstechnica.com/gadgets/2023/08/type-softly-researchers-can-guess-keystrokes-by-sound-with-93-accuracy/
GitHub 1.1萬星,模擬軟件開發(fā)流程,開源框架MetaGPT爆火
隨著大型語言模型(LLM)的日漸成熟,利用其構建 AI 智能體成為一個新的研究方向。已有研究使用 LLM 驅(qū)動多智能體自主完成了一些任務。然而,現(xiàn)有研究主要集中在簡單任務上,缺乏對復雜任務的探索。這主要是因為大型語言模型存在「幻覺」問題,特別是當多個智能體相互作用時,幻覺會進一步被放大,以至于無法用于復雜任務。最近,一個名為「MetaGPT」的開源框架嘗試解決這個問題。
對話Sam Altman與Greg Brockman:初心和過去,信念和現(xiàn)在,責任和未來
近日,硅谷著名投資人Reid Hoffman和Aria Finger聯(lián)手對Sam Altman和Greg Brockman進行了一場訪談,訪談涉及到主題有:OpenAI的使命,人工智能對教育、醫(yī)療等行業(yè)的變革性影響,人工智能如何面對監(jiān)管,OpenAI成功的關鍵,未來的發(fā)展暢想。?
麥肯錫:ChatGPT等生成式AI加速,美國30%工作時間將實現(xiàn)自動化
全球頂級咨詢調(diào)查機構麥肯錫發(fā)布了《生成式AI與美國未來工作》的深度調(diào)查報告,詳細分析了生成式AI對美國勞動力市場的影響。
AI日報|ChatGPT更聰明了;為什么蘋果不主動在AI領域炫技?
此前有消息稱,OpenAI 購買了 AI.com,以便將其重定向到 ChatGPT 網(wǎng)頁界面,這引起了一陣騷動。
OpenAI CEO親自示范!自定義指令上手攻略,調(diào)教專屬定制化AI助手
OpenAI推出了ChatGPT的自定義指令功能后,似乎沒有收到用戶們的熱情回應,Altman本人都下場親自教大家使用。
NeRF與三維重建相關
本文對室外神經(jīng)輻射場使用深度先驗進行了全面的研究和評估,涵蓋了常見的深度傳感技術和大多數(shù)應用方式。
ICASSP 2023說話人識別方向論文合集(二)
本文是 ICASSP 2023說話人識別方向論文合集系列第二期,整理了 Speaker Verification 后16篇和 Speaker Diarization 部分的17篇。
基于AI和NPU的Codec變革——VPU與NPU的協(xié)同創(chuàng)新
在這個快速變化的數(shù)字媒體時代,Codec技術在視頻和音頻處理中扮演著至關重要的角色。AI的崛起為Codec帶來了前所未有的機遇和挑戰(zhàn),同時VPU與NPU的發(fā)展與協(xié)同創(chuàng)新,使得Codec能夠更好地適應復雜的場景和需求。
面對算力瓶頸,如何利用CPU解決全鏈路智能編碼?
英特爾是半導體行業(yè)和計算創(chuàng)新領域的全球領先廠商。與合作伙伴一起,英特爾推動了人工智能、5G、智能邊緣等轉(zhuǎn)折性技術的創(chuàng)新和應用突破,驅(qū)動智能互聯(lián)世界。
業(yè)內(nèi)首次!快手直播盛夏巔峰之夜應用全鏈路4K+HDR直播技術
2023快手直播盛夏巔峰之夜近期在上海舉行,在4小時的直播中,快手首次采用了全鏈路4K+HDR直播技術,實現(xiàn)了從清晰度到光影色彩的全面提升,為觀眾呈現(xiàn)了一場極致的視覺盛宴,這也是該項技術在業(yè)內(nèi)大型直播活動中的首次應用。
MediaUni——面向未來的流媒體傳輸網(wǎng)絡設計與實踐
本文從應用對流媒體傳輸網(wǎng)絡的要求、MediaUni定位與系統(tǒng)架構、MediaUni技術剖析、基于MediaUni的應用落地和流媒體傳輸網(wǎng)絡的未來5個方面展開介紹。
超低延時直播技術的前世今生
據(jù)中國互聯(lián)網(wǎng)絡信息中心發(fā)布的《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》顯示,截止到 2022 年 6 月我國網(wǎng)絡直播用戶規(guī)模達到了 7.16 億,占網(wǎng)民整體的 68.1% 。
華為參與制定標準,無線短距通訊“卷王”來了
一年一度的華為HDC(開發(fā)者大會)如約而至,帶來了萬眾矚目的HarmonyOS 4.0,盤古大模型、方舟引擎等一系列前沿技術,也亮相新一代無線短距通信技術:星閃 NearLink。
自動駕駛與GNSS之戀
GNSS是所有衛(wèi)星導航定位系統(tǒng)的總稱,凡是可以通過捕獲跟蹤其衛(wèi)星信號實現(xiàn)定位的系統(tǒng),均可納入GNSS系統(tǒng)的范圍。GNSS信號是廣播式,即只要你能收到信號,就可以實現(xiàn)定位,不需要用戶和衛(wèi)星進行交互,即理論上來說,GNSS系統(tǒng)的用戶容量是無限的。
目前主流車企都使用的哪些車機芯片和智能駕駛芯片?
目前市面關于自動駕駛行泊一體的解決方案基本都用到多顆SoC的策略,常見組合包括低算力TDA4 * 2方案、TDA4 + 3J3方案、高算力Orin * 2(*4)方案、MDC610 * 2方案等等,多顆SoC是如何聯(lián)合工作的是個很有意思的問題,今天拿TI的雙TDA4方案做一下解讀,其中的思路可以幫助理解其它多SoC方案。
大有可為的模擬芯片
模擬芯片負責處理連續(xù)的模擬信號。半導體市場主要包括集成電路(即芯片)、分立器件、光電子器件、傳感器等四大類產(chǎn)品,其中集成電路市場占比最大。
Pro Tools現(xiàn)已免費提供MPEG-H制作插件
Fraunhofer IIS的MPEG-H制作插件現(xiàn)已免費提供給Pro Tools Ultimate客戶。前不久,F(xiàn)raunhofer IIS宣布與Avid建立戰(zhàn)略合作伙伴關系。Avid為Pro Tools Ultimate客戶提供MPEG-H制作功能,代表著合作關系愈加深入,從而為音頻創(chuàng)作開啟無限創(chuàng)意可能。
https://www.audioblog.iis.fraunhofer.com/cn/mpegh-pro-tools
音頻編解碼學習--MDCT 學習
在音頻編解碼中,MDCT變換是一個非常重要的基礎概念,它在MP3和OGG介紹中都有涉及到。MDCT變換是一種數(shù)學變換,它將時域信號轉(zhuǎn)換為頻域信號,這對于音頻編解碼來說非常關鍵。
Spectral sensor及其在手機領域的應用
Spectral sensor可以說是多光譜成像的一個變種。多光譜成像一般是用在食品、工業(yè)檢測,以及地球遙感成像領域。
CVPR 2023 Tutorial Talk | 走向統(tǒng)一的視覺理解界面
如果我們對計算機視覺模型進行類似的預測,現(xiàn)在我們正在應對不同類型的圖像級任務,如圖像分類、圖像描述,以及像素級任務圖像分割等。實際上我們感興趣的是,如何遵循類似語言模型的發(fā)展路徑,進行統(tǒng)一,并增進計算機視覺模型的人類-AI 交互。
告別VR噩夢!Meta Reality Labs破解虛擬痛點,重塑全新VR世界
在SIGGRAPH 2023大會上,來自Meta Reality Labs的兩個原型機讓我們看到了「未來的一瞥」。
顯示技術專家Karl談Vision Pro:用虛擬屏替代物理屏是荒謬想法
近眼顯示技術專家卡爾·古塔格(Karl Guttag)對蘋果Vision Pro的分析。
CVPR 2023教程 | 多模態(tài)智能體-鏈接大模型
在 Linjie Li 的演講中,她回答了多模態(tài)智能體中的重要問題之一:如何用大模型將多模態(tài)智能體串聯(lián)起來。
全球半導體行業(yè)格局與演變趨勢
過去五年里,芯片制造行業(yè)發(fā)生了重大變化,例如英特爾將桂冠輸給了兩個相對較新的競爭者——三星和臺積電。
NVIDIA使擴展現(xiàn)實流更具可擴展性,可定制給企業(yè)和開發(fā)人員
各行各業(yè)的組織都在使用擴展現(xiàn)實(XR)來重新設計工作流程并提高生產(chǎn)力,無論是沉浸式培訓還是協(xié)作式設計。
https://blogs.nvidia.com/blog/2023/08/08/cloudxr-suite-simplifies-enterprise-streaming/
室溫超導:一個反復上演 “狼來了” 的研究領域
一隊韓國學者發(fā)布兩篇論文,宣布物理學領域重大突破,世界震動之余又將信將疑。一些同行試圖通過重復實驗或計算驗證可行性,也有一些學者提醒公眾別激動得太早。如今復現(xiàn)實驗有了新進展 —— 整體不樂觀,不過出現(xiàn)了積極的證據(jù) —— 學界還在疑惑,資本市場已被點燃。
專訪騰訊技術專家張賢國:十余年視頻編碼老兵,對技術仍保有敬畏之心
Vision Pro的發(fā)布,點燃了空間計算新時代的熱潮。作為騰訊云架構平臺部香農(nóng)實驗室(以下簡稱香農(nóng)實驗室)的技術負責人,張賢國向我們分享了香農(nóng)實驗室在視頻編解碼和空間媒體處理能力的最新進展與布局。
對話咔嚓剪輯金邦飛 | 如果把我的人生類比成播放器去開發(fā)與設計...
至今,多媒體的發(fā)展史大約有40年的時間,這40年里, 一代代技術人不斷投身于多媒體事業(yè)的汪洋。LiveVideoStack此次采訪金邦飛——深耕該領域的技術老兵。關注多媒體技術標桿的時代故事。
LiveVideoStackCon 2023 深圳站 已啟動
LiveVideoStackCon 2023 深圳站音視頻技術大會以「沉浸·新視界」為主題。經(jīng)過近十年的快速發(fā)展,多媒體生態(tài)正在向精致優(yōu)化發(fā)展,更注重細節(jié)、成本,內(nèi)卷和出海成為壓力輸出口。一方面,在現(xiàn)有市場及業(yè)務競爭仍舊相當激烈的環(huán)境下,企業(yè)開始更多關注于如何降低成本、追求更高的利潤,以及面向用戶提供更優(yōu)質(zhì)的服務與體驗;另一方面,對于不斷涌現(xiàn)的更多新的技術、場景,逐步探索并利用其創(chuàng)造更多的業(yè)務、產(chǎn)品與商業(yè)價值是各企業(yè)持續(xù)關注的目標。本次深圳站,我們擬邀請幾十位來自海內(nèi)外的音視頻領域的專家聚集一堂,與你共同分享他們的專業(yè)見解。(點此查看大會講師名單,更多精彩敬請期待)。
▲點擊“閱讀原文”?▲文章來源:http://www.zghlxwxcb.cn/news/detail-650242.html
跳轉(zhuǎn)LiveVideoStackCon 2023 深圳站 官網(wǎng),了解更多信息文章來源地址http://www.zghlxwxcb.cn/news/detail-650242.html
到了這里,關于音視頻技術開發(fā)周刊 | 306的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!