每周一期,縱覽音視頻技術(shù)領(lǐng)域的干貨。
新聞投稿:contribute@livevideostack.com。
ChatGPT神器Code Interpreter終于開放,到底怎么用?這里有一份保姆級教程
Code Interpreter 已經(jīng)正式開放。
上海世界AI大會:MidJourney名字的來源是莊子?
MidjourneyCEO大衛(wèi)·霍爾茲在2023世界人工智能大會上發(fā)言,認(rèn)為AI將成為創(chuàng)造和想象力的新的載體和引擎。通過AI,我們有可能放大整個人類種族的原始想象力。針對公司的名字Midjouney,霍爾茲表明它來自于道教著作《莊周》中的中道概念,他認(rèn)為中國古典文學(xué)帶來了很多最美麗的,最深沉的思想。
生成式AI時代的AI Infra—從DevOps->MLOps->LLMOps
這篇文章想要從AI Infra的角度出發(fā),從更宏觀的角度看Generative AI對AI Infra生態(tài)產(chǎn)生的變化,本文不局限于LLM,文中提到的LLM泛指一切Generative AI或者Foundation Models。
華為大模型登Nature正刊!比傳統(tǒng)方法預(yù)測天氣,快1萬倍
盤古氣象大模型或使人類得以重新審視氣象預(yù)報模型的未來。
CIS制造工藝回顧與展望
CMOS圖像傳感器由于能夠集成到具有高圖像質(zhì)量的智能手機(jī)中,因而正經(jīng)歷著巨大的增長。圖像傳感器發(fā)展的主要貢獻(xiàn)之一是其制造工藝的創(chuàng)新。這篇文章詳細(xì)回顧了CMOS圖像傳感器的不同制造工藝及其對智能手機(jī)圖像質(zhì)量的影響。討論了使用硅通孔和Cu-Cu混合鍵合等技術(shù)制造CMOS圖像傳感器及其實驗結(jié)果。
賣一顆芯片虧 23 萬,自動駕駛芯片創(chuàng)業(yè)有多難
國內(nèi)車載芯片創(chuàng)業(yè)公司黑芝麻智能向港交所遞交上市申請材料,計劃在港股主板掛牌。黑芝麻智能是僅有的兩家實現(xiàn)量產(chǎn)上車的國產(chǎn)大算力芯片公司之一,其量產(chǎn)節(jié)奏和出貨量僅次于地平線。
通過誘導(dǎo)和限制表示的等變單視角姿態(tài)預(yù)測
該研究探討了計算機(jī)視覺中的一個基本問題,即如何從二維圖像中學(xué)習(xí)關(guān)于三維世界的信息。研究人員提出了一種理想的神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)利用物體在三維空間中的旋轉(zhuǎn)和平移特性,對新的圖像進(jìn)行預(yù)測。然而,將SO(3)的等變性應(yīng)用于二維輸入是具有挑戰(zhàn)性的。為了解決這個問題,研究人員引入了SO(2)-等變性約束,并利用SO(2)在SO(3)上誘導(dǎo)和限制的表示來構(gòu)建滿足幾何一致性約束的架構(gòu)。
https://arxiv.org/abs/2307.03704
香港科技大學(xué)提出視角不變的場景圖循環(huán)檢測方法:邁向場景感知的機(jī)器視覺
針對室內(nèi)場景中的視覺SLAM,這篇論文提出了一種基于增量生成場景圖的回環(huán)檢測方法。它綜合考慮宏觀視圖拓?fù)?、微觀視圖拓?fù)浜驼Z義實例的占有率,找出正確的對應(yīng)關(guān)系。使用手持RGB-D序列進(jìn)行的實驗表明,該方法能夠準(zhǔn)確地檢測出變化劇烈的視點中的環(huán)路。它在觀察具有相似拓?fù)浜屯庥^的對象時保持了高精度。
從神經(jīng)輻射場中移除物體
神經(jīng)輻射場(NeRFs)是一種能夠合成新視圖的場景表示方法。現(xiàn)有的 NeRF 編輯框架很難實現(xiàn)這種指定物體的移除。本文提出一個框架,可以從 RGB-D 序列創(chuàng)建的 NeRF 表示中刪除對象。NeRF inapinting 的方法利用了最近在 2D 圖像 inpainting 方面的工作,并由用戶提供的 mask 作為指導(dǎo)。該算法通過基于置信度的視圖選擇過程,選擇使用哪些 inpainted 2D 圖像來創(chuàng)建 NeRF,使生成的 NeRF 是 3D 一致的。本文所提出的NeRF編輯方法對以多視圖一致的方式生成修復(fù)是有效的,并在一個全新的數(shù)據(jù)集上驗證了所提出的方法。
圖像壓縮對視覺識別的魯棒性分析
這篇文章的發(fā)現(xiàn)有助于在資源和帶寬有限的情況下為用戶部署視覺識別。在未來的工作中,希望探索在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)集上訓(xùn)練視覺識別模型時,本文的發(fā)現(xiàn)可以用于減少 I/O 綁定延遲。特別是,探索直接在潛在壓縮圖像表示上訓(xùn)練識別模型,而不是通過通常的 RGB 表示。
室內(nèi)場景的凸分解(Convex Decomposition)
這篇文章關(guān)于三維圖形的分割和重建。該研究描述了一種將復(fù)雜、雜亂的室內(nèi)場景解析為簡化的凸結(jié)構(gòu)的方法。該團(tuán)隊使用簡單的凸多邊形作為基本元素來對場景結(jié)構(gòu)進(jìn)行抽象。利用學(xué)習(xí)到的回歸過程,從RGBD輸入中將場景解析為固定數(shù)量的凸多邊形,并可選擇使用分割信息來改善分解結(jié)果。
https://arxiv.org/abs/2307.04246
你不知道的分光測色儀結(jié)構(gòu)
通過顏色的測量工具(統(tǒng)稱為測色儀)可以輕松地得到被測物體在不同光源及各種條件下的色度數(shù),甚至光譜曲線;有利于進(jìn)行色彩的管理、控制及研發(fā),方便不同廠家間的色彩交流和溝通;可以避免人為或環(huán)境因素造成的色彩判斷偏差;無論室內(nèi)室外,都可以做到更精準(zhǔn)、客觀地評判色彩。
音視頻工具--Onvif設(shè)備管理器
ONVIF 設(shè)備管理器 (ODM) 是一款免費的開源軟件實用程序,旨在管理符合 ONVIF 標(biāo)準(zhǔn)的網(wǎng)絡(luò)視頻設(shè)備,例如 IP 攝像機(jī)、視頻編碼器和網(wǎng)絡(luò)錄像機(jī) (NVR)。ONVIF 代表開放網(wǎng)絡(luò)視頻接口論壇,是基于 IP 的物理安全產(chǎn)品的全球標(biāo)準(zhǔn)化倡議,旨在促進(jìn)不同制造商設(shè)備之間的互操作性。
直播道具高可用建設(shè)
根據(jù)2022年第四季度的財報數(shù)據(jù)顯示,B站在跨年晚會期間的直播人氣峰值達(dá)到了3.3億。直播業(yè)務(wù)對于B站來說是一個重要的增長點,而道具投喂(贈送禮物,后面統(tǒng)稱為道具投喂,禮物統(tǒng)稱為道具)在直播業(yè)務(wù)中扮演著重要的角色。在這篇文章中,介紹了如何確保直播道具相關(guān)系統(tǒng)的高可用性,以實現(xiàn)99.99%的穩(wěn)定性目標(biāo)。文章將分為三個部分,分別是道具面板,道具投喂和多活。
Meta最新開源圖形庫IGL,star近2k,支持游戲開發(fā)、3D建模
IGL 是一個可直接調(diào)用 GPU 的跨平臺圖形庫,通過底層跨平臺接口封裝了常見的 GPU 功能。Meta 稱 IGL 的特性包括:跨平臺兼容、高性能渲染、易于使用的 API、可擴(kuò)展、完全開源、可用于任何項目,并且沒有任何許可限制。
“Hey Siri”要成為歷史了。
今年 6 月,iOS 17 發(fā)布開發(fā)者版本,其中一個很有意思的改動是“Hey Siri”將沒有“Hey”了——用戶僅需說“Siri”就能喚醒語音助手。但就是這么一個簡單的變化,卻愁壞一大堆程序員。從去年年末消息放出到現(xiàn)在將近半年,iOS 依然沒有正式更新該功能。拿走一個“Hey”,對語音助手來說有多難?
達(dá)摩院FunASR離線文件轉(zhuǎn)寫SDK發(fā)布,完成工業(yè)落地“最后一公里”
FunASR是由達(dá)摩院語音實驗室開源的一款語音識別基礎(chǔ)框架,集成了語音端點檢測、語音識別、標(biāo)點斷句等領(lǐng)域的工業(yè)級別模型,吸引了眾多開發(fā)者參與體驗和開發(fā)。
語音合成中的Lora,插件式speaker開發(fā)
語音合成中的Lora,插件式speaker開發(fā),語音克隆的未來。
蘋果Vision Pro中文開發(fā)教程匯總
這篇文章介紹了將Unity VR應(yīng)用帶入完全沉浸式空間、開始構(gòu)建空間計算應(yīng)用等7個教程。
手持移動設(shè)備上凝視估計及其交互應(yīng)用的全面綜述
近年來,我們見證了越來越多的手持移動設(shè)備上采用凝視作為單一或輔助交互方式的互動系統(tǒng)。這一趨勢是由這些設(shè)備的增強(qiáng)計算能力、更高分辨率和相機(jī)容量以及先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)(尤其是深度學(xué)習(xí))所帶來的凝視估計精度的提高驅(qū)動的。這篇文章旨在通過呈現(xiàn)一個端到端的綜合視角來實現(xiàn)這一目標(biāo),從凝視捕捉傳感器、凝視估計工作流程、深度學(xué)習(xí)技術(shù)到凝視交互應(yīng)用的全面綜述。
https://dl.acm.org/doi/10.1145/3606947
谷歌還能撐得起XR的野心嗎?
蘋果推出了有著劃時代意義的Vision Pro,科技圈為此興奮不已。Vision Pro公布數(shù)日后,谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在一次采訪中還表達(dá)過對Vision Pro的看法:“我對這項技術(shù)的潛力感到興奮?!?
但幾周后卻傳來谷歌停止開發(fā)AR眼鏡項目“Iris”的消息,回想近些年谷歌在AR方面的投入,令人唏噓。
EPIQ 2020 | SHVC based HTTP Adaptive Streaming over QUIC
這篇文章研究了QUIC和HTTP/2對ABR算法性能的影響。此外,提出了一種有效的方法,結(jié)合了傳統(tǒng)的視頻流傳輸方法(基于非可擴(kuò)展視頻編碼格式)和一種重傳技術(shù),以利用可擴(kuò)展視頻編碼格式進(jìn)行自適應(yīng)視頻流傳輸。實驗結(jié)果表明,在丟包和重傳的情況下,QUIC從這種方法中獲得了顯著的好處。與HTTP/2相比,它提高了平均視頻質(zhì)量,并提供了更平滑的自適應(yīng)行為。最后,本文證明了最初針對非可擴(kuò)展視頻編解碼器設(shè)計的方法在可擴(kuò)展視頻(如可擴(kuò)展高效視頻編碼,SHVC)上也能有效地工作。
B站“橫豎”都要
被短視頻“沖擊”一年后,中長視頻能否如愿“逆天改命”?
對話中科深智成維忠:數(shù)字人的關(guān)鍵是交互,交互的關(guān)鍵是大模型
成維忠一直相信,人是未來 3D 交互的重中之重,而這種與“人”的交互,則必須通過 AI 和大模型來完成。
LiveVideoStackCon 2023 上海站日程發(fā)布
LiveVideoStackCon 2023 上海站音視頻技術(shù)大會以「沉浸·新視界」為主題,除了探索音視頻技術(shù)在不同場景下的融合與發(fā)展外,還增添了游戲、AIGC和數(shù)字化行業(yè)案例等新鮮火爆的話題。在這里,你可以感受到多媒體生態(tài)內(nèi)的頭部公司、頂級玩家對行業(yè)當(dāng)前發(fā)展趨勢、瓶頸挑戰(zhàn),與對未來規(guī)劃的深入解讀。
我們將邀請60余位頂級講師聚集一堂,與你共同分享他們的專業(yè)見解。這是一個與業(yè)內(nèi)頂尖專家進(jìn)行深入交流的絕佳機(jī)會,你將有機(jī)會親自與他們面對面,從他們豐富的經(jīng)驗中獲得寶貴的技術(shù)心得。
▲掃描圖中二維碼或點擊“閱讀原文”?▲文章來源:http://www.zghlxwxcb.cn/news/detail-575904.html
查看更多LveVideoStackCon 2023上海站精彩話題文章來源地址http://www.zghlxwxcb.cn/news/detail-575904.html
到了這里,關(guān)于音視頻技術(shù)開發(fā)周刊 | 302的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!