編者按:在線K歌的業(yè)務(wù)已經(jīng)發(fā)展了十年,程樂在音視頻領(lǐng)域也闖蕩了十年,甚至更久。為什么選擇在線K歌領(lǐng)域?如何走過“漫長的季節(jié)”,迎來新的風(fēng)景?如何在“在線K歌”這塊難啃的骨頭里分點肉?在這一連串的問題下面,只有一個簡單的答案:興趣。以下是程樂的講述——
01?興趣決定了一切
大概是在上中學(xué)的時候,我開始對音視頻產(chǎn)生強烈的興趣。從收音機、磁帶機、CD、VCD、DVD、mp3,一直到大學(xué)時期開始流行的MP4、平板、相機等等,基本上都是省吃儉用搞回來的,為此也沒少跟父母鬧過矛盾。
程樂
大學(xué)時,相對能折騰的時間比較多,剛好是智能手機爆發(fā)前夜,MP4設(shè)備比較火爆,那幾年基本是賣舊買新,一直跟著最新的設(shè)備迭代,從僅支持單一480p Xvid視頻格式到720p rmvb再到1080p H264,到生命末期甚至卷到了4K(那時候還是2010年之前)。當(dāng)時在imp3論壇上也很活躍(現(xiàn)在早已關(guān)閉),一起討論新出的芯片方案解碼性能到底咋樣,各種編碼格式的優(yōu)缺點;
2018 年 11 月,iMP3正式宣布關(guān)站
也蹲各個廠家的評測優(yōu)惠活動,寫寫評測,機器就能半價入手。在當(dāng)時論壇的影響下,我也開始入門燒耳機,哪些耳機能做到低音沉、中音準(zhǔn)、高音甜,無損的Ape Flac比WMA MP3能強多少等等,都是涉獵的范疇。
畢業(yè)后的第二份工作是做電視盒子,雖然最后的結(jié)果不太好,但當(dāng)時的煩惱很少,日子過得開心、純粹。那個時候每天考慮的就是本地播放怎么提高兼容性,MP4/flv/mkv/ts這些格式怎么封裝,藍(lán)光導(dǎo)航怎么搞,ASS/PGS特效字幕怎么解析渲染,各家的硬件解碼器都要怎么適配,網(wǎng)絡(luò)播放怎么提高穩(wěn)定性等等。
當(dāng)時的狀態(tài)就像重度游戲玩家開始按照自己的意愿開發(fā)一款新游戲,從工作體驗上來說是比較滿足的。
再后來,移動直播、短視頻開始興起,我就用之前積累的音視頻經(jīng)驗轉(zhuǎn)做移動端的直播、短視頻SDK,當(dāng)時應(yīng)該還是有不少客戶在用的。再后來就開始做撕歌的實時語聊K歌場景,也是從乙方轉(zhuǎn)做了甲方。
總之畢業(yè)后一路走來,工作在自己的興趣領(lǐng)域也是蠻幸運的事情?;叵肫饋?,興趣對于跨越音視頻的門檻來說是非常必要且有效的,所以希望想入這行的同學(xué)都能夠培養(yǎng)起來對音視頻的興趣。
02?在K歌賽道中,殺出一條血路
下面,讓我們來聊聊業(yè)務(wù)。我是2019年加入幀趣的,之后就開始接手公司內(nèi)音視頻相關(guān)的技術(shù)以及K歌的整體體驗。主要側(cè)重在客戶端部分,服務(wù)端音視頻能力大部分是用第三方服務(wù),自己做的東西會比較少。
那么,與其他大廠相比,我們的技術(shù)優(yōu)勢在哪里呢?
首先是我們有一支戰(zhàn)斗力強的業(yè)務(wù)團隊,能夠快速試錯各種新的腦洞玩法,對用戶常用常新。撕歌在K歌的玩法上也是做了不少探索,比如最早上線的雙人接唱玩法,以及到后來的多人接唱玩法,都是朝著更容易產(chǎn)生社交的方向去努力的。
撕歌的各種玩法基本都戳中了年輕人的興趣點
對撕歌有了解的人都能看出來,撕歌走的是實時K歌玩法。K歌是一種社交類的破冰游戲,大家有著共同的唱歌愛好,更容易打開話題,沉淀社交關(guān)系,有了社交關(guān)系之后用戶的粘性就比較強了。
其次是K歌體驗部分,相比其他主要關(guān)注業(yè)務(wù)的語聊類app,我們有專門的音視頻團隊,可以自己實現(xiàn)很多需求,不至于第三方?jīng)]有我們就沒得用;另外我們逐步建立起了一套主客觀評價機制,可以推動第三方來優(yōu)化關(guān)注點,然后由我們集成優(yōu)勢,靈活地選擇最佳的供應(yīng)商。
前幾年,各RTC廠商對泛娛樂K歌場景都缺乏投入,我們的采集渲染方案在低延遲耳返、耳返兼容性、人聲伴奏對齊等方面存在優(yōu)勢;AEC以及演唱評分也做過自己的優(yōu)化,不過隨著各家加大資源的投入,差距會縮小。像AEC效果這些,第三方這兩年普遍進步很大,這種情況下我們最終會根據(jù)整體的主客觀評價結(jié)果來做調(diào)整。
踩坑、成長、一步一步來
技術(shù)上的主要困難還是小團隊都會面臨的全棧要求。由于我自己一直是在做音視頻的工程開發(fā),而唱歌體驗的好壞也有很大一部分是落在硬核算法上的,像是音效、演唱打分、回聲消除效果等等。
演唱打分這塊,在19年初還不太能找到合適的第三方技術(shù)服務(wù),當(dāng)時是請兼職幫忙搞了一套算法,不過效果準(zhǔn)確性上一直有比較大的問題,這塊自己當(dāng)時花了大半個月的時間啃了四五篇paper,對評分算法做了一個比較大的優(yōu)化,準(zhǔn)確度上也是有了明顯的提升,大致能夠滿足我們娛樂性質(zhì)演唱的需求。
回聲消除這里也做過嘗試,當(dāng)時的教育產(chǎn)業(yè)如火如荼,RTC廠商們的重心基本都在會議和教育領(lǐng)域,對我們這類娛樂K歌類產(chǎn)品的需求滿足度就比較低。當(dāng)時的回聲消除最明顯的問題是雙講場景下對人聲的壓制非常厲害,人聲發(fā)悶嚴(yán)重甚至?xí)G掉一些音節(jié)。
這類問題對會議場景來說不是特別嚴(yán)重,能聽清楚對方講的內(nèi)容就可以,但在K歌場景下人聲的這類損傷會導(dǎo)致聽感非常差,這時寧愿殘留一些伴奏的回聲,也要盡量保障對人聲細(xì)節(jié)的保留。這塊我們當(dāng)時也嘗試把WebRTC中的AEC算法抽出來,然后在演唱的時候屏蔽掉非線性處理部分,只做線性處理,殘留的回聲靠伴奏的精準(zhǔn)混音來壓制掉。
在當(dāng)時各RTC廠家整體的效果下,這個方案大多數(shù)情況下的體驗還是會好不少的。當(dāng)然后來教育被打掉之后,各家開始重視泛娛樂市場,這塊的體驗才有了質(zhì)的飛躍,現(xiàn)在我們也是采購了第三方的AI回聲消除算法。
目前我們音視頻這邊跟業(yè)務(wù)會相對獨立,大部分優(yōu)化迭代可能是跟業(yè)務(wù)相關(guān)性不大的,這些部分會獨立發(fā)版,然后跟業(yè)務(wù)側(cè)的版本班車去發(fā)。這里有一些是產(chǎn)品提過來的體驗問題優(yōu)化,也有一部分是我們自己綜合用戶反饋以及統(tǒng)計信息來做的。當(dāng)然也有一些跟業(yè)務(wù)強相關(guān)的開發(fā)內(nèi)容,類似接唱玩法、一些需要演唱打分的場景等等,這部分會跟業(yè)務(wù)一起評估需求,納入業(yè)務(wù)的項目管理進度中去。
宣發(fā)和技術(shù)也是我們在發(fā)展過程中努力在提升的方向,留住用戶更重要的還是產(chǎn)品力,技術(shù)也是為產(chǎn)品力服務(wù)的,這塊我們還是有持續(xù)的路要走。
繞不過的降本增效
說到降本增效,其實,作為一個小團隊,主要還是發(fā)揮自己的優(yōu)勢方向,非優(yōu)勢方向以及成本上無法顧及的方向則想辦法找合作方來補齊。比如實時K歌場景下,對用戶體驗影響較大且我們自己可以做的采集渲染以及機型適配工作,我們從19年開始就一直在積累;而像RTC的傳輸優(yōu)化、AEC處理,服務(wù)器架設(shè)則是建立了一套實驗室評價體系,選擇效果最好的服務(wù)商來滿足需求。
成本這塊,實時K歌最大頭的也就是RTC服務(wù)的費用了,我們目前是配合自己的采集渲染來集成各家的RTC服務(wù),這樣可以做到最低的切換成本,線上多家RTC同時存在時的體驗也是一致的。這種方案下我們會有比較好的議價優(yōu)勢,也能掌握議價的主動權(quán)。另外端上對CDN資源的cache機制,對RTC資源的按需使用優(yōu)化也能降低一部分成本。
03?要在現(xiàn)在,抓住未來
唱歌是人的天性,社交也是天性。特別是年輕一代在自我表現(xiàn)以及社會認(rèn)同上會有更個性化的需求,他們對在一個虛擬社區(qū)中組成團體的認(rèn)同感以及精力投入上也都更多,基于K歌的社交垂類還是有持續(xù)的可挖掘空間的。
我認(rèn)為,K歌未來的發(fā)展方向應(yīng)該也是朝著更容易沉淀社交關(guān)系的方向去走。比如說更精準(zhǔn)的匹配推薦策略,讓對脾氣的用戶能高效的認(rèn)識并沉淀關(guān)系;再比如說基于AI的自動改編和自動作曲,讓有才華的非專業(yè)用戶可以高效產(chǎn)生自己的特色作品,低成本地炫出自己的才華;對于音樂領(lǐng)域來說,基于AI的伴奏人聲分離技術(shù)已經(jīng)比較成熟,目前的效果基本上能達(dá)到實用程度了。
再比如基于AI的回聲消除以及降噪,可以達(dá)到傳統(tǒng)算法無法企及的高度。像我們所在的K歌社交領(lǐng)域,如果能基于AI給歌曲以及用戶的演唱做自動分類推薦,則會是一個比較顯著的方向。希望未來的技術(shù)發(fā)展能解決目前實時合唱的延時問題,讓遠(yuǎn)在各地的用戶可以輕松和聲。
最后,分享下我在這次的LiveVideoStackCon中帶來的內(nèi)容:主要還是分享這幾年做撕歌在音視頻這塊踩過的坑,以Android/iOS移動端的技術(shù)為主;也會分享K歌場景下特殊的一些技術(shù)點;還會聊聊音視頻技術(shù)上的優(yōu)化如何變成老板們能認(rèn)可的指標(biāo),以及語聊場景常見的卡麥問題。
*文章圖源:文章來源:http://www.zghlxwxcb.cn/news/detail-494019.html
豆瓣《蜘蛛俠:縱橫宇宙》文章來源地址http://www.zghlxwxcb.cn/news/detail-494019.html
到了這里,關(guān)于如何把在線K歌“玩起來”——專訪撕歌音視頻架構(gòu)師程樂的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!