????????最近上油管和billbilli等視頻網(wǎng)站,會(huì)發(fā)現(xiàn)部分視頻添加了自動(dòng)字幕生成甚至翻譯功能(可能早就有,但是最近我才注意到)。前幾天在登錄T開頭的微博網(wǎng)站,也發(fā)現(xiàn)有自建聊天室功能,加入一個(gè)聊天室以后又發(fā)現(xiàn)聊天室的發(fā)言會(huì)自動(dòng)生成實(shí)時(shí)字幕。因?yàn)楣P者也參與過(guò)一些NLP、語(yǔ)音識(shí)別、圖譜、自動(dòng)翻譯的研究工作,發(fā)現(xiàn)這些功能后覺得很有意思,做過(guò)AI的同學(xué)都知道這一類語(yǔ)音識(shí)別和自動(dòng)翻譯會(huì)消耗算力,因此筆者就在思考這些互聯(lián)網(wǎng)公司為什么會(huì)去消耗大量成本做這些功能,本文就是筆者自己對(duì)這問題的一些分析思考,未做原廠調(diào)研,不能做為嚴(yán)謹(jǐn)?shù)目蒲形墨I(xiàn)參考。
? ? ? ? 1.自動(dòng)字幕生成和自動(dòng)翻譯功能分析
? ? ? ? 我們先看看,自動(dòng)字幕生成大致會(huì)用到幾個(gè)工具:語(yǔ)音識(shí)別(負(fù)責(zé)語(yǔ)音轉(zhuǎn)文字的識(shí)別)、自然語(yǔ)義處理(用于對(duì)生成的文字和詞進(jìn)行語(yǔ)義級(jí)的糾錯(cuò),關(guān)鍵詞提取)、知識(shí)圖譜(其實(shí)是和自然語(yǔ)義處理相關(guān)聯(lián)的,會(huì)根據(jù)不同schema的圖譜進(jìn)行更準(zhǔn)確的糾錯(cuò),并支撐自動(dòng)翻譯)、自然語(yǔ)言生成(可以算作糾錯(cuò)后的句子、段落生成對(duì)應(yīng)的文本,當(dāng)然根據(jù)地域會(huì)生成簡(jiǎn)體或者繁體中文)、自動(dòng)翻譯(這個(gè)沒啥好說(shuō)的)。
????????2.工程落地其他難點(diǎn)
????????????????2.1視頻因?yàn)橛蟹昼R頭和轉(zhuǎn)場(chǎng),所以一個(gè)完整的鏡頭可能是一個(gè)完整的句子或者段落,一一個(gè)完整的句子和段落可能也會(huì)對(duì)應(yīng)若干個(gè)鏡頭。所以生成的字幕如果要和鏡頭相匹配,還需要對(duì)視頻進(jìn)行一定的圖片切幀,進(jìn)行圖像識(shí)別或者分析,筆者猜測(cè)如果是口述可以進(jìn)行一定程度的唇語(yǔ)分析(但是不清楚現(xiàn)在有沒有人或者團(tuán)隊(duì)做過(guò)類似的訓(xùn)練)。但是如果是有動(dòng)畫、物體拍攝、邏輯遞進(jìn)等場(chǎng)景,就需要對(duì)視頻主要目標(biāo),比如抖音跳舞的美女、科普演講、手機(jī)評(píng)測(cè)等一類進(jìn)行簡(jiǎn)單schema的構(gòu)建,才能更好的講生成文本和視頻分鏡頭做更好的結(jié)合。
????????????????2.2如果是一些邏輯性不強(qiáng)或者沒有提前構(gòu)建schema的視頻,比如電影介紹一類就很難去提前構(gòu)建視頻的圖譜本體,筆者猜測(cè)這種生成的字幕可能就需要人工干預(yù)了,但是廠商如果為了控制成本,不見得會(huì)給所有的視頻提供自動(dòng)字幕生成或者自動(dòng)翻譯功能。這就是我們會(huì)看到不是所有的視頻都有字幕選項(xiàng)。
????????????????2.3還有部分是視頻制作者本身就添加了字幕,但是廠商也提供了自動(dòng)字幕生成功能,這個(gè)時(shí)候從技術(shù)角度看,通過(guò)對(duì)視頻自帶的字幕進(jìn)行OCR提取,和自動(dòng)生成的字幕進(jìn)行比對(duì)糾錯(cuò),這算是一個(gè)很好的免費(fèi)訓(xùn)練方式。
????????3.為什么要去做字幕自動(dòng)生成和翻譯
????????通過(guò)1、2的分析,其實(shí)可以知道做字幕自動(dòng)生成和翻譯會(huì)有兩方面的成本,一方面是算力的成本,一方面是開發(fā)成本,而且預(yù)計(jì)整個(gè)開發(fā)和迭代成本并不低。如果按照預(yù)訓(xùn)練或者構(gòu)建schema的技術(shù)邏輯,筆者認(rèn)為做這個(gè)工作的投入和產(chǎn)出是不成正比的,本身也很難做為成熟的ToB技術(shù)創(chuàng)新或者技術(shù)輸出變現(xiàn)。因?yàn)楸旧碓谒惴ㄔ紕?chuàng)新層面沒有太多創(chuàng)新,只是在落地工程代碼層面做了些工作。
????????所以筆者認(rèn)為互聯(lián)網(wǎng)廠商做這些功能不能從技術(shù)創(chuàng)新角度去看,而應(yīng)該從商業(yè)邏輯來(lái)看。做過(guò)產(chǎn)品經(jīng)理的同學(xué)都知道,在做產(chǎn)品設(shè)計(jì)的時(shí)候,會(huì)將新功能分為必備、反向、無(wú)差異等屬性。如果按照產(chǎn)品組件的角度去看,毫無(wú)疑問這兩個(gè)功能大概率屬于無(wú)差異功能。也許有同學(xué)會(huì)反駁翻譯功能對(duì)自己還是很有用的,這個(gè)問題稍后會(huì)補(bǔ)充筆者的看法。但是如果把網(wǎng)站平臺(tái)看做一個(gè)系統(tǒng),這個(gè)系統(tǒng)對(duì)應(yīng)了若干場(chǎng)景,每個(gè)場(chǎng)景是由不同組件完成(其實(shí)這里的實(shí)現(xiàn)已經(jīng)接近于體系工程的自涌現(xiàn)了)。我們對(duì)場(chǎng)景進(jìn)行研究就會(huì)發(fā)現(xiàn)一些有趣的事了,但是在這之前我還是想做些概念的分析和闡述。
? ? ? ? ????????3.1視頻和微博廠商的盈利邏輯是什么?
????????????????很多同學(xué)會(huì)說(shuō)互聯(lián)網(wǎng)廠商盈利不就那幾招,廣告、抽成、訂閱、股票等等。有經(jīng)驗(yàn)的同學(xué)會(huì)說(shuō)互聯(lián)網(wǎng)廠商的盈利根本是用戶流量。但是我們?cè)俜治鱿氯ィ脩袅髁渴鞘裁??用戶?shù)嗎,有些新型廠商為了快速融資會(huì)通過(guò)地推、促銷、廣告、裂變(最有名的就是PDD了)等手段快速擴(kuò)大注冊(cè)用戶數(shù),但是注冊(cè)用戶數(shù)不等于流量,因?yàn)橛行┯脩糇?cè)了發(fā)現(xiàn)不感興趣,今生今世可能都不會(huì)登錄了。那是有效用戶數(shù)嗎?那什么是有效用戶數(shù)?付了費(fèi)的算有效用戶嗎?每天都上來(lái)看看的算有效用戶嗎?每天花費(fèi)大量時(shí)間使用一個(gè)app的算有效用戶嗎?
????????????????如果是在互聯(lián)網(wǎng)廠商待過(guò)的同學(xué)都明白,我們很難用以上的一些邏輯來(lái)真正準(zhǔn)確定義“有效用戶流量”。是在于我們的RFLP物理到抽象邏輯的建模方法,無(wú)法準(zhǔn)確描述C端用戶這種幾乎是混沌的一種群體。問題出在哪兒?看過(guò)《烏合之眾》的同學(xué)就知道,人這種個(gè)體的分析本來(lái)就屬于人文和社會(huì)科學(xué)領(lǐng)域,如果強(qiáng)行用自然科學(xué)的思維去分析建模一開始方法就沒有用對(duì)(當(dāng)然當(dāng)今大量技術(shù)和方法論本身就是跨學(xué)科,筆者反對(duì)的只是用單一的純理工科的方法去分析問題,并不是反對(duì)這個(gè)過(guò)程不使用自然科學(xué)的方法論和技術(shù))。
????????????????3.2如何按照跨學(xué)科思維去分析“有效用戶流量”?
????????????????筆者這里嘗試用行為心理學(xué)的“上癮機(jī)制”來(lái)描述和定義“有效用戶流量”,個(gè)人認(rèn)為有效用戶流量是指用戶群體將注意力集中于一個(gè)事物,并且感知和認(rèn)知層都專注于該事物,并投入大量成本最終形成上癮的現(xiàn)象。因?yàn)樾袨樾睦韺W(xué)本身就是跨學(xué)科專業(yè),除了采用了經(jīng)典心理學(xué)的理論外,還參考了社會(huì)學(xué)的部分群體理論,經(jīng)濟(jì)學(xué)的部分原理,并衍生出了行為經(jīng)濟(jì)學(xué)等專業(yè)。但是筆者認(rèn)為最重要的一點(diǎn)是,用戶群體他的感知不但要集中于一個(gè)事物,認(rèn)知也要集中于同一個(gè)事物,才能形成上癮并轉(zhuǎn)化為“有效流量”,系統(tǒng)工程和心理學(xué)里面都提到過(guò)人的短期記憶和長(zhǎng)期記憶模型,AI的感知和認(rèn)知分層也是基于該理論進(jìn)行構(gòu)建。其中上癮機(jī)制就是為了獲得短期快感,不斷加大刺激和專注,但是對(duì)app的上癮機(jī)制形成,絕不是和麻醉藥品、光顧失足婦女一樣是單純通過(guò)感知層刺激能形成的?!墩J(rèn)知科學(xué)導(dǎo)論》里面也提到對(duì)于某件事情的成癮,比如玩手機(jī)和吸毒的原理類似,但是玩手機(jī)等事件的成癮是需要大腦認(rèn)知的參與的。(這部分闡述比較抽象,有些描述邏輯性還不夠,以后有時(shí)間再去完善了)
? ? ? ? ????????3.3如何培養(yǎng)有效用戶的成癮場(chǎng)景?
????????????????通過(guò)前面的分析,我們梳理幾個(gè)結(jié)論:對(duì)于互聯(lián)網(wǎng)廠商的平臺(tái)必須形成上癮才能算是有效;這一類上癮不是吸毒,不僅是感知的集中,也必須在認(rèn)知上集中注意力;拋開場(chǎng)景談技術(shù)無(wú)意義,群體的形成必須是有對(duì)應(yīng)的場(chǎng)景設(shè)計(jì)和分析(比如周圍的大學(xué)生都在刷抖音,你不刷就很難融入群體,本身就無(wú)法獲得社會(huì)認(rèn)同感。周圍的單身漢都在刷soul撩妹子,你不刷就會(huì)造成對(duì)于單身的恐慌或者對(duì)約炮的向往)。
????????????????所以牛X的廠商產(chǎn)品經(jīng)理或者總監(jiān),一定是場(chǎng)景設(shè)計(jì)或者預(yù)期描述的高手(但是筆者對(duì)這一點(diǎn)深為厭惡,從科學(xué)上看預(yù)期描述的因果關(guān)系和歸因關(guān)系是兩回事,從道德上看商業(yè)主義綁架了人的天性,缺乏道德的設(shè)計(jì)無(wú)論如何都應(yīng)該被唾棄)。
? ? ? ? ? ? ? ? 我們回過(guò)頭來(lái)看視頻廠商,視頻分為長(zhǎng)視頻和短視頻,長(zhǎng)視頻有愛奇藝、油管、billibilli等以科普、評(píng)測(cè)、綜述、影視劇為主的平臺(tái),短視頻有抖音等平臺(tái)(還有其他平臺(tái),但是筆者不刷短視頻,也懶得去調(diào)研)。表面上看短視頻刻意將時(shí)間控制在秒級(jí)為單位,但實(shí)質(zhì)原因是短期感知刺激分泌的多巴胺數(shù)量和快感不是線性正比的,隨著多巴胺持續(xù)分泌快感也是呈波浪形形態(tài),所以將短期的刺激再拆分成更短的時(shí)間維度,就可以保證每個(gè)短視頻的切換,都會(huì)引起快感呈一波一波的上升趨勢(shì),避免用戶的快感疲勞。那為什么王者榮耀就不能以秒為單位來(lái)做一局呢,是因?yàn)閷?duì)抗類游戲需要注意力不斷集中,不斷做出新的決策模型,多巴胺的持續(xù)分泌會(huì)消減快感疲勞,這就是為什么認(rèn)知層的參與在成癮過(guò)程中這么重要。但是如果是王者榮耀連招很熟練的高手打得太多可能就無(wú)法獲得這么多快感,是因?yàn)檫B招的模型庫(kù)已經(jīng)進(jìn)入短期模型庫(kù),不需要學(xué)習(xí)或者新的研判了(系統(tǒng)工程的一些課程里面會(huì)詳細(xì)闡述人的短期記憶模型庫(kù)和長(zhǎng)期記憶模型庫(kù),這里不做過(guò)多闡述)。還有一類比如羊了個(gè)羊、植物大戰(zhàn)僵尸玩法簡(jiǎn)單的游戲,就需要通過(guò)時(shí)間倒計(jì)時(shí)方式施加緊迫感,來(lái)加強(qiáng)注意力機(jī)制,避免快感疲勞。
????????????????這個(gè)時(shí)候我們?cè)賮?lái)看長(zhǎng)視頻平臺(tái),致命的場(chǎng)景問題出現(xiàn)了。我們?cè)诳撮L(zhǎng)視頻的時(shí)候,獲得感知的方式很多,但是主要是視覺和聽覺,但是因?yàn)槿狈换?,所以認(rèn)知層參與的很少。這就造成用戶在看一個(gè)視頻的時(shí)候,很難長(zhǎng)時(shí)間將感知和認(rèn)知都集中于這個(gè)視頻上,有時(shí)候可能是需要做其他事,所以打開視頻也只是聽聲音為主(筆者不建議看學(xué)習(xí)視頻的時(shí)候這樣干),有時(shí)候可能是覺得視頻的前敘還沒有講到讓自己感興趣的內(nèi)容,也許是純屬開著聽個(gè)響(奈飛、葫蘆的影視劇不同,有時(shí)間我們可以單獨(dú)再分析一下)。那這些場(chǎng)景下,客戶如何成癮并轉(zhuǎn)化為有效用戶呢?實(shí)際上很多長(zhǎng)視頻平臺(tái)意識(shí)到了這個(gè)問題,也有意無(wú)意做了很多嘗試,比如在視頻中間插播廣告,你真以為廠商是想賺那點(diǎn)廣告費(fèi)?在視頻中加入抽獎(jiǎng)或者其他互動(dòng)環(huán)節(jié)。但是這畢竟是階段性的,平臺(tái)不能每隔30秒就來(lái)一次吧!
????????????????所以這個(gè)時(shí)候我們?cè)賮?lái)看自動(dòng)字幕生成,有趣的事情發(fā)生了,圖片、文字、聲音、觸覺采集的方式不同,在人體傳輸?shù)纳窠?jīng)鏈路不同,甚至在大腦的映射區(qū)都是不同的。這個(gè)不是我說(shuō)的,有興趣的可以翻看《認(rèn)知科學(xué)導(dǎo)論》,里面有大量的醫(yī)學(xué)數(shù)據(jù)和測(cè)試報(bào)告,實(shí)質(zhì)上手、腳、舌頭和臉觸碰同一個(gè)物體表面所傳遞和映射的方式都是不同的(有興趣的同學(xué)可以結(jié)合性心理學(xué)做些研究^_^,別說(shuō)我猥瑣哈)。因此當(dāng)我們?nèi)ネ瑫r(shí)看視頻、文字,聽聲音的時(shí)候,傳輸?shù)酱竽X的映射區(qū)和鏈路就有了三條不同的方式。特別是和視頻、聲音的短期刺激不同,文字在人的進(jìn)化史中,和長(zhǎng)期記憶模型庫(kù)、認(rèn)知層是高度緊密相關(guān)的。無(wú)形中就構(gòu)建了感知層和認(rèn)知層的同時(shí)參與,同時(shí)因?yàn)檎J(rèn)知層的部分參與,感知層視覺和聽覺的也不再分散,短期刺激的快感疲勞會(huì)通過(guò)視覺、聽覺兩條鏈路做部分抵消。
????????4.綜上所述,因?yàn)樽詣?dòng)字幕的生成,牽引了認(rèn)知層的參與,并帶動(dòng)了多個(gè)感知器官的參與。用戶的注意力更加集中,更容易上癮并形成有效訪問。這就是為什么聊天室如果有自動(dòng)字幕生成,很多人大概率會(huì)花更多時(shí)間去看聊天室聊了什么(當(dāng)然這只是相對(duì)以前而言,不代表絕對(duì)時(shí)間),至于為什么說(shuō)自動(dòng)翻譯也是屬于無(wú)感知功能呢,因?yàn)槿タ创蠖瓮庹Z(yǔ)長(zhǎng)視頻的,大概率是為了學(xué)習(xí)了解新知識(shí),這部分人群如果你不會(huì)外語(yǔ)還是去看盜版電影或者找相關(guān)翻譯好的論文算了。文章來(lái)源:http://www.zghlxwxcb.cn/news/detail-400883.html
? ? ? ? 最后,這不是嚴(yán)謹(jǐn)?shù)目蒲姓撐?,只是筆者的個(gè)人隨筆分析,僅供參考。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-400883.html
到了這里,關(guān)于為什么現(xiàn)在的視頻都會(huì)加入自動(dòng)字幕功能?的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!