近期IT領(lǐng)域最火熱的話題就是AIGC了,可以說是真正出圈了,這個詞貌似是百度大力推廣的;國際上用得更多的是Generative生成式AI。最近的熱點是“真”智能聊天的產(chǎn)品chatGPT。我認為對上層產(chǎn)品而言最關(guān)鍵的是這2個里程碑:
20年中OpenAI推出GPT-3 OpenAPI,其它公司能夠基于大模型構(gòu)建產(chǎn)品。
22年下半年Stable Diffusion開源,其它公司能夠基于大模型用消費級GPU做微調(diào),構(gòu)建專屬模型。
就像移動平臺iOS/Android的出現(xiàn),使所有的產(chǎn)品都值得在移動端重做一遍一樣。隨著技術(shù)門檻降低,我認為Generative AI也值得使至少所有包含PGC/UGC功能的產(chǎn)品重做一遍,包括企業(yè)軟件這種天然就需要員工用戶來錄入內(nèi)容的system of records.
原播客在《Onboard》EP 20,想要邊聽邊看的可以點擊“閱讀原文”或訪問https://u3cexcdeqf.feishu.cn/minutes/obcn3lk861n736bxkos4ih88。以下文字記錄基本從播客文字中復制,所以采取問題+我總結(jié)的原話摘要的形式記錄。
問題:從技術(shù)的角度,現(xiàn)在我們看到的Generative AI 到了技術(shù)上,跟之前它是做了哪些準備,使得Generative AI現(xiàn)在能夠成為一個大家可以商用的一個技術(shù)?
田淵棟: 之前的 AI model 用的是 GAN 來train。GAN 有個問題,訓練不是很穩(wěn)定,訓練出來的結(jié)果其實也不一定非常好,所以遇到是很大的一個問題。最近大家都不用 GAN 了,用Diffusion model一點點的再加細節(jié)上去。model 訓練起來雖然比較慢,但是確實比較穩(wěn)定,得到結(jié)果也比GAN 的效果要好。這是其中的一個突破的點。
另外一個點是Transformer的引入。Transformer 主要的一個好的地方是,它能夠把多模態(tài)的數(shù)據(jù)放在一起進行對齊,然后把一個模態(tài)的信息轉(zhuǎn)到另外一個模態(tài)上去。Transformer一來,有個好的地方是我可以用文字去控制圖像的生成效果。因為Transformer有多模態(tài)的融合能力,所以我可以把圖像、文字都轉(zhuǎn)化成Transformer 的token,用Transformer embedding。這 embedding 之間,它們之間是相互之間可以翻譯的。這樣你就可以把文字變成圖像。通過這個方式就能夠訓練的也比較好。
我覺得另外一個可能一些突破,比如像CLIP loss function,有些 loss function 的改進,其實能夠讓訓練出來的embedding 變得更精細,它能理解更多的或者更深入的語義。通過這些比較大比較好的進步,最終能得到一個比較好的或者受控制的一個圖像生成模型。這是為什么現(xiàn)在那么火的原因。所以現(xiàn)在能火,要對于近 10 年來,大家在不懈努力,把圖像生成的效果一點點在往上推進,最后達到這樣的效果。
問題:其實上一波熱潮之后,我會發(fā)現(xiàn)當時很多做Computer Vision做AI的公司,其實我們后來看到成功的并不是很多。這一次會有什么相同和不同的地方?等到技術(shù)最終都被 commoditize了以后,這次誰能夠真正的賺到錢?能夠賺錢的 business model 會跟之前有什么不一樣嗎?
Lan: 現(xiàn)在很明顯的有,大概其實三波公司。一波專門做model,其實像OpenAI,像還有一些大公司,其實現(xiàn)在都做自己的 model,他們有很多的基金。很多 research要 train model 的,我覺得 winner 還是會 concentrate on 有最多基金的這些公司,因為 train model 是非常貴的。
第二波公司其實就建在我剛才說建在這些model,用他們model 去找這些場景的這些公司,能夠找到非常 specific use cases 去 monetize。這些公司,你跑得最快的,其實是可以賺很多錢,其實可以贏的。因為做 modelde公司,它不會有那么多時間去做這些use case。
第三波其實很多時候都用不上這些model,因為這些公司他們必須得建自己的新的model。是非常非常 specific vertical,比如焊接機器人,這個東西你有很多的知識在,太難做了,你要自己做一個機器人,現(xiàn)在很多 model 是用不上的,你要自己要做自己 model 也會去 leverage off the shelf。這個東西我覺得其實如果能做出來,基本上是一個 hundred billion dollar 公司。
問題:Transformer 現(xiàn)在它attention的機制,應該挺難生成大段大段的這樣的連貫性的、前后有關(guān)聯(lián)性的長文本。再往后面從你們角度來看,如何讓整個文章的結(jié)構(gòu)化,應該是會有什么突破,除了這個模型之上?
田淵棟: 所以它一個關(guān)鍵的點就是要控制它的prompt。在輸入prompt中我要把過去的文本的細節(jié),文本的那些 summary 和角色的一些設(shè)定,還有角色的一些特質(zhì),包括整個文章的主題,都要放進 prompt 里面去。這樣生成出來的文本才會有的放矢。它會有一個比較好的,或者比較跟以前的文本一樣的,或者比較連貫的一個架構(gòu)。這個是一個很重要的點。你會發(fā)現(xiàn)你把上下文放進 prompt 里面之后,生成出來的文本就會好很多。
當然了,我們之后還有一些后處理的步驟,比如有一個重新再重采樣的過程,你可以生成,比如 20 段,我們有一個方法,可以把 20 段比如排個序,只取最相關(guān)的一段作為下一段來處理。這樣生成出來的文本又長了又連貫。目前我們可以生成 2000 到比如 7000 詞的英文詞的,這樣的文本還是比較連貫。
問題:現(xiàn)在很多用 AI 生成文本的公司還是基于 prompt 提示詞,你發(fā)現(xiàn)要 fine tune 到你想要的效果,其實你的提示詞要非常的具體,可能就不是提示詞了,是一個提示段落了。所以其實對于很多創(chuàng)作者、藝術(shù)家來說,其實不是每個人的語言文字表達都可以那么的精確的。所以從技術(shù)的角度來說它。我們現(xiàn)在看到哪些公司在這個方面,或者哪些研究的方面有可能會有一些突破?
田淵棟: 其實可能需要更好的模型對吧?可能需要比如Transformer 上做一些改進,比如把Transformer 結(jié)合以前的模型,比如什么knowledge graph,或者把以前的知識用一些比如圖像、或者說用圖來表示。這樣的一個結(jié)構(gòu)可能會有一些幫助。接下來你怎么樣去能夠把具體語義上的一些非常 subtle 的東西能夠表示出來,這樣就能減少你提示詞的次數(shù)。這個是一個可能的問題。怎么樣personalize,或者怎么樣 contextualize 你的model?
問題:用生成式AI 來作為一個工具這個事情本身,在哪一些領(lǐng)域我們看到也是可以做得比較深,哪些領(lǐng)域可能比較容易有渠道上的一些劣勢?
Jiang Chun: Jasper的生成性只是它們的其中很小的一部分。他們最厲害是因為他們生成的東西能夠 optimize for SEO 算法。他們又有非常多的一些 community education,又有一些很好的上下游的服務來幫你來 post on social media directly。可能他們還會開始做AB testing。所以我覺得之后的AI能夠成長為 billion business的公司一定是和一個垂直的領(lǐng)域和 workflow 結(jié)合得非常好的。
垂直領(lǐng)域一定是一個非常好的打法,因為現(xiàn)在最好的有 retention 的公司,在 AI generation 方面:一個是做 interior design,賣給這些地產(chǎn)經(jīng)紀generation,一個是做汽車 generative design,會賣給福特這些公司。
問題:從技術(shù)角度現(xiàn)在我們有哪一些方向可以去把 cost 這個事情可以降低的。我們現(xiàn)在也還有哪些挑戰(zhàn)?
田淵棟: 清華的新模型DPM-solver可以把Stable Diffusion的step iteration從50次減少到20-30次。模型可以搞成更小的,但是效果還差不多,訓練可以用更便宜的GPU,或者用更少的GPU。
Jiang Chun: 他們這些大的模型公司會開始做的事情是有一點類似于MLOps。GPT-3,它也有很多不同的版本。如果有一個 platform 或者這些 foundation model,可以給你告訴你說如果是用在這個領(lǐng)域,你應該嘗試一下我們什么3.2.8版本。如果你在嘗試另一個方面,你可以用這兩個版本。這兩個版本有什么Pros and Cons,它們各自的 cost 是多少?這是一個也就是比較 handy 的一個方向。
問題:你們覺得現(xiàn)在哪一些是關(guān)于Generative AI,哪一些是你覺得 overhyped overestimated 的,而哪一些可能你覺得對你們來說是真實的一個價值?或者你覺得甚至有可能是被大家可能 underestimated 的一些東西
田淵棟: 技術(shù)上來說,我覺得接下來可能是怎么樣personalize一個 model 對吧?一個Large Language Model 怎么personalize?同樣的一個性能,但是能夠讓它在每家每戶上都能夠用上。這種情況下,你怎么樣能夠讓 model 最終能進入千家萬戶,能夠把 personalization 的東西做好,能夠讓大家能夠在自己的手機上或者自己的機器上能夠用上模型,達到效果。
可能有個瓶頸,現(xiàn)在大家數(shù)據(jù)越來越多,最后數(shù)據(jù)會用完的。我覺得之后有可能撞上這堵墻。因為以前以為數(shù)據(jù)是無限的,確實數(shù)據(jù)當時是無限,但是現(xiàn)在數(shù)據(jù)越來越多,計算越來越強。計算力可以很強,但是數(shù)據(jù)是不是撞上瓶頸不知道,這個是一個大的問題。文章來源:http://www.zghlxwxcb.cn/news/detail-488188.html
?文章來源地址http://www.zghlxwxcb.cn/news/detail-488188.html
到了這里,關(guān)于【SaaS播客】onboard20. 生成式AI AIGC:硅谷AI大牛、投資人、創(chuàng)業(yè)者眼里的機會與挑戰(zhàn)的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!