Rocky Ding
WeThinkIn
寫在前面
【AI行研&商業(yè)價值分析】欄目專注于分享AI行業(yè)中最新熱點/風(fēng)口的思考與判斷。也歡迎大家提出寶貴的優(yōu)化建議,一起交流學(xué)習(xí)??
大家好,我是Rocky。
2023年3月21日,微軟創(chuàng)始人比爾·蓋茨在其博客文章《The Age of AI has begun》中表示,自從1980年首次看到圖形用戶界面(graphical user interface)以來,以O(shè)penAI為代表的科技公司發(fā)布的AIGC模型是他所見過的最具革命性的技術(shù)進(jìn)步。
Rocky也認(rèn)為,AIGC及其生態(tài)鏈,會成為AI行業(yè)重大變革的主導(dǎo)力量。AIGC會帶來一個全新的紅利期,未來隨著AIGC的全面落地和深度商用,會深刻改變我們的工作,生活,學(xué)習(xí)以及交流方式,許多行業(yè)都將被重新定義,過程會非常有趣。
二十世紀(jì)末PC革命的時候,Rocky還在玩小霸王學(xué)習(xí)機(jī);二十一世紀(jì)初互聯(lián)網(wǎng)革命的時候,Rocky還在教室里獲取新知,但Rocky依舊從革新中感受到了震撼。當(dāng)前由AIGC引發(fā)的科技浪潮,同樣讓Rocky興奮,正是其ToC的迭代可能性,讓Rokcy在早期就做出了all in AIGC的決定。
而在剛剛過去的“瘋狂三月”,世界上主要科技公司與研究機(jī)構(gòu)們爭先恐后發(fā)布關(guān)于AIGC的最新進(jìn)展,讓人目不暇接,吃瓜群眾們紛紛驚呼不已。那么,在狂歡過后,我們該如何更好的審視AIGC的未來?我們該如何更好地?fù)肀IGC引領(lǐng)的革新?接下來Rocky準(zhǔn)備從技術(shù),產(chǎn)品,長期主義等維度分享一些個人的核心思考與觀點,希望能幫助各位讀者對AIGC有一個全面的了解。
So,enjoy(與本文的BGM一起食用更佳哦):
正文開始
----【目錄先行】----
-
何為AIGC
-
“瘋狂的三月”,AI新時代的開啟
-
AIGC引發(fā)的科技浪潮,給了我們什么啟示(后續(xù)文章中將發(fā)布,敬請期待)
-
AIGC時代下,還會涌現(xiàn)哪些現(xiàn)象級產(chǎn)品(后續(xù)文章中將發(fā)布,敬請期待)
-
AI從業(yè)者在AIGC時代下如何“轉(zhuǎn)型”(后續(xù)文章中將發(fā)布,敬請期待)
【一】何為AIGC
如果你還不知道AIGC,don’t worry,Rocky接下來將會詳細(xì)闡述AIGC是什么,幫助大家對AIGC建立全面的理解。
AIGC全稱Artificial Intelligence Generated Content,也就是人工智能生成內(nèi)容,而這個內(nèi)容就包含了圖像,視頻,文本對話,語音等信息交互的基本單元。
目前,在圖像和文本對話領(lǐng)域,Stable Diffusion和ChatGPT兩個人工智能模型橫空出世,在圖像和文本對話領(lǐng)域奠定了商用的基礎(chǔ)。
Stable Diffusion讓包含AI繪畫在內(nèi)的圖像生成應(yīng)用井噴式爆發(fā),其逼真的畫面內(nèi)容,讓很多專業(yè)人士都驚呼AI已經(jīng)具備“創(chuàng)造力”。通常來說,人類用視覺從外界獲取的信息占到總信息的80%,而這龐大的信息中,AI生產(chǎn)的內(nèi)容似乎開始潛移默化的加入。據(jù)估計,到2025年,世界上10%的內(nèi)容數(shù)據(jù)都將由AI去創(chuàng)造。
ChatGPT更不用說,其本身就成為了一個現(xiàn)象級的應(yīng)用,讓沉寂已久的自然語言處理領(lǐng)域著實風(fēng)光了一把。
其展現(xiàn)出的強大的上下文理解能力與對話能力,無疑預(yù)示著未來的生產(chǎn)力將迎來大爆發(fā),AI第一次讓人類有了可以全方位依靠的“感覺”,但同時也引起了悲觀人士對人工智能將會“掌管世界”的恐慌。
關(guān)于ChatGPT的解析,Rocky之前已經(jīng)在深入淺出解析ChatGPT引領(lǐng)的科技浪潮 |【AI行研&商業(yè)價值分析】中深入講解,感興趣的讀者可以補充閱讀。
在圖像和文本對話領(lǐng)域?qū)崿F(xiàn)爆發(fā)后,未來AIGC在視頻和音頻領(lǐng)域的突破也只是時間問題。除了圖像,文本對話等單模態(tài)領(lǐng)域,AIGC的多模態(tài)應(yīng)用也已經(jīng)迅猛發(fā)展,比如文本生成圖像,圖像生成文本,文本生成視頻,圖像/視頻生成文本對話等,更加精準(zhǔn)地模擬了現(xiàn)實世界的信息交互,多模態(tài)AIGC是真正實現(xiàn)認(rèn)知和決策智能的關(guān)鍵一招。
多模態(tài)發(fā)展的最終形態(tài),很可能會創(chuàng)造出一個“智能體”,它能夠從外界接收圖像視頻,語音以及本文,并通過“思考”之后,同樣通過圖像視頻,語音和本文作出應(yīng)對,比如像賈維斯一樣給鋼鐵俠提供建議,亦或者是像天網(wǎng)那樣有自己“倔強”的想法。
【二】“瘋狂的三月”,AI新時代的開啟
2023年的三月,瘋狂程度可以載入AI史冊。
GPT-4、Microsoft 365 Copilot、Midjourney V5、Google PaLM API、文心一言等等重磅的AI創(chuàng)新產(chǎn)品扎堆推出,讓吃瓜群眾目不暇接,讓蹭熱度媒體人日日“震驚并刷新認(rèn)知”。
除此之外,我們還能做什么呢?
我們首先要做的,是記住這帶來革新的一個月,并梳理總結(jié)這些新產(chǎn)品的核心本質(zhì)。
那么,讓我們開始吧。
微軟發(fā)布Visual ChatGPT
原生的ChatGPT展現(xiàn)出了強勁的文本推理能力和對話問答能力,但是它無法處理視覺信息。
Visual ChatGPT通過借助如Visual Transformer和Stable Diffusion等視覺模型的強大的視覺理解和生成能力,來開啟ChatGPT處理視覺任務(wù)的研究方向。
目前Visual ChatGPT可以達(dá)到如下效果:
- 接收和發(fā)送文本和圖像。
- 提供復(fù)雜的視覺問答和視覺編輯等應(yīng)用,并通過多步迭代優(yōu)化的方式來解決復(fù)雜視覺任務(wù)。
- 可以提供反饋,總結(jié)答案,主動詢問模糊的prompt等附加功能。
Visual ChatGPT論文鏈接:https://arxiv.org/abs/2303.04671
Visual ChatGPT開源代碼:https://github.com/microsoft/visual-chatgpt
斯坦福大學(xué)發(fā)布Alpaca
斯坦福大學(xué)發(fā)布了由Meta的LLaMA 7B模型微調(diào)而來的Alpaca模型。
Alpaca模型宣稱訓(xùn)練成本不到600美元,但是評估效果與ChatGPT相當(dāng)。
那么斯坦福研究團(tuán)隊是怎么用這區(qū)區(qū)600美元來完成“如此大”的工程呢?
首先,斯坦福團(tuán)隊花了不到500美元用ChatGPT的API來生成研究所需的訓(xùn)練數(shù)據(jù)(這騷操作,Rocky愿稱之為蒂花之秀)
接著,用云計算平臺去微調(diào)訓(xùn)練Alpaca模型,其訓(xùn)練成本只有100美元。
就這樣,ChatPGT的能力就被很好的“拷貝”了,并且Alpaca模型的參數(shù)只有70億,比ChatGPT少了約25倍,讓其在單卡上運行成為了可能。
這說明我們能夠獲得的類ChatGPT功能的綜合成本將會逐步降低。
Alpaca開源代碼:https://github.com/tatsu-lab/stanford_alpaca
清華發(fā)布ChatGLM-6B
ChatGLM-6B是由清華技術(shù)成果轉(zhuǎn)化公司智譜AI開源的中英雙語對話模型,并針對中文進(jìn)行了優(yōu)化。雖然存在和ChatGPT一樣的事實錯誤、胡說八道的問題,但是作為開源模型其支持在單張消費級顯卡上部署應(yīng)用。
ChatGLM-6B開源代碼:https://github.com/THUDM/ChatGLM-6B
OpenAI發(fā)布GPT-4
北京時間2022年3月15日凌晨1時,OpenAI發(fā)布GPT-4。
「這是二十一世紀(jì)以來,人類最慌的一天」,「一切都將會變得不一樣」,一些從業(yè)者興奮萬分,一些從業(yè)者憂心忡忡,如此極端的行業(yè)氛圍在上一次是什么時候?10年前?20年前?
可以肯定的是,這次的AI引領(lǐng)的科技浪潮,踏踏實實充滿了落地可能性。
GPT-4相比ChatGPT擁有了多模態(tài)能力,同時推理能力進(jìn)一步增強,不僅能夠與人類正常對話,也能夠識別圖像,生成歌詞,制作網(wǎng)站,并且在哈佛和斯坦福等名校中取得了優(yōu)異的考試成績,確實出現(xiàn)了一點AGI(artificial general intelligence,通用人工智能)的意思。
插入視頻
是的,AI行業(yè)的iPhone時刻到來了。
這是很多人都在說的,那到底什么是iphone時刻呢?
iPhone用強大的產(chǎn)品邏輯整合已有技術(shù)開創(chuàng)了一個革命性的智能手機(jī)界面交互模式,由此推動了移動互聯(lián)網(wǎng)的全面爆發(fā)。
麻省理工認(rèn)為,GPT-4可能是OpenAI有史以來最神秘的版本,也標(biāo)志著它從非營利性研究機(jī)構(gòu)向盈利性技術(shù)公司的全面轉(zhuǎn)型。
微軟發(fā)布New Bing和Microsoft 365 Copilot
早些時候,微軟發(fā)布了New Bing,其在搜索引擎中集成了ChatGPT。
New Bing可以引用最近1小時發(fā)布的信息回答用戶的問題。如果用戶提出的問題比較模糊,新版Bing則會嘗試“反問”用戶,并為用戶給出相應(yīng)的答復(fù)建議。簡而言之,New Bing是搜索引擎+實時信息+ChatGPT的一次嘗試,打造一種“聊天式的搜索引擎工具”。
等待GPT-4一發(fā)布,微軟馬上“坦白”,確認(rèn)了New Bing使用的普羅米修斯模型(Prometheus)就是OpenAI發(fā)布的GPT-4,并且表示使用New Bing的用戶應(yīng)該已經(jīng)體驗到GPT-4的強大功能。
微軟:“不愧是我”。
但是微軟的AIGC嘗試并未就此告一段落。
緊接著微軟發(fā)布另一個重磅應(yīng)用:Microsoft 365 Copilot,一夜之間在中外互聯(lián)網(wǎng)上刷屏。
Copilot也應(yīng)用了GPT-4技術(shù),能夠幫助用戶在 Word、Excel、PowerPoint、Outlook 和Teams等軟件中進(jìn)行寫作、編輯、總結(jié)、創(chuàng)作、演示文稿等工作。
用戶可以根據(jù)需求生成文檔,也可以讓Copilot自動做PPT,并一鍵做出精美排版,還可以讓Excel自動分析數(shù)據(jù)的特點,自動生成分析圖表等。
微軟認(rèn)為此次Copilot最重大的意義是在于大幅提高了生產(chǎn)效率,減少了日常不必要的工作時間浪費,我們與電腦的交互方式邁入了新的階段,從此我們的工作方式將永遠(yuǎn)改變,開啟新一輪的生產(chǎn)力大爆發(fā)。
Anthropic發(fā)布Claude
在ChatGPT發(fā)布,并且微軟加注OpenAI之后,Google火速投資Anthropic,這個由前OpenAI研究副總裁Dario Amodei創(chuàng)立的人工智能公司。
風(fēng)浪大了,好賣魚。
之后,Anthropic便發(fā)布Claude,直接對標(biāo)ChatGPT。其宣稱具有和ChatGPT一樣的對話問答能力,能夠執(zhí)行各種基于文字對話的任務(wù),如文檔搜索、摘要、寫作、編碼,以及響應(yīng)用戶的提問。
Google發(fā)布PaLM API
Google在3月14日晚間開放了其大語言模型PaLM的API。Google一度是互聯(lián)網(wǎng)公司在AI領(lǐng)域的半壁江山,但必須要承認(rèn)的是,在這次AIGC的浪潮里,Google的工作并沒有得到預(yù)期的關(guān)注。
因為同一天的晚時候,GPT-4閃亮登場了。
與微軟類似,Google也全面更新了旗下的AI辦公工具,主要包含以下幾個方面:
- AI賦能Gmail,使其智能化。
- 在Google Docs中集成頭腦風(fēng)暴、自動內(nèi)容生、校對、修正重寫等AI功能。
- 在Google Slides中通過關(guān)鍵詞來自動幫助用戶生成的圖像、音頻和視頻,并能提供各種不同幻燈片創(chuàng)意選擇。
- 在Google Sheets中集成自動整理表格、公式生成和上下文分類,以及基于原始數(shù)據(jù)的解讀和分析能力。
- 在Google Meet中提供新的AI背景生成、筆記記錄、總結(jié)等功能。
- 在所有功能中啟用AI對話助手(類似于ChatGPT),讓用戶能夠通過提問和描述的方式來快速生成內(nèi)容。
Midjourney V5發(fā)布
2023年3月15號,Midjourney公司發(fā)布付費AI圖像生成服務(wù)的迭代版本:Midjourney V5。
圖像的整體生成效果再上一層樓,細(xì)節(jié)刻畫更加逼真,而一直被詬病的AI不會畫手指的問題,在這一版中也得到了解決。
Nvidia發(fā)布H100 NVL
英偉達(dá)在一年一度的GTC大會上,發(fā)布了新顯卡:帶有雙GPU NVLink的H100 NVL。
H100 NVL是專門針對算力需求巨大的ChatGPT而設(shè)計的顯卡,H100 NVL擁有夸張的188GB HBM3內(nèi)存(每張卡94GB),這也是目前Nvidia發(fā)布的內(nèi)存最大的顯卡。
在如此夸張的配置加持下,H100 NVL就成為了大規(guī)模部署AIGC大模型的理想選擇。
與此同時,為了降低用戶部署大模型的成本,Nvidia還推出了DXG Cloud服務(wù),在云端將8張H100或A100顯卡組成的超級計算機(jī)提供給用戶,能夠便捷地完成類似ChatGPT等先進(jìn)AI應(yīng)用的計算工作。
或許,在抽絲剝繭之后,我們會發(fā)現(xiàn)把AI帶到各行各業(yè)的最原始的源頭,是Nvidia。
Runway發(fā)布Gen-2
Runway在2022年9月發(fā)布的Gen-1展現(xiàn)的文本轉(zhuǎn)視頻的能力給我們帶來了的極大的視覺震撼。
而現(xiàn)在,Gen-2發(fā)布了。
插入視頻
Gen-2不但可以從無到有直接生成視頻,并且與Gen-1相比,它生成的視頻幀與幀之間銜接得更加流暢了,整體畫質(zhì)也更加清晰。
那么等到Gen-3發(fā)布的時候,我們能不能一鍵生成抖音爆款短片呢?
Gen論文鏈接:https://arxiv.org/abs/2302.03011
百度發(fā)布文心一言
在GPT-4發(fā)布的當(dāng)天,百度發(fā)布文心一言對標(biāo)ChatGPT。
隨即,梗圖在網(wǎng)上爆火。
作為中國互聯(lián)網(wǎng)公司中第一個推出的AIGC商業(yè)化產(chǎn)品,希望未來能有更佳優(yōu)秀的迭代版本!
Adobe發(fā)布Firefly
2023年3月21號,Adobe推出了自己的創(chuàng)意生成式AI模型集:Adobe Firefly。
Firely的功能很多,主要包括:
- 通過文字生成、修改圖片
- 生成“源文件”:矢量插畫
- 以圖生圖
- 多素材合成圖片
- AI對話助手
Adobe認(rèn)為,AI正在提供一種打開世界的新方式,人們可以用最方便的方式來實現(xiàn)創(chuàng)意,“賦能設(shè)計師而不是取代設(shè)計師”。
Stability AI發(fā)布Table Diffusion Reimagine
在table Diffusion Reimagine(SDR)被發(fā)布之后,可以說人人都是prompt工程師的時代,還沒開始就結(jié)束了。
SDR允許用戶無限制地生成單個圖像的多種變體,并不需要復(fù)雜的prompt。用戶只需將圖像上傳到算法中,就可以創(chuàng)建他們想要的盡可能多的變體。
Meta發(fā)布Segment Anything Model
2023年4月6號,Meta發(fā)布了CV領(lǐng)域的分割大模型Segment Anything Model(SAM),并且開源了目前為止分割方向最大的數(shù)據(jù)集Segment Anything 1-Billion mask dataset(SA-1B),其包含了超過1100萬的數(shù)據(jù)與超過10億的mask標(biāo)簽。
在自然語言處理領(lǐng)域的大模型浪潮下,CV領(lǐng)域在未來或許會引來“ChatGPT時刻”。
SAM demo地址:https://segment-anything.com/
SAM 論文地址:https://arxiv.org/abs/2304.02643
精致的結(jié)尾
無數(shù)的科幻作品都預(yù)言過AI在未來會成為我們生活的一部份,有樂觀的闡述,有悲觀的闡述,也有理性的闡述。但不管怎么樣,我們離這個未來越來越近了。
在本系列的后續(xù)文章中,Rocky將繼續(xù)帶來關(guān)于《AIGC引發(fā)的科技浪潮,給了我們什么啟示》,《AIGC時代下,還會涌現(xiàn)哪些現(xiàn)象級產(chǎn)品》以及《AI從業(yè)者在AIGC時代下如何“轉(zhuǎn)型”》的核心思考與干貨分享,大家可以先一鍵三連,不要錯過后續(xù)精彩哦~
Rocky將算法高價值面試知識點即“三年面試五年模擬”之獨孤九劍秘籍前十二式進(jìn)行匯總梳理成匯總篇,并制作成pdf版本,大家可在公眾號后臺 【精華干貨】菜單或者回復(fù)關(guān)鍵詞“三年面試五年模擬” 進(jìn)行取用。
除此之外Rocky還將YOLOv1-v7全系列大解析也制作成相應(yīng)的pdf版本,大家可在公眾號后臺 【精華干貨】菜單或者回復(fù)關(guān)鍵詞“YOLO” 進(jìn)行取用。文章來源:http://www.zghlxwxcb.cn/news/detail-490310.html
Rocky一直在運營技術(shù)交流群(WeThinkIn-技術(shù)交流群),這個群的初心主要聚焦于技術(shù)話題的討論與學(xué)習(xí),包括但不限于CV算法,算法,開發(fā),IT技術(shù)以及工作經(jīng)驗等。群里有很多人工智能行業(yè)的大牛,歡迎大家入群一起學(xué)習(xí)交流~(請?zhí)砑有≈治⑿臞arvis8866,拉你進(jìn)群~)文章來源地址http://www.zghlxwxcb.cn/news/detail-490310.html
到了這里,關(guān)于在瘋狂三月之后,深入淺出分析AIGC的核心價值 (上篇)|【AI行研&商業(yè)價值分析】的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!